Google и Yandex должны научиться работать с сайтами иначе...

Google и Yandex должны научиться работать с сайтами иначе...

Мне попалась на глаза заметка "Google научится мгновенно индексировать контент"

За этой простой заметкой стоит одна из самых больших проблем, с которой сталкиваются поисковые системы при индексации сайтов.

Вообще, поиск завоевал свое место на рынке и навсегда изменил принципы поиска информации. Сегодня, если вы дадите кому-то поручение что-то найти или узнать, он честно поищет в Google и Yandex и расскажет о результатах smile:) Т.е. если чего-то нет в общем индексе - значит этого вообще не существует, так будет рассуждать пользователь.

С одной стороны это хорошо, но в этом и есть трагедия будущего smile:) Кто управляет индексом и правилом сортировки данных, тот управляет потоками информации и ее доступностью. По сути, поиск становится стратегическим ресурсом будущего.

Но мы сейчас говорим о другом smile:)

Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?

Это довольно сложно для поисковой машины. Но это становится и проблемой для сайта. Контент вроде есть, а в основных точках поиска информации, в поисковиках, ее нет.

В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.

Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.

Для технических специалистов небольшая справка. В нашем продукте есть понятие - событие. Их довольно много и возникают они в разные моменты работы системы.

Есть целый список поисковых событий, которые возникают когда появляется и публикуется новый контент на сайте. Опубликована новость - событие. Новое сообщение на форуме - событие. Ну и т.д...

Обычным обработчиком таких событий является наш модуль поиска, который индексирует контент и делает его доступным в результатах поиска.

Но любой разработчик может создать свой модуль поиска или использовать эти события, чтобы наполнять внешний поисковый сервис. Именно так поступила компания Quintura.
http://www.1c-bitrix.ru/about/life/news/193723/

Quintura разработала бесплатный модуль, который можно установить в наш продукт и все изменения контента на сайте будут автоматически поступать в их поисковый индекс так же быстро и актуально, как если бы индекс строился в нашей системе.

Вот пример уже работающего проекта NewsWeek на нашем продукте с внешним поиском Quintura



Описание программы и условий сотрудничества с Quintura можно прочитать тут: http://affiliates.quintura.com/promo/bitrix-module.phtml?lng=ru

Если я правильно понимаю, то Google так же планирует представить некоторый API который смогут использовать разработчики сайтов, чтобы наполнять индекс актуальными данными и обновлять информацию в индексах. Учитывая проблемы поискового спама - видимо такое сотрудничество будет не для всех, а только для отдельных ресурсов и только по договору.

Было бы интересно сделать такие решения в нашем продукте для Yandex и Google. Клиенты бы оценили.

Но вообще мне кажется, что идет новое время, когда Yandex и Google начнут иначе и активнее работать с сайтами, научатся индексировать "глубокий" контент, быстро и актуально добавляя его в поисковые индексы.
0
Лобачев Виталий
05.03.2010 17:32:15
Quintur'e нужно было запатентовать технологию своих услуг, а так после начала работ гугла и яндекса по этой технологии, Quintur'у ждут не легкие времена smile:(
Ответить Ссылка 0
0
Сергей Рыжиков
05.03.2010 17:38:34
А что они должны были запатентовать?
Ответить Родитель Ссылка 0
0
Лобачев Виталий
05.03.2010 17:43:01
Технологию мгновенного индексирования через API.
Apple вот все подряд, что не придумает тут же патентует, а потом зарабатывает уйму денег только на патентах.
У нас же в стране по-моему еще не научились делать деньги только на идее, вовремя получив патент, как это уже давно делают в америке.
Ответить Родитель Ссылка 0
0
Курза Иван
05.03.2010 17:59:16
Вот с этой технологией грядет настоящая вонйа поисковиков... smile:)
Ответить Ссылка 0
0
Мартынов Сергей
05.03.2010 18:03:18
Сергей, насколько я понимаю, Google активно движется в этом направлении. И основной его инструмент в этом - sitemaps. Уже сейчас новостные сайты для google news индексируются (довольно близко к realtime) исключительно на основе sitemap (никаких rss google news не кушает).

Я считаю, что с точки зрения Гугла идти на разработку каких-то индивидуальных API можно только в исключительных случаях (как, например, twitter). Решений на каждый случай тут не придумаешь, поэтому с их точки зрения логичнее продолжать тянуть обычные html-страницы. А вот какие страницы "тягать" - это уже дело вебмастеров. Они заинтересованы в том, чтобы запретить к индексации все лишнее (типа результатов поиска) и подпихнуть в sitemap все обновления.
Ответить Ссылка 0
0
Лебедев Олег
05.03.2010 19:28:50
А мы вот всерьез подумываем закрыть доступ поисковикам. Вообще. Контентный сайт сегодня превращается в сырьевой придаток поискового механизма, что не очень интересно.

http://pcmag.ru/columns/detail.php?ID=5473 -- старая, но по сути заметка smile;-)
Ответить Ссылка 0
0
Месилов Максим
05.03.2010 22:51:17
Цитата
Мне попалась на глаза заметка "Google научится мгновенно индексировать контент"
Сергей, сдаётся шумиху они подняли по поводу относительно молодой технологии - PubSubHubbub.
Цитата
Протокол PubSubHubbub позволяет существующим фидам RSS и Atom превращаться в потоки в реальном времени. Он создаёт равные условия для всех, децентрализуя контроль над "живым" контентом в сети. Протокол не принадлежит ни одной компании, а участником может стать каждый - вот самые важные условия, благодаря которым Интернет достиг таких высот. PubSubHubbub легок в интеграции, хорошо масштабируется и продолжает набирать популярность. На этом выступлении мы расскажем, как уже сегодня площадки могут публиковать свой контент real-time. Вы узнаете подробности того, как PubSubHubbub даёт единый API для разработчиков, потребляющих огромные массивы информации.
Будучи на GDD смотрел их презентацию. Действительно занятная штука получается.

Ребята оказывается ходили и в Яндекс. Говорит Иван Сагалаев:
Цитата
У нас в Яндексе вчера был Бретт Слаткин и мы тёплой компанией инженеров общались про его с Брэдом Фицпатриком детище — PubSubHubbub.Будем ли мы что-то делать в рамках Яндекса, пока не знаю. Это всё пока требует внутреннего технического евангелизма. Но мне очень хочется smile:-)
Уже сейчас ваши разработчики могут ооочень легко улучшить доступность информации для ВСЕХ форумов и блогов на платформе 1С-Битрикс.

Поисковый робот, который обходит форумы и блоги пытается найти специальный XML-фид для более удобной и быстрой индексации. Т.е. это не обычный RSS, а специально размеченный, который и описывет структуру постов и комментариев к ним. И листая этот фид яндекс прочитает весь форум или ту часть что отдаётся для обычных посетителей.

http://nano.yandex.ru/project/yarss/
Цитата
С помощью этого RSS Яндекс сможет скачать и проиндексировать ваш форум целиком и быстро.
Я вообще сторонник того, что если сайт может, то он должен так же отдавать информацию в структурированном, машино-читаемом виде.
Ответить Ссылка 0
0
Месилов Максим
05.03.2010 22:55:08
Ну да, если платформа этого желает, то она реализует поддержку протокола и пожалуйста:

Цитата
# Впечатлила демка с FriendFeed'ом, который показывает в браузере новый пост в ленте через примерно 1.5 секунды после его написания в совершенно другом месте.
# Да, FriendFeed оказывается поддерживает hubbub, и реализация заняла у них что-то типа одного дня.
Ответить Ссылка 0
0
Виктор
11.03.2010 07:23:39
Цитата

Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?


Для этого есть sitemap в котором указывается адрес страницы и дата изменения
доступ разрешаем гигантам таким яндекс гугл ... - остальных отсеиваем nginxксом


Цитата

В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.

Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.


Сразу вопрос - доступна в каких результатах поиска ?

1. на ya.ru или google.com ?
модуль поиска битрикса не публикует их в яндексе
эх пингаторы .... пингаторы .... пингаторы ....


2. на сайте через поисковую форуму яндекса/гугла
для этого есть платные услуги Google Site Search у яндекса нечто подобное тоже возможно появиться

3. через поиск битрикса ?
будет новость на сайте но не будет в поисковых системах )

эх поиск поиск )))
Авто дополнение строки поиска а-ля Google - так и не реализовано
Сфинкс - все понятно
Поикс по одной букве "а" - у нас много ресурсов

Порой не все инфоблоки нужно индексировать - вырубая индексацию в одном - мы также вырубаем создание для него sitemapа - и где же после этого seo гармония ?


==================================
Пару ссылок по теме

http://www.google.com/sitesearch/
http://company.yandex.ru/technology/server/features/
http://sphinxsearch.com/
Ответить Ссылка 0
0
Каненос Каненас
13.03.2010 23:28:14
Google достаточно быстро и хорошо индексирует сайт.
Обратил внимание, что изменения первой страницы на Грек ру на Гугл отражаются на след день.
И он логично выдает результат по канонам поисковой оптимизации.

А вот с Яндексом же большие проблемы, обновляется раз в две недели и он с конца января три слова:
Греция
Греции
греция
воспринимает как совершенно разные слова.
Ответить Ссылка 0

Цикл бесплатных семинаров
Бесплатные семинары по управлению сайтом
Академия 1С-Битрикс: обучение, сертификация, онлайн-курсы