Мне попалась на глаза заметка "
Google научится мгновенно индексировать контент"
За этой простой заметкой стоит одна из самых больших проблем, с которой сталкиваются поисковые системы при индексации сайтов.
Вообще, поиск завоевал свое место на рынке и навсегда изменил принципы поиска информации. Сегодня, если вы дадите кому-то поручение что-то найти или узнать, он честно поищет в Google и Yandex и расскажет о результатах

Т.е. если чего-то нет в общем индексе - значит этого вообще не существует, так будет рассуждать пользователь.
С одной стороны это хорошо, но в этом и есть трагедия будущего

Кто управляет индексом и правилом сортировки данных, тот управляет потоками информации и ее доступностью. По сути, поиск становится стратегическим ресурсом будущего.
Но мы сейчас говорим о другом
Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?
Это довольно сложно для поисковой машины. Но это становится и проблемой для сайта. Контент вроде есть, а в основных точках поиска информации, в поисковиках, ее нет.
В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.
Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.
Для технических специалистов небольшая справка. В нашем продукте есть понятие -
событие. Их довольно много и возникают они в разные моменты работы системы.
Есть целый
список поисковых событий, которые возникают когда появляется и публикуется новый контент на сайте. Опубликована новость - событие. Новое сообщение на форуме - событие. Ну и т.д...
Обычным обработчиком таких событий является наш модуль поиска, который индексирует контент и делает его доступным в результатах поиска.
Но любой разработчик может создать свой модуль поиска или использовать эти события, чтобы наполнять внешний поисковый сервис. Именно так поступила компания Quintura.
http://www.1c-bitrix.ru/about/life/news/193723/
Quintura разработала бесплатный модуль, который можно установить в наш продукт и все изменения контента на сайте будут автоматически поступать в их поисковый индекс так же быстро и актуально, как если бы индекс строился в нашей системе.
Вот пример уже работающего проекта NewsWeek на нашем продукте с внешним поиском Quintura
Описание программы и условий сотрудничества с Quintura можно прочитать тут:
http://affiliates.quintura.com/promo/...tml?lng=ru
Если я правильно понимаю, то Google так же планирует представить некоторый API который смогут использовать разработчики сайтов, чтобы наполнять индекс актуальными данными и обновлять информацию в индексах. Учитывая проблемы поискового спама - видимо такое сотрудничество будет не для всех, а только для отдельных ресурсов и только по договору.
Было бы интересно сделать такие решения в нашем продукте для Yandex и Google. Клиенты бы оценили.
Но вообще мне кажется, что идет новое время, когда Yandex и Google начнут иначе и активнее работать с сайтами, научатся индексировать "глубокий" контент, быстро и актуально добавляя его в поисковые индексы.