Назначение поисковых
роботов
Поисковая система собирает и
анализирует информацию с сайтов. Для этого она отправляет "программу-паука"
(spider), которая иначе называется "робот"
(robot) или "сборщик" (gather).
Указанная программа посещает все сайты, которые были добавлены в каталог
поисковой системы, просматривает их, запоминает страницы, их названия, рисунки и
т.д.
Единой терминологии для
поисковых систем нет. Нижеприведенная информация и терминология
употреблены исключительно для упрощённого представления об алгоритме работы
поисковой системы.
По области действия
поисковые системы можно разделить на глобальные, которые осуществляют
поиск на многих языках без учёта имени домена, и локальные, которые
осуществляют поиск в пределах определённого домена, например, национального, на
определенном языке.
Важно:
поисковый робот (паук) - это не насекомое и не механическое чудовище, а
программа.
Можно придумать сколько угодно алгоритмов работы
поисковой системы, методов
ранжирования
ключевых слов сайта и считать их наиболее точными.
Сколько поисковых систем - столько и мнений.
|
|




|
-
На заре развития у
поисковых систем был один поисковый робот, работающий циклично.
Сайты сканировались от "А" до "Я".
-
Совершенствование
поисковых систем привело к разделению поискового робота на
несколько специализированных поисковых роботов.
-
Каждый поисковый робот
стал отвечать за выполнение конкретных задач.
-
IP-адресов, с которых
"ходят" поисковые роботы, может быть много, они могут меняться и
поисковые системы их не разглашают.
-
Одна
из основных задач современной поисковой системы - оперативный сбор,
обработка и удобное представление информации на запросы
пользователей.
-
Оперативно собрать
и обработать без ошибок миллиарды веб-страниц нельзя. Можно
говорить лишь о степени соответствия результатов, выдаваемых
поисковой системой, ожиданиям пользователей.
-
Алгоритм работы
современных поисковых систем можно разделить на
штатный, или
автоматический, и нештатный - ручной или полуавтоматический.
-
В штатном режиме
поисковая система собирает и ранжирует ключевые слова сайтов без
участия человека. В нештатном режиме необходимо полное или частичное
участие человека - модератора поисковой системы.
-
100% веб-страниц,
имеющихся в базе данных поисковой системы, в штатном режиме не может
проиндексировать ни одна современная поисковая система.
|
Виды поисковых роботов
Название поискового робота |
Назначение поискового робота |
Примечание |
Национальный поисковый робот
(главный поисковый робот) |
Сбор
информации с одного национального домена и сайтов, принятых
к индексации в базу данных поисковой системы.
Пример: .ru, .su |
В
локальных поисковых системах. |
Глобальные поисковые роботы. |
Сбор
информации с национальных сайтов. Может быть один или
несколько. |
В
глобальных поисковых системах |
Индексатор картинок |
Отвечает за индексацию графики. |
Точнее - наблюдает (4) |
Индексатор аудио- и видеофайлов |
Отвечает за индексацию аудио- и видеофайлов. |
Робот-зеркальщик |
Определяет зеркала сайтов. |
|
Ссылочный робот |
Отвечает за подсчет числа ссылок на сайте. |
PageRank, индекс цитирования и
т.д. |
Робот-оформитель |
Отвечает за оформление результатов, выдаваемых поисковой
системой.
Например, обращающийся к веб-странице по ссылке "Найденные
слова" и выделяющий слова запроса в ее тексте. |
У
Yandex - робот-подсветчик
|
Проверяющий робот |
Проверяет наличие сайта в базе данных поисковой системы и
количество проиндексированных документов. |
|
Робот-стукач |
Один
или несколько роботов, определяющих, доступен ли в данный
момент сайт или документ, на который стоит ссылка в
соответствующем сервисе. Если сайт недоступен в течение
некоторого времени, он удаляется из базы данных (5). |
По
другому - "агент-стукач" (6) |
Робот-шпион |
Ищет
ссылки с сайтов на веб-страницы или сайты, которых нет в
базе данных поисковой системы. |
Поисковая система стремится увеличивать свою базу данных
автоматически. |
Робот- смотритель |
Предназначен для перепроверки полученных результатов. |
Запускаются в ручном режиме.
Могут
быть объединены в одном роботе. |
Робот
исследователь |
Предназначен для отладки алгоритма работы поисковой системы
или исследования конкретных сайтов. |
Быстрый робот |
Проверяет дату последнего обновления сайтов. |
Работает в автоматическом режиме |
Комментарии
-
Работу поискового робота можно сравнить с ходом часовой стрелки:
индексация сайтов осуществляется по кругу.
-
Результаты, полученные разными поисковыми роботами, объединяются в
единую базу данных. В целях увеличения скорости выдаваемых
посетителям результатов, база данных разбивается на несколько.
-
Поисковые системы
умеют анализировать текст.
-
Графику, аудио- и
видеофайлы поисковые роботы не распознают. Могут определить
количество, размер, дату создания и тип файла. Проще - наблюдать за
файлами таких типов.
-
Некоторые поисковые системы через некоторое время перепроверяют
доступен или нет сайт. Как только сайт начинает отвечать, он
автоматически появляется в результатах поиска. Другие поисковые
системы, при недоступности сайта, исключают его.
-
Существует целый ряд
роботов, основная задача которых - периодическая
автоматическая проверка определенных сайтов с последующим сбором
информации.
-
Задачей роботов может
быть поиск вредоносных сайтов. Например, Microsoft создала
робота-паука, который перемещается по Интернету и выявляет сайты, с
которых производится автоматическое заражение компьютеров под
управлением операционной системы Windows XP.
Резюме
-
Алгоритм любой поисковой системы создают люди. В алгоритме любой
современной поисковой системы могут быть ошибки как технические, так
и обусловленные субъективностью
ранжирования результатов.
-
Можно разработать
сколько угодно специализированных поисковых роботов. Конечную оценку
качества результатов запросов поисковой системы
дают ее пользователи.
-
Технически невозможно гарантировать
занятие сайтом конкретного рейтинга в поисковых машинах по
нескольким ключевым словам или фразам. Можно лишь прогнозировать
усреднённый рейтинг для широкого круга ключевых слов или фраз,
соответствующих предлагаемым на сайте товарам и услугам, или
достаточно близких тематике сайта.
|