О запрете на индексацию сайта поисковыми системами
Полнота и точность
результатов поиска важна для любой поисковой системы. Популярные поисковые
системы прекращают полностью или частично индексировать сайт:
Чаще всего
поисковые системы прекращают индексировать часть сайта по указанию
владельца сайта (ответственного веб-дизайнера).
Необходимость запрета к
индексации части сайта роботами поисковых систем, чаще
всего, вызвана стремлением веб-дизайнера выполнить поисковую
оптимизацию сайта.
Основная задача запрета к
индексации, в этом случае, - исключение из индексации
веб-страниц и их фрагментов, содержащих
случайные и
шумовые слова.
|
Основные варианты
запрета к индексации сайта
в целом или его части:
1.
Удаление сайта целиком
Для удаления из индексации сайта целиком
в корневой каталог сайта размещается файл robots.txt.
Это стандартный протокол, который
соблюдает большинство роботов поисковых систем.
2.
Удаление части сайта
Вариант 1: Robots.txt
Вариант 2: Мета-теги
-
Другой стандарт, более удобный для
работы со страницами, предусматривает использование на
html-странице
тега <meta>, запрещающего роботам
индексировать страницу.
3.
Удаление фрагментов
Фрагмент – это текст,
который выводится под названием веб-страницы в списке результатов поиска
и описывает содержание страницы.
4.
Удаление кэшированных веб-страниц
Популярные поисковые
системы автоматически создают и архивируют каждую сканируемую страницу.
-
Наличие кэшированных
версий сайта позволяет конечным пользователям находить веб-страницы,
даже если они недоступны (например, из-за
временной неполадки на сервере, где размещена страница).
-
Пользователи видят
кэшированные веб-страницы в том виде, в каком они были в момент
сканирования роботом поисковой системы.
-
Вверху веб-страницы
выводится сообщение о том, что это кэшированная версия. Чтобы
получить доступ к такой странице, пользователь должен выбрать ссылку
"Сохранено" на странице результатов поиска.
5.
Удаление неработающей гиперссылки
Популярные поисковые
системы регулярно автоматически обновляют всю свою базу данных.
Неработающие гиперссылки,
скорее всего, будут удалены из базы данных поисковой системы при следующем
сканировании.
6.
Удаление изображения из системы поиска изображений
Чтобы удалить изображение
из базы данных поисковой системы, можно разместить в корневом каталоге
или на уровне каталога файл robots.txt.
Важно:
-
У каждой поисковой системы уникальный
алгоритм.
-
В Интернете сотни миллионов сайтов и
миллиарды веб-страниц. Ни одна популярная поисковая система не может
удовлетворить все требования, которые предъявляют ей разработчики
сайтов.
-
В алгоритме работы любой поисковой
системы могут быть ошибки и сбои в работе.
-
Файл robots.txt доступен для просмотра
всем.
-
Если веб-дизайнер переусердствует в
стремлении выполнить поисковую оптимизацию сайта, следствием может
быть не увеличение, а снижение рейтинга сайта в результатах запросов
поисковых систем.
Чем больше требований
веб-дизайнер предъявит к роботам поисковых систем, тем
меньше вероятность, что все они будут выполнены.
|
Для справки
robots.txt – стандартный документ,
инструктирующий робот поисковой системы не загружать никакую или
некоторую информацию с сайта.
Файл
robots.txt
позволит избежать индексации документов,
для индексации не предназначенных.
Пример
1.
Файл
robots.txt
запрещает всем роботам индексировать ссылки, которые начинаются с /photo
User-agent: *
Disallow: /photo
2.
Файл
robots.txt
запрещает всем роботам поисковых систем индексировать фотографию,
например, photo.jpg, размещённую на сайте по
адресу: www.yoursite.ru/images/photo.jpg
User-agent: *
Disallow: /images/photo.jpg
Как поисковые системы
реагируют на robots.txt
-
Единой модели
поведения поисковых роботов при встрече с файлами robots.txt,
во время индексации сайта, нет.
-
Большинство
поисковых роботов начинает индексацию сайта, в первую очередь, с
изучения файла robots.txt.
-
При отсутствии
robots.txt-файла большинство поисковых роботов индексируют
сайт, но качество индексации сайта, и, как следствие, прибыль от сайта,
уменьшается.
-
Правила исключения, указанные в файле
robots.txt, соблюдают не все роботы поисковых систем. Есть роботы,
которые либо не следуют правилам исключения, либо игнорируют
файл robots.txt на сайте.
-
Роботы популярных
поисковых систем, как правило, следуют инструкциям, указанным в
файле
robots.txt.
-
Разработчики алгоритма поисковых
систем могут запустить специального
поискового робота, который проиндексирует сайт, не учитывая файл robots.txt.
Резюме
-
Основные особенности ранжирования
сайта поисковыми системами, в т.ч. возможность запрета индексации
сайта роботами поисковых систем, необходимо учитывать.
-
Разбираться в вопросах запрета к индексации сайта роботами поисковых
систем заказчику необязательно. Это -
обязанность веб-студии и веб-дизайнера.
-
Право принятия решения о
целесообразности включения в состав сайта каких-либо условий запрета
индексации сайта роботами поисковых систем лучше
доверить специалисту.
-
По иным вопросам создания сайта, веб-дизайна,
редизайна сайта, раскрутки сайта и оптимизации сайта обращайтесь в
веб-студию "Антула". Получить консультацию можно в
офисе
веб-студии.
|