Поисковая система > Алгоритм поиска > О запрете на индексацию сайта роботами поисковых систем

О запрете на индексацию сайта поисковыми системами

Полнота и точность результатов поиска важна для любой поисковой системы. Популярные поисковые системы прекращают полностью или частично индексировать сайт:

по указанию владельца сайта;
если сайт нарушает правила присутствия в конкретной поисковой системе;
по требованию закона.

Чаще всего поисковые системы прекращают индексировать часть сайта по указанию владельца сайта (ответственного веб-дизайнера).

Необходимость запрета к индексации части сайта роботами поисковых систем, чаще всего, вызвана стремлением веб-дизайнера выполнить поисковую оптимизацию сайта.

Основная задача запрета к индексации, в этом случае, - исключение из индексации веб-страниц и их фрагментов, содержащих случайные и шумовые слова.

Основные варианты

запрета к индексации сайта в целом или его части:

1. Удаление сайта целиком

Для удаления из индексации сайта целиком в корневой каталог сайта размещается файл robots.txt.

Это стандартный протокол, который соблюдает большинство роботов поисковых систем.

2. Удаление части сайта

Вариант 1: Robots.txt

Чтобы удалить каталоги или отдельные страницы сайта, можно разместить файл robots.txt в корневом каталоге сайта.

Вариант 2: Мета-теги

Другой стандарт, более удобный для работы со страницами, предусматривает использование на html-странице тега <meta>, запрещающего роботам индексировать страницу.

3. Удаление фрагментов

Фрагмент – это текст, который выводится под названием веб-страницы в списке результатов поиска и описывает содержание страницы.

4. Удаление кэшированных веб-страниц

Популярные поисковые системы автоматически создают и архивируют каждую сканируемую страницу.

Наличие кэшированных версий сайта позволяет конечным пользователям находить веб-страницы, даже если они недоступны (например, из-за временной неполадки на сервере, где размещена страница).
Пользователи видят кэшированные веб-страницы в том виде, в каком они были в момент сканирования роботом поисковой системы.
Вверху веб-страницы выводится сообщение о том, что это кэшированная версия. Чтобы получить доступ к такой странице, пользователь должен выбрать ссылку "Сохранено" на странице результатов поиска.

5. Удаление неработающей гиперссылки

Популярные поисковые системы регулярно автоматически обновляют всю свою базу данных.

Неработающие гиперссылки, скорее всего, будут удалены из базы данных поисковой системы при следующем сканировании.

6. Удаление изображения из системы поиска изображений

Чтобы удалить изображение из базы данных поисковой системы, можно разместить в корневом каталоге или на уровне каталога файл robots.txt.

Важно:

У каждой поисковой системы уникальный алгоритм.
В Интернете сотни миллионов сайтов и миллиарды веб-страниц. Ни одна популярная поисковая система не может удовлетворить все требования, которые предъявляют ей разработчики сайтов.
В алгоритме работы любой поисковой системы могут быть ошибки и сбои в работе.
Файл robots.txt доступен для просмотра всем.
Если веб-дизайнер переусердствует в стремлении выполнить поисковую оптимизацию сайта, следствием может быть не увеличение, а снижение рейтинга сайта в результатах запросов поисковых систем.

Чем больше требований веб-дизайнер предъявит к роботам поисковых систем, тем меньше вероятность, что все они будут выполнены.

Для справки

robots.txt – стандартный документ, инструктирующий робот поисковой системы не загружать никакую или некоторую информацию с сайта.

Файл robots.txt позволит избежать индексации документов, для индексации не предназначенных.

Пример

1. Файл robots.txtзапрещает всем роботам индексировать ссылки, которые начинаются с /photo

User-agent: * Disallow: /photo 2. Файл robots.txt запрещает всем роботам поисковых систем индексировать фотографию, например, photo.jpg, размещённую на сайте по адресу: www.yoursite.ru/images/photo.jpg

User-agent: * Disallow: /images/photo.jpg

Как поисковые системы реагируют на robots.txt

Единой модели поведения поисковых роботов при встрече с файлами robots.txt, во время индексации сайта, нет.
Большинство поисковых роботов начинает индексацию сайта, в первую очередь, с изучения файла robots.txt.
При отсутствии robots.txt-файла большинство поисковых роботов индексируют сайт, но качество индексации сайта, и, как следствие, прибыль от сайта, уменьшается.
Правила исключения, указанные в файле robots.txt, соблюдают не все роботы поисковых систем. Есть роботы, которые либо не следуют правилам исключения, либо игнорируют файл robots.txt на сайте.
Роботы популярных поисковых систем, как правило, следуют инструкциям, указанным в файле robots.txt.
Разработчики алгоритма поисковых систем могут запустить специального поискового робота, который проиндексирует сайт, не учитывая файл robots.txt.

Больше о robots.txt смотрите: http://www.robotstxt.org/wc/norobots.html.
Как создать файл robots.txt смотрите: Стандарт исключений для роботов.
Стандарт, запрещающий роботам индексировать страницу с помощью тега <meta>: http://www.robotstxt.org/wc/exclusion.html#meta.

Резюме

Основные особенности ранжирования сайта поисковыми системами, в т.ч. возможность запрета индексации сайта роботами поисковых систем, необходимо учитывать.
Разбираться в вопросах запрета к индексации сайта роботами поисковых систем заказчику необязательно. Это - обязанность веб-студии и веб-дизайнера.
Право принятия решения о целесообразности включения в состав сайта каких-либо условий запрета индексации сайта роботами поисковых систем лучше доверить специалисту.
По иным вопросам создания сайта, веб-дизайна, редизайна сайта, раскрутки сайта и оптимизации сайта обращайтесь в веб-студию "Антула". Получить консультацию можно в офисе веб-студии.

Основные разделы

О веб-студии
Услуги
Прайс-лист
Бизнес-планы
Бизнес-проекты
Веб-дизайн
Графика сайта
Договор на сайт
Задание на сайт
Заказать сайт
Интернет-конкурсы
Интернет-магазин
Интернет-маркетинг
Интернет-реклама
Ключевые слова
Контент сайта
Научный веб-дизайн
Оптимизация сайта
Поддержка сайта
Поисковая система
Портфолио
Раскрутка сайта
Редизайн
Рейтинг сайта
Рекомендации
Сайты для бизнеса
Сайт по недвижимости
Создание сайта
Справочник
Стоимость сайтов

Архитектура. Проектирование. Готовые проекты домов.

Запрет на индексацию