Robots Exclusion Protocol (файл robots.txt) — еще один способ указать ПМ, какие страницы не следует индексировать.
Это правда. Иногда после достижения хороших позиций в рейтингах вы начинаете понимать, что не хотите, чтобы некоторые страницы сайта посещали пользователи. Или если вы не хотите, чтобы определенную страницу увидели первой. Или у вас есть одинаковые страницы для разных разрешений экрана: 800x600 или 1024x768. Однако поисковики не любят зеркальные сайты, поэтому здесь есть смысл заблокировать один из вариантов сайта для поисковиков.
Кроме того, вы можете захотеть, чтобы поисковая машина не индексировала те или иные ваши страницы. Потому что, индексируя страницы, спайдеры поисковой машины функционируют с ограничениями по времени и ресурсам. А вам нужно, чтобы индексация сосредоточилась на наиболее важных страницах сайта, связанных с клиентами, товаром и ценами.
Другие страницы, от которых вы захотите держать подальше слайдеров поисковой машины, могут включать что-нибудь из папки cgi-bin, так же как и каталоги, которые содержат изображения или иные важные для компании данные. В основном, если нет никакой пользы от появления страницы в результатах поиска машин, то вы можете скрыть эти страницы от спайдеров при помощи файла robots.txt.
Это не только увеличит ресурсы поисковой машины, потраченные на ваши важные страницы, но также поможет защитить ваш сайт от хакеров, которые могут в своих целях использовать результаты поисковой машины или заполучить важную информацию о вашей компании или сайте. Спайдеры поисковой машины довольно охотны до индексации чего-нибудь, что они могут найти в сети, включая такие вещи, как файлы, где хранятся пароли. Таким образом, вы должны быть осторожными.
Есть много причин, по которым вы можете захотеть скрыть свои страницы.
Хотя спайдеры поисковиков довольно примитивны, вы можете общаться с ними. Для этого существуют файлы robots.txt, которые так же известны, как протоколы исключения. Это очень простой процесс создания текстового файла для размещения в корневом каталоге. Каждый раз, когда спайдер делает запрос на ваш сайт, он запрашивает и файл robots.txt.
Файлы robots.txt используются только ради одного — рассказать слайдерам поисковых машин, какие страницы не нужно индексировать. Существует неправильное представление о том, что файл robots.txt может так или иначе использоваться, чтобы поощрять поисковые машины индексировать ваш сайт. Неверно! Страницы, которые соответствуют описанным выше принципам, с готовностью проверяются слайдерами поисковых машин, не нуждаясь в дополнительной поддержке. Как вы заметили, важная часть оптимизации поисковой машины (SEO) — это идентификация элементов, которые вызывают трудности индексации для спайдеров и устранение этих элементов.
Существует большая проблема, связанная с незнанием работы файла robots.txt. Удивительное число сайтов случайно настроило свои файлы robots.txt так, чтобы препятствовать слайдерам поисковой машины нормально индексировать их сайт.
Когда поисковый робот заходит на сайт, он первым делом проверяет, существует ли файл www.site.ru/robots.txt. Если таковой имеется, то робот анализирует его и руководствуется полученным содержанием.
Вы, например, знаете, что добавление следующих двух строк в ваш файл robots.txt достаточно, чтобы поисковые машины никогда не заглядывали на ваш сайт?
User-agent: *
Disallow: /
Эти строки запрещают определенным роботам или пользовательским агентам про-сматривать заданные каталоги и страницы сайта. Звездочка * означает, что указания распространяются на всех роботов, но если вы хотите, чтобы запрет действовал на какого-то отдельного робота, то укажите его имя вместо звездочки.
В строке Disallow следует указать файлы и каталоги, которые вы не хотите индексировать. Например, большинство администраторов не хотят, чтобы индексировался каталог cgi-bin. В этом случае в файле robots.txt следует указать:
User-agent: *
Disallow: /cgi-bin/
В Google существует специальная опция, позволяющая просмотреть количество страниц, запрещенных к индексации.
Заметим, о чем уже писалось выше, что Google не всегда исполняет правила из файла robots.txt. При наличии входящих ссылок на запрещенные от индексации страницы они так и остаются в поиске. В этом случае, вы можете воспользоваться удалением страниц вручную через панель веб-мастера. Яндекс же выполняет правила беспрекословно.
Метатег ROBOTS выполняет в точности те же функции, что и файл robots.txt — но он не настолько надежен. Не все роботы воспринимают и тег ROBOTS.
Воспользуйтесь им, если ваш сайт пользуется услугами бесплатного хостинга.
Если же у вас есть доступ к корневому каталогу, то забудьте про ROBOTS. Пользуйтесь файлом robots.txt. Нет необходимости использовать оба метода.
Текст для ROBOTS будет следующим:
<МЕТА NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Вставьте его между тегами <HEAD> и </HEAD> на каждой странице, которая не должна индексироваться согласно вашему желанию.