Чтобы индексировать ваш сайт, Google использует автоматические программы, или роботы, называемые слайдерами. Такие роботы читают каждую страницу вашего сайта, начиная обычно с вашей главной странички и затем следуя по ссылкам на всех других страницах.
Главный спайдер Google называется GoogleBot. Чем популярнее ваш сайт, чем чаще обновляется контент на нем, тем чаще на него заходит Google. Сайты с высоким рейтингом и регулярно обновляемым контентом просматриваются роботами каждый день.
Google позволяет веб-мастерам самостоятельно управлять некоторыми функциями индексации сайта. Для управления индексацией можно использовать четыре способа:
- атрибут nofollow (часто называемый тегом nofollow) — тег, работающий на уровне ссылки, когда вы помещаете его в отдельную ссылку (данный тег достаточно спорен, потому что при определенных обстоятельствах перестает работать, но как один из вариантов имеет место);
- метатег nofollow — тег, работающий на уровне страницы, когда вы добавляете его в секцию <head> своей веб-страницы;
- метатег запрета индексации — другой тег, работающий на уровне страницы, когда вы помещаете его в секции <head> своей веб-страницы;
- файл robots.txt - работает на уровне сайта и контролирует индексацию всех ваших веб-страниц, когда вы его помещаете в тот же каталог, что и главную страницу сайта (т. е. в корневой каталог).
Каждый из этих инструментов выполняет свою уникальную функцию. Необходимо, чтобы вы понимали ее прежде, чем приступите к управлению сбором информации с вашей страницы и ее последующей индексацией и ранжированием. Мы уже обсуждали некоторые детали работы поисковых систем, давайте кратко определим четкие границы между сбором информации, индексированием и ранжированием.
- Сбор информации — процесс, когда поисковая система загружает страницу, сканирует ее на наличие ссылок, а затем проходит по этим ссылкам, чтобы найти больше страниц. Учтите, что, хотя поисковая система заходит на страницу, это не обязательно значит, что она в действительности сохраняет контент этой страницы на своих серверах; это также не означает, что поисковая система будет отображать страницу в результатах поиска. С технической точки зрения, это значит, что поисковая система знает о данной странице.
- Индексация происходит после того, как поисковая система зашла на страницу и обработала ее контент, чтобы извлечь из него ключевые слова, определяющие, о чем эта страница. Затем данные о странице сохраняются для последующих показов в результатах поиска. Каждая проиндексированная страница должна сначала подвергнуться сбору информации, но, как видите, не все страницы, прошедшие сбор информации, проходят индексацию.
- Ранжирование — результат расчета поисковой системы, учитывающего контент, найденный на странице, на сайте и по ссылкам, расположенным на странице и сайте, чтобы определить, где и по каким ключевым словам/фразам должна отображаться ваша страница в результатах поиска.
Итак, давайте разберем по порядку каждый из способов манипулирования поисковым роботом.
- Атрибут nofollow. Главная цель этого тега, действующего в пределах ссылки, — сказать поисковой системе, что ссылка не должна включаться в оценку рейтинга страницы (link juice).
Размещение этого атрибута в рамках ссылки означает, что ссылка не будет увеличивать рейтинг и робот не будет переходить по ссылке. Однако страница, указанная в ссылке, будет обработана, проиндексирована и все еще сможет ранжироваться в поисковых системах. Поэтому название "nofollow" немного неверно. В действительности поисковая система следует по ссылкам в большинстве случаев. Она просто-напросто не обеспечивает link juice. Может быть, лучшим названием было бы
"nocredit" или "nojuice".
Нужно отметить, что официальная установка Google такова, что роботы Google не следуют по ссылкам с атрибутом nofollow. Также надо отметить, что Yahoo, Microsoft и Ask все еще следуют по ним. Что же касается Яндекса, то этот атрибут не только поддерживается, но и "работает" стабильнее, чем в родном Google. В случае с Google — переход по ссылке и индексация есть, плюс ко всему учитывается и текст входящей ссылки, что говорит о неработоспособности этого атрибута, все это при определенных условиях, но не на уровне погрешности.
Итак, вы не должны опираться на ссылки с атрибутом потопом, чтобы предотвратить сбор информации или индексирование.
И все-таки атрибут потопом может использоваться для того, чтобы контролировать рейтинг страниц, связанных с вашим сайтом в Google. Вы можете использовать атрибут потопом, чтобы снизить влияние неважных ссылок. Это сохранит ваш рейтинг для важных, заслуживающих большего внимания страниц.
Примером страниц, которые не нужно подчеркивать, может послужить страница Контакты или страница, посвященная политике конфиденциальности. Зачастую ссылки на подобные страницы располагаются в меню навигации или внизу страницы. В принципе, это хорошая идея, поскольку эти страницы должны быть доступны пользователю. Однако вы вряд ли захотите, чтобы такие малозначимые страницы превосходили по рейтингу другие, более важные страницы.
Итак, используя атрибут потопом в ссылках на ваши менее важные страницы, вы можете благоразумно уменьшить расход рейтинга вашего сайта (из-за большого числа внутренних ссылок) и направить его на страницы, которые должны получать высокие рейтинги в поисковых результатах.
Предположим, что на вашей странице с PageRank 5 присутствуют пять ссылок на страницы с PageRank 3. Две из этих страниц являются важными, а три остальные (например, страница, посвященная политике конфиденциальности, страница внутренней поисковой системы и всплывающее окно с возможными цветами товара) — неважными.
Используя атрибут nofollow в ссылках, указывающих на менее важные страницы, вы наверняка сможете поднять авторитетность (РК) важных страниц до 4. Это, без сомнения, благоприятно отразится на ранжировании ваших страниц.
Таким образом, перенося авторитет с одних страниц на другие, мы можем увеличить общий авторитет сайта.
Однако будьте осторожны с атрибутом nofollow. Если вы добавите этот атрибут в слишком большое количество ссылок, трудно будет предсказать результаты. Нередко начинающие веб-мастера лишь вредят авторитетности сайта, когда пытаются управлять авторитетом страниц при помощи nofollow.
Частая ошибка состоит в добавлении nofollow на большое количество собственных страниц, в надежде, что авторитет наиболее важных страниц увеличится. Дело в том, что менее важные страницы также содержат ссылки на важные страницы сайта, и использование атрибута nofollow значит, что у менее важных страниц будет меньше PageRank, чтобы передать его более важным страницам. Результатом будет падение авторитетности сайта в целом.
Основным инструментом для расчета примерного PageRank может служить программа Page Weight, о которой мы еще поговорим в дальнейшем.
Эффект также может быть отрицательным, если сайт имеет много исходящих ссылок. В случае, когда уменьшение числа внутренних ссылок приводит к тому, что количество исходящих ссылок превышает количество оставшихся внутренних ссылок, доступный PageRank будет переходить больше на страницы вне сайта, чем внутри него. Другими словами, в результате авторитетность ваших страниц достанется другим сайтам.
Поэтому использовать атрибут nofollow следует аккуратно и не так часто. Начните с добавления его в страницы, добиваться авторитетности которых нет смысла. Страницы типа О нас, Обратная связь, Политика конфиденциальности и другие административные страницы попадают в эту категорию.
- Метатег nofollow. В действительности метатег потопом сильно отличается от атрибута nofollow. Но почему-то они имеют одинаковое название. Метатег nofollow означает, что ни по одной из ссылок на странице поисковая система не проследует, но авторитетность таких страниц будет считаться с учетом ссылок на эти страницы.
Однако страница, содержащая этот тег, все еще может быть проиндексирована и ранжирована, а другие страницы, на которые ссылается данная страница, могут быть найдены через другие ссылки, проиндексированы и ранжированы.
Метатег nofollow используется редко. Фактически, при помощи него намного легче навредить авторитету ваших страниц, чем поднять его. Например, если вы разместите метатег nofollow на нескольких страницах с вашими товарами, то внесете беспорядок во внутреннюю ссылочную структуру сайта, т. к. авторитетность не будет распространяться с данных страниц на другие страницы вашего сайта.
Совет: избегайте использования этого метатега nofollow, пока точно не будете знать, что делаете.
Еще одним минусом будет то, что вы просто можете забыть об использовании метатега, что внесет еще большую неразбериху на сайт. Если же вы все же используете эти теги, выносите их на самое видное место в системе управления сайтом, потому что можете подумать о них в последнюю очередь при поиске проблем.
- Метатег запрета индексации означает, что поисковые системы будут собирать информацию с вашей страницы и проходить по ссылкам на ней, но страница сама по себе не будет отображаться в выдаче поисковой системы.
Если вы желаете, чтобы ваши страницы не попадали в список, но хотите разрешить оценку их авторитетности, то вы должны разместить метатег запрета индексации в секцию <HEAD> вашей веб-страницы.
В действительности мы едва ли сможем найти примеры использования метатега запрета индексации. Однако если у вас есть страница, которую вы не желаете видеть в поисковой выдаче, но хотите, чтобы поисковая система следовала по ссылкам на этой странице, используйте этот метатег.
Опасения в связи с применением тега такие же, как и в предыдущем случае — либо выносите тег на видное место, либо не используйте.
- Файл robots.txt используется для того, чтобы запретить поисковым системам ин-дексировать определенные страницы или даже целые каталоги вашего сайта. Это единственный файл, который поисковая система должна "прочитать" на вашем сайте перед совершением какого-либо действия. Однако "пауки" поисковых систем не всегда следуют правилам robots.txt — поисковая система сама решает, как собирать информацию с вашего сайта. Но в большинстве случаев поисковые системы тщательно стараются соблюдать правила, изложенные в файле robots.txt.
Если "паук" следует в каком-либо направлении, страницы, заблокированные в robots.txt, не будут подвержены сбору информации. Однако эти страницы все еще смогут получать рейтинг, поэтому robots.txt — эффективный способ контроля ранжирования страниц на вашем сайте.
Страницы, заблокированные robots.txt, все еще будут отображаться в списках поисковых систем, хоть они и не были подвергнуты сбору информации. Это происходит потому, что поисковые механизмы находят ссылки на эти страницы и, следовательно, вносят их в свой список, но отображают только ссылки на эти страницы. Обычно у подобных страниц не бывает названия или описания в поисковых результатах, но пользователи все еще смогут находить вашу страницу, используя поиск.
Не следует использовать файл robots.txt для хранения важной информации (например, паролей). Как уже было упомянуто, robots.txt — это только предложение, поисковые системы могут индексировать и часто индексируют страницы, заблокированные в этом файле. Если у вас есть что-либо в режиме онлайн, что не должно быть известно поисковой системе, убедитесь, что вы защитили это с помощью пароля.
В этом разделе были затронуты моменты, которые легко спутать.