КАК БЕСПЛАТНО МАРКИРОВАТЬ РЕКЛАМУ У БЛОГЕРОВ — ЧЕК-ЛИСТ ИНСТРУКЦИЯ
блог SEO
05 ноября 2016 г.

Как использовать файл robots. txt

Позволяет улучшить качество сканирования роботами вашего сайта, поэтому лучше не игнорировать такой инструмент.
Файл robots. txt лежит в корневом каталоге вашего сайта и представляет собой некую «инструкцию» для поисковых роботов, относительно того, какие разделы и страницы сайта нужно или не нужно индексировать.

Важный момент — эта «инструкция» не является обязательной для поисковых роботов. Большинство из них действительно смотрит содержимое этого файла и принимает его во внимание, но не факт, что все указанные в нем команды будут действительно выполнены.

Тем не менее, в большинстве случаев файл robots.txt действительно позволяет улучшить качество сканирования роботами вашего сайта, поэтому лучше не игнорировать такой инструмент.

Другой немаловажный аспект – часто содержимое этого файла «управляется» из админки сайта либо через какой-то плагин, который установлен на back-end сайта. Какие-то конфликты или неработоспособность или выключение таких плагинов может привести к тому, что в файле robots.txt будет написано не совсем то, что бы вы действительно хотели там видеть. Поэтому любому специалисту, занимающемуся продвижением сайта важно хотя бы быть в состоянии прочитать содержимое этого файла, и убедиться, что там нет каких-то нежелательных команд.

Итак –

Команда User-Agent

Указывает на специфического поискового робота, которому предлагаются следующие инструкции.

Типичный пример:

User-agent: YandexBot – все, что ниже этой команды и до следующей команды «User-Agent» в файле будет использоваться основным роботом Яндекса.

Списки возможных значений необходимо искать в документации к различным сервисам. А также, имейте в виду, что у одной поисковой системы может быть много разных роботов, например, у Яндекса разных роботов с десяток штук, посмотреть их можно здесь (ссылка - http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml).

Вообще говоря, настраивать отдельные параметры под различных роботов – это уже весьма тонкая настройка, которая не всегда нужна. Как правило можно обойтись командой:

User-Agent: * - что означает «для всех поисковых роботов».

При этом, если в файле есть команда для определенного робота, то этот робот будет игнорировать команду «User-Agent: *» (для всех), потому что увидел специфическую команду именно для себя.

Команды Disallow и Allow

Указывают страницы, которые вы хотите разрешить (allow) и запретить (disallow) индексировать.

Типичный пример:

User-agent: *

Disallow: /

Эта инструкция «просит» поисковых роботов НЕ индексировать все страницы сайта.

Это очень важно делать на этапе разработки сайта, когда у вас полно черновых страниц, не наполненных контентом, либо новая версия сайта находится на другом домене. Если вы не закроете таким образом сайт от индексации, то с большой долей вероятности рискуете получить полную копию вашего тестового или не готового сайта в поиске.

С другой стороны – случается, что разработчик забывает убрать эту конструкцию при переносе тестовой версии сайта на основной домен, и со скоростью индексации будут проблемы.

В настройке файла можно использовать регулярные выражения: символ звездочки «*» означает любую последовательность символов, а «$» (доллар) – конец строки.

Например, если вы напишете так:

User-agent: *

Disallow: /*.doc$

это запретит индексацию файлов типа .doc на вашем сайте. Может пригодиться на случай, если у вас в них лежат обновления прайс-листов или коммерческих предложений, которые вы хотите хранить на сайте, но не хотели бы, чтобы их видел «весь мир». Хотя, как мы и говорили, эти инструкции – это «пожелания» для роботов, если вы действительно не хотите, чтобы файл видели все, уберите его из открытого доступа.

Команда Host

указывает на главное зеркало сайта. Если у вашего сайта несколько зеркал, то желательно указать главное из них в файле, чтобы в поиске были страницы только с него.

Пример:

User-Agent: *

Disallow:

Host: www.myhost.ru

Команда Sitemap

Если у вас есть карта сайта в формате xml, желательно ее указать здесь.

Команда Crawl-delay

Устанавливает для поискового робота минимальный предел (в секундах), который он должен «подождать» перед тем, как загрузить следующую страницу.

Это достаточно экзотическая команда и ее стоит применять только на сильно нагруженных серверах, которые тем не менее находятся на относительно слабом хостинге. Почему так – это другой вопрос, и вообще-то так быть не должно, но если да, то эта команда пригодится. Суть здесь в том, что поисковый робот, который решил проиндексировать тысячи страниц большого сайта может создать нежелательную нагрузку, которая может привести к отказам для реальных посетителей.

Пример использования:

User-agent: *

Disallow:

Crawl-delay: 10

Команда Clean-Param

Применяется для случаев, когда у вас на сайте есть страницы типа «http://my-site.ru/page.html?ref=123» с разными параметрами ref, но не отличающимися страницами, которые нет смысла индексировать отдельно.

Пример:

User-agent: Yandex

Disallow:

Clean-param: ref /page.html

Это дает команду «убрать» все параметры ref из индексации этой страницы. Если на сайте есть несколько страниц page.html с параметром ref, то робот будет индексировать ту, которую нашел первой. А если эта страница доступна без параметра, то будет проиндексирована именно она.

Делается это и в том числе, чтобы ускорить индексацию страниц. Робот не будет повторно индексировать страницы с другими параметрами ref, и на крупном сайте, где таких страниц может быть несколько тысяч, это повлияет на скорость реиндексации сайта.

В заключение скажем, что с помощью robots.txt лучше всего закрывать результаты поиска по сайту, а также админку сайта. И конечно помните, что эти команды являются скорее пожеланиями для роботов. Поисковые роботы в большинстве случаев прислушиваются к ним, но 100% гарантии эти команды не дают.