Тем не менее, в большинстве случаев файл robots.txt действительно позволяет улучшить качество сканирования роботами вашего сайта, поэтому лучше не игнорировать такой инструмент.
Другой немаловажный аспект – часто содержимое этого файла «управляется» из админки сайта либо через какой-то плагин, который установлен на back-end сайта. Какие-то конфликты или неработоспособность или выключение таких плагинов может привести к тому, что в файле robots.txt будет написано не совсем то, что бы вы действительно хотели там видеть. Поэтому любому специалисту, занимающемуся продвижением сайта важно хотя бы быть в состоянии прочитать содержимое этого файла, и убедиться, что там нет каких-то нежелательных команд.
Итак –
Команда User-Agent Указывает на специфического поискового робота, которому предлагаются следующие инструкции.
Типичный пример:
User-agent: YandexBot – все, что ниже этой команды и до следующей команды «User-Agent» в файле будет использоваться основным роботом Яндекса.
Списки возможных значений необходимо искать в документации к различным сервисам. А также, имейте в виду, что у одной поисковой системы может быть много разных роботов, например, у Яндекса разных роботов с десяток штук, посмотреть их можно здесь (ссылка -
http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml).
Вообще говоря, настраивать отдельные параметры под различных роботов – это уже весьма тонкая настройка, которая не всегда нужна. Как правило можно обойтись командой:
User-Agent: * - что означает «для всех поисковых роботов».
При этом, если в файле есть команда для определенного робота, то этот робот будет игнорировать команду «User-Agent: *» (для всех), потому что увидел специфическую команду именно для себя.
Команды Disallow и Allow Указывают страницы, которые вы хотите разрешить (allow) и запретить (disallow) индексировать.
Типичный пример:
User-agent: *
Disallow: /
Эта инструкция «просит» поисковых роботов НЕ индексировать все страницы сайта.
Это очень важно делать на этапе разработки сайта, когда у вас полно черновых страниц, не наполненных контентом, либо новая версия сайта находится на другом домене. Если вы не закроете таким образом сайт от индексации, то с большой долей вероятности рискуете получить полную копию вашего тестового или не готового сайта в поиске.
С другой стороны – случается, что разработчик забывает убрать эту конструкцию при переносе тестовой версии сайта на основной домен, и со скоростью индексации будут проблемы.
В настройке файла можно использовать регулярные выражения: символ звездочки «*» означает любую последовательность символов, а «$» (доллар) – конец строки.
Например, если вы напишете так:
User-agent: *
Disallow: /*.doc$
это запретит индексацию файлов типа .doc на вашем сайте. Может пригодиться на случай, если у вас в них лежат обновления прайс-листов или коммерческих предложений, которые вы хотите хранить на сайте, но не хотели бы, чтобы их видел «весь мир». Хотя, как мы и говорили, эти инструкции – это «пожелания» для роботов, если вы действительно не хотите, чтобы файл видели все, уберите его из открытого доступа.
Команда Host указывает на главное зеркало сайта. Если у вашего сайта несколько зеркал, то желательно указать главное из них в файле, чтобы в поиске были страницы только с него.
Пример:
User-Agent: *
Disallow:
Host:
www.myhost.ru Команда Sitemap Если у вас есть карта сайта в формате xml, желательно ее указать здесь.
Команда Crawl-delay Устанавливает для поискового робота минимальный предел (в секундах), который он должен «подождать» перед тем, как загрузить следующую страницу.
Это достаточно экзотическая команда и ее стоит применять только на сильно нагруженных серверах, которые тем не менее находятся на относительно слабом хостинге. Почему так – это другой вопрос, и вообще-то так быть не должно, но если да, то эта команда пригодится. Суть здесь в том, что поисковый робот, который решил проиндексировать тысячи страниц большого сайта может создать нежелательную нагрузку, которая может привести к отказам для реальных посетителей.
Пример использования:
User-agent: *
Disallow:
Crawl-delay: 10
Команда Clean-Param Применяется для случаев, когда у вас на сайте есть страницы типа «
http://my-site.ru/page.html?ref=123» с разными параметрами ref, но не отличающимися страницами, которые нет смысла индексировать отдельно.
Пример:
User-agent: Yandex
Disallow:
Clean-param: ref /page.html
Это дает команду «убрать» все параметры ref из индексации этой страницы. Если на сайте есть несколько страниц page.html с параметром ref, то робот будет индексировать ту, которую нашел первой. А если эта страница доступна без параметра, то будет проиндексирована именно она.
Делается это и в том числе, чтобы ускорить индексацию страниц. Робот не будет повторно индексировать страницы с другими параметрами ref, и на крупном сайте, где таких страниц может быть несколько тысяч, это повлияет на скорость реиндексации сайта.
В заключение скажем, что с помощью robots.txt лучше всего закрывать результаты поиска по сайту, а также админку сайта. И конечно помните, что эти команды являются скорее пожеланиями для роботов. Поисковые роботы в большинстве случаев прислушиваются к ним, но 100% гарантии эти команды не дают.