Управление индексами с помощью файлов robots.txt

Профессиональные операторы веб-сайтов обычно стремятся сделать свои сайты более заметными для поисковых систем. Одним из требований для этого является обеспечение того, чтобы все URL-адреса могли быть прочитаны поисковыми ботами и затем правильно проиндексированы. Хотя это может показаться простой задачей, следует отметить, что поисковые системы редко полностью просматривают сайты. Даже возможности Google по сбору и хранению содержимого сайтов ограничены. Вместо этого каждому домену выделяется определенный бюджет на сканирование, который определяет, сколько URL-адресов будет считано и, при необходимости, проиндексировано. Операторам крупных веб-сайтов рекомендуется подходить к этому вопросу стратегически, сигнализируя поисковым ботам, какие области конкретной страницы следует просмотреть, а какие проигнорировать. Важными инструментами для управления индексами являются: данные robots в метатегах, канонические теги, редиректы, а также файл robots.txt, о котором и пойдет речь в этом учебнике.

Содержание

Что такое robots.txt?
Создание файла robot.txt
структура robots.txt
Вставка комментариев
Обращение к нескольким агентам пользователя
Обращение ко всем пользовательским агентам
Исключение всех каталогов из индексации
Разрешение индексирования для всех каталогов
Дополнительные функции
Определение исключений
Блокирование файлов с определенными окончаниями
Направление веб-гусениц на карты сайта

Что такое robots.txt?

robots.txt — это текстовый файл, который хранится в корневом каталоге домена. Блокируя доступ некоторых или всех поисковых роботов к определенным частям сайта, эти файлы позволяют операторам сайтов контролировать доступ поисковых систем к сайтам. Информация, содержащаяся в файле robots.txt, относится ко всему дереву каталогов. Последний аспект существенно отличает этот инструмент управления индексацией от метаданных роботов и редиректов, которые применимы только для специальных HTML-документов. В данном контексте особое внимание следует уделить слову «блок». Поисковые системы интерпретируют файлы robot.txt только как руководство к действию; это означает, что он не может навязывать поисковым системам какое-либо конкретное поведение при индексации. Google и другие крупные поисковые системы утверждают, что они прислушиваются к этим инструкциям. Однако единственный способ предотвратить любой необоснованный доступ — это применение надежных мер защиты паролем.

Создание файла robot.txt

Для того чтобы предоставить поисковым ботам доступ к индивидуальным инструкциям по ползанию, необходимо создать текстовый файл с именем «robots.txt» и сохранить его в корневом каталоге домена. Если, например, для домена example.com необходимо определить правила ползания, то файл robots.txt должен храниться в том же каталоге, что и www.example.com. При доступе через Интернет этот файл можно найти следующим образом: www.example.com/robots.txt. Если модель хостинга для сайта не предоставляет доступ к корневому каталогу сервера, а только к подкаталогу (например, www.example.com/user/), то управление индексацией с помощью файла robots.txt невозможно. Операторы сайта, создающие robots.txt, должны использовать чистый текстовый редактор, например vi (Linux) или notpad.exe (Windows); при передаче по FTP важно также убедиться, что файл передается в режиме ASCII. В Интернете файл может быть создан с помощью генератора robot.txt. Учитывая, что синтаксические ошибки могут иметь разрушительные последствия для индексации веб-проекта, рекомендуется проверить текстовый файл перед его загрузкой. Для этого в консоли поиска Google есть соответствующий инструмент.

структура robots.txt

Каждый текст robots.txt содержит записи, состоящие из двух частей. Первая часть представлена ключевым словом, пользовательским агентом и адресом поискового бота, которому можно дать инструкции во второй части. Эти инструкции касаются правил запрета ползания. Инициированные ключевым словом disallow, эти команды затем переходят к названию каталога или нескольких файлов. В результате получается следующая базовая структура:

user-agent: Googlebot
disallow: /temp/ 
disallow: /news.html
disallow: /print

В приведенном выше примере robot.txt применяется только к веб-гусеницам с именем «Googlebot» и «запрещает» им считывать каталог /temp/ и файл news. Кроме того, все файлы и каталоги с путями, начинающимися с print, также блокируются. Обратите внимание, как disallow: /temp/ и disallow: /print можно отличить друг от друга (с точки зрения синтаксиса) только по отсутствующему слэшу (/)в конце; это отвечает за значительно отличающийся смысл в синтаксисе robots.txt.

Вставка комментариев

Файл robot.txts может быть дополнен комментариями, если это необходимо. Они помечаются предшествующим хэштегом.

# robots.txt for http://www.example.com

user-agent: Googlebot
disallow: /temp/ # directory contains temporary data 
disallow: /print/ # directory contains print pages
disallow: /news.html # file changes daily

Обращение к нескольким агентам пользователя

Если необходимо обратиться к нескольким агентам пользователя, то файл robots.txt может содержать любое количество блоков, написанных в соответствии с его структурой:

# robots.txt for http://www.example.com

  user-agent: Googlebot
  disallow: /temp/ 
   
  user-agent: Bingbot 
  disallow: /print/

В то время как веб-гусенице Google запрещено искать в каталоге /temp/, боту Bing запрещено ползать по /print/.

Обращение ко всем пользовательским агентам

Если необходимо заблокировать определенный каталог или файл для всех веб-гусениц, то применяется звездочка (*), обозначающая подстановочный знак для всех пользователей.

# robots.txt for http://www.beispiel.de

user-agent: *
disallow: /temp/
disallow: /print/
disallow: /pictures/

Файл robots.txt блокирует каталоги /temp/, /print/ и /pictures/ для всех веб-гусениц.

Исключение всех каталогов из индексации

Если сайту необходимо полностью заблокировать все агенты пользователей, то достаточно поставить косую черту после ключевого слова disallow.

# robots.txt for http://www.beispiel.de

  user-agent: *
  disallow: /

Все веб-краулеры получают указание игнорировать весь сайт. Такие файлы robot.txt можно использовать, например, для веб-проектов, которые еще находятся на стадии тестирования.

Разрешение индексирования для всех каталогов

Веб-операторы могут разрешить поисковым ботам просматривать и индексировать целые веб-сайты, применив ключевое слово disallow без косой черты:

# robots.txt for http://www.example.com

user-agent: Googlebot
disallow:

Если файл robot.txt содержит запрет без косой черты, то весь веб-сайт свободно доступен для поисковых роботов, определенных под агентом пользователя.

Таблица 1: Основные функции robots.txt
Команда	Пример	Функция
агент пользователя:	Агент пользователя: Googlebot	Обращение к определенной веб-гусенице
	пользовательский агент:	Обращаться ко всем веб-гусеницам
запретить:	запретить:	Весь веб-сайт может быть просмотрен
	запретить: /	Весь сайт заблокирован
	запретить: /directory/	Блокируется определенный каталог
	запретить: /file.html	Определенный файл заблокирован
	запретить: /example	Все каталоги и файлы с путями, начинающимися с example, блокируются.

Дополнительные функции

Помимо де-факто стандартных функций, перечисленных выше, поисковые системы также поддерживают некоторые дополнительные параметры, которые позволяют представить контент в robots.txt.

Следующие функции можно найти в разделе поддержки Google. Они основаны на соглашении, заключенном с Microsoft и Yahoo!

Определение исключений

Помимо disallow, Google также поддерживает allow — дополнительное ключевое слово в robots.txt, которое позволяет определить исключения для заблокированных каталогов.

# robots.txt for http://www.example.com

user-agent: Googlebot
disallow: /news/ 
allow: /news/index.html

Ключевое слово allow позволяет боту Google читать файл «http://www.beispiel.de/news/index.html», несмотря на то, что каталог новостей, занимающий более высокое положение, заблокирован.

Блокирование файлов с определенными окончаниями

Операторы сайтов, желающие запретить ботам Google считывать файлы с определенными окончаниями, могут использовать наборы данных в соответствии со следующим примером:

# robots.txt for http://www.example.com

user agent: Googlebot
disallow: /*.pdf$

Ключевое слово disallow относится ко всем файлам, оканчивающимся на .pdf, и защищает их от ботов Google. Символ звездочки(*) функционирует как подстановочный знак для доменного имени. Эта запись завершается знаком доллара, который служит якорем для окончания строки.

Направление веб-гусениц на карты сайта

Файлы robots.txt не только контролируют поведение краулеров, но и позволяют поисковым ботам ссылаться на карту сайта. Файл robots.txt со ссылкой на карту сайта может быть вызван к действию следующим образом:

# robots.txt for http://www.example.com

user agent: *
disallow: /temp/

sitemap: http://www.example.com/sitemap.xml

Таблица 2: расширенные функции robots.txt
Команда	Пример	Функция
разрешить:	разрешить: /example.html	Введенный файл или каталог не может быть просмотрен
запретить: /*…$	запретить: /*.jpg$	Файлы с определенными окончаниями блокируются
sitemap:	sitemap: http://www.example.com/sitemap.xml	Карта сайта в формате XML находится по введенному адресу