
Профессиональные операторы веб-сайтов обычно стремятся сделать свои сайты более заметными для поисковых систем. Одним из требований для этого является обеспечение того, чтобы все URL-адреса могли быть прочитаны поисковыми ботами и затем правильно проиндексированы. Хотя это может показаться простой задачей, следует отметить, что поисковые системы редко полностью просматривают сайты. Даже возможности Google по сбору и хранению содержимого сайтов ограничены. Вместо этого каждому домену выделяется определенный бюджет на сканирование, который определяет, сколько URL-адресов будет считано и, при необходимости, проиндексировано. Операторам крупных веб-сайтов рекомендуется подходить к этому вопросу стратегически, сигнализируя поисковым ботам, какие области конкретной страницы следует просмотреть, а какие проигнорировать. Важными инструментами для управления индексами являются: данные robots в метатегах, канонические теги, редиректы, а также файл robots.txt, о котором и пойдет речь в этом учебнике.
- Что такое robots.txt?
- Создание файла robot.txt
- структура robots.txt
- Вставка комментариев
- Обращение к нескольким агентам пользователя
- Обращение ко всем пользовательским агентам
- Исключение всех каталогов из индексации
- Разрешение индексирования для всех каталогов
- Дополнительные функции
- Определение исключений
- Блокирование файлов с определенными окончаниями
- Направление веб-гусениц на карты сайта
Что такое robots.txt?
robots.txt — это текстовый файл, который хранится в корневом каталоге домена. Блокируя доступ некоторых или всех поисковых роботов к определенным частям сайта, эти файлы позволяют операторам сайтов контролировать доступ поисковых систем к сайтам. Информация, содержащаяся в файле robots.txt, относится ко всему дереву каталогов. Последний аспект существенно отличает этот инструмент управления индексацией от метаданных роботов и редиректов, которые применимы только для специальных HTML-документов. В данном контексте особое внимание следует уделить слову «блок». Поисковые системы интерпретируют файлы robot.txt только как руководство к действию; это означает, что он не может навязывать поисковым системам какое-либо конкретное поведение при индексации. Google и другие крупные поисковые системы утверждают, что они прислушиваются к этим инструкциям. Однако единственный способ предотвратить любой необоснованный доступ — это применение надежных мер защиты паролем.

Создание файла robot.txt
Для того чтобы предоставить поисковым ботам доступ к индивидуальным инструкциям по ползанию, необходимо создать текстовый файл с именем «robots.txt» и сохранить его в корневом каталоге домена. Если, например, для домена example.com необходимо определить правила ползания, то файл robots.txt должен храниться в том же каталоге, что и www.example.com. При доступе через Интернет этот файл можно найти следующим образом: www.example.com/robots.txt. Если модель хостинга для сайта не предоставляет доступ к корневому каталогу сервера, а только к подкаталогу (например, www.example.com/user/), то управление индексацией с помощью файла robots.txt невозможно. Операторы сайта, создающие robots.txt, должны использовать чистый текстовый редактор, например vi (Linux) или notpad.exe (Windows); при передаче по FTP важно также убедиться, что файл передается в режиме ASCII. В Интернете файл может быть создан с помощью генератора robot.txt. Учитывая, что синтаксические ошибки могут иметь разрушительные последствия для индексации веб-проекта, рекомендуется проверить текстовый файл перед его загрузкой. Для этого в консоли поиска Google есть соответствующий инструмент.
структура robots.txt
Каждый текст robots.txt содержит записи, состоящие из двух частей. Первая часть представлена ключевым словом, пользовательским агентом и адресом поискового бота, которому можно дать инструкции во второй части. Эти инструкции касаются правил запрета ползания. Инициированные ключевым словом disallow, эти команды затем переходят к названию каталога или нескольких файлов. В результате получается следующая базовая структура:
user-agent: Googlebot
disallow: /temp/
disallow: /news.html
disallow: /print
В приведенном выше примере robot.txt применяется только к веб-гусеницам с именем «Googlebot» и «запрещает» им считывать каталог /temp/ и файл news. Кроме того, все файлы и каталоги с путями, начинающимися с print, также блокируются. Обратите внимание, как disallow: /temp/ и disallow: /print можно отличить друг от друга (с точки зрения синтаксиса) только по отсутствующему слэшу (/)в конце; это отвечает за значительно отличающийся смысл в синтаксисе robots.txt.
Вставка комментариев
Файл robot.txts может быть дополнен комментариями, если это необходимо. Они помечаются предшествующим хэштегом.
# robots.txt for http://www.example.com
user-agent: Googlebot
disallow: /temp/ # directory contains temporary data
disallow: /print/ # directory contains print pages
disallow: /news.html # file changes daily
Обращение к нескольким агентам пользователя
Если необходимо обратиться к нескольким агентам пользователя, то файл robots.txt может содержать любое количество блоков, написанных в соответствии с его структурой:
# robots.txt for http://www.example.com
user-agent: Googlebot
disallow: /temp/
user-agent: Bingbot
disallow: /print/
В то время как веб-гусенице Google запрещено искать в каталоге /temp/, боту Bing запрещено ползать по /print/.
Обращение ко всем пользовательским агентам
Если необходимо заблокировать определенный каталог или файл для всех веб-гусениц, то применяется звездочка (*), обозначающая подстановочный знак для всех пользователей.
# robots.txt for http://www.beispiel.de
user-agent: *
disallow: /temp/
disallow: /print/
disallow: /pictures/
Файл robots.txt блокирует каталоги /temp/, /print/ и /pictures/ для всех веб-гусениц.
Исключение всех каталогов из индексации
Если сайту необходимо полностью заблокировать все агенты пользователей, то достаточно поставить косую черту после ключевого слова disallow.
# robots.txt for http://www.beispiel.de
user-agent: *
disallow: /
Все веб-краулеры получают указание игнорировать весь сайт. Такие файлы robot.txt можно использовать, например, для веб-проектов, которые еще находятся на стадии тестирования.
Разрешение индексирования для всех каталогов
Веб-операторы могут разрешить поисковым ботам просматривать и индексировать целые веб-сайты, применив ключевое слово disallow без косой черты:
# robots.txt for http://www.example.com
user-agent: Googlebot
disallow:
Если файл robot.txt содержит запрет без косой черты, то весь веб-сайт свободно доступен для поисковых роботов, определенных под агентом пользователя.
Команда | Пример | Функция |
---|---|---|
агент пользователя: | Агент пользователя: Googlebot | Обращение к определенной веб-гусенице |
пользовательский агент: | Обращаться ко всем веб-гусеницам | |
запретить: | запретить: | Весь веб-сайт может быть просмотрен |
запретить: / | Весь сайт заблокирован | |
запретить: /directory/ | Блокируется определенный каталог | |
запретить: /file.html | Определенный файл заблокирован | |
запретить: /example | Все каталоги и файлы с путями, начинающимися с example, блокируются. |
Дополнительные функции
Помимо де-факто стандартных функций, перечисленных выше, поисковые системы также поддерживают некоторые дополнительные параметры, которые позволяют представить контент в robots.txt.
Следующие функции можно найти в разделе поддержки Google. Они основаны на соглашении, заключенном с Microsoft и Yahoo!
Определение исключений
Помимо disallow, Google также поддерживает allow — дополнительное ключевое слово в robots.txt, которое позволяет определить исключения для заблокированных каталогов.
# robots.txt for http://www.example.com
user-agent: Googlebot
disallow: /news/
allow: /news/index.html
Ключевое слово allow позволяет боту Google читать файл «http://www.beispiel.de/news/index.html», несмотря на то, что каталог новостей, занимающий более высокое положение, заблокирован.
Блокирование файлов с определенными окончаниями
Операторы сайтов, желающие запретить ботам Google считывать файлы с определенными окончаниями, могут использовать наборы данных в соответствии со следующим примером:
# robots.txt for http://www.example.com
user agent: Googlebot
disallow: /*.pdf$
Ключевое слово disallow относится ко всем файлам, оканчивающимся на .pdf, и защищает их от ботов Google. Символ звездочки(*) функционирует как подстановочный знак для доменного имени. Эта запись завершается знаком доллара, который служит якорем для окончания строки.
Направление веб-гусениц на карты сайта
Файлы robots.txt не только контролируют поведение краулеров, но и позволяют поисковым ботам ссылаться на карту сайта. Файл robots.txt со ссылкой на карту сайта может быть вызван к действию следующим образом:
# robots.txt for http://www.example.com
user agent: *
disallow: /temp/
sitemap: http://www.example.com/sitemap.xml
Команда | Пример | Функция |
---|---|---|
разрешить: | разрешить: /example.html | Введенный файл или каталог не может быть просмотрен |
запретить: /*…$ | запретить: /*.jpg$ | Файлы с определенными окончаниями блокируются |
sitemap: | sitemap: http://www.example.com/sitemap.xml | Карта сайта в формате XML находится по введенному адресу |