Interested Article - Стандарт исключений для роботов

Сообщение о том, что поисковый робот сервиса Wayback Machine не может сканировать сайт Facebook из-за содержимого файла robots.txt, запрещающего сканирование.

Стандарт исключений для роботов — стандарт ограничения доступа роботам к содержимому на http -сервере при помощи текстового файла robots.txt , находящегося в корне сайта (то есть имеющего путь относительно имени сайта /robots.txt ). Действие файла не распространяется на сайты, расположенные на поддоменах .

Следование стандарту добровольно. Стандарт был принят консорциумом W3C 30 января 1994 года в списке рассылки [email protected] и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления обходом сайта поисковыми роботами . Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны запрашиваться.

Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки : символы CR , CR+ LF , LF ). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent , либо Disallow .

В директиве User-agent указываются роботы, которые должны следовать указанным инструкциям (например, User-agent: Yandex , User-agent: YandexBot , User-agent: * ).

Сравнение производится методом простого поиска подстроки. Например, запись

Disallow: /about

запретит доступ как к разделу http://example.com/about/ , так и к файлу http://example.com/about.php , а запись

Disallow: /about/

— только к разделу http://example.com/about/ .

Файл может содержать комментарии — часть строки, начинающаяся с символа # .

Проверка синтаксиса

Неправильно составленный robots.txt может привести к отрицательным последствиям. Например, весь сайт может «выпасть» из поискового индекса . Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

(рус.) (выполняет проверку синтаксиса и разрешения для каждой отдельной страницы)
(рус.) (позволяет проверить разрешения для каждой отдельной страницы)

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: *
Disallow: /

Запрет доступа определённого робота к каталогу /private/:

User-agent: googlebot
Disallow: /private/

Нестандартные директивы

Allow : имеет действие, обратное директиве Disallow — разрешает доступ к определённой части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/

Crawl-delay : устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды. На данный момент эта директива не учитывается Googlebot и YandexBot .

User-agent: *
Crawl-delay: 10

Sitemap : расположение файлов Sitemaps , которые могут показать, что именно нужно проиндексировать поисковому роботу.

Sitemap: http://example.com/sitemap.xml

Расширенный стандарт

В 1996 году был предложен , включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845     # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

См. также

Примечания

. yandex.ru . Дата обращения: 1 августа 2021. 1 августа 2021 года.

Ссылки

(англ.)
— о файле robots.txt и роботах в Рунете по-русски
— справка Google
— помощь Яндекса
— помощь Mail.Ru

[1] . yandex.ru . Дата обращения: 1 августа 2021. 1 августа 2021 года.

Поисковая оптимизация
Исключения	Метатеги nofollow noindex
Маркетинг	Интернет-маркетинг Партнёрская программа Маркетинг по электронной почте Интернет-статистика
Поисковый маркетинг	Поисковый маркетинг Оптимизация сайта под социальные сети (SMO) Маркетинг в социальных сетях (SMM) Оплата за клик Поисковая бомба
Спам	Поисковый спам Пессимизация Линкоферма Дорвеи Клоакинг
Ссылки	Обмен ссылками Биржа ссылок (ссылки на сайт) Поисковый индекс
Прочее	Страница приземления Геотаргетинг Статистика запросов Стоп-слова Арбитраж Интернет-трафика

Описание структуры

Проверка синтаксиса

Примеры

Нестандартные директивы

Расширенный стандарт

См. также

Примечания

Ссылки

Национальный стандарт

Стандарт медицинской помощи

Same as Стандарт исключений для роботов

Именование статей/Названия компаний/Список исключений

Именование статей/Географические названия/Список исключений

Обработка исключений

Бунт роботов (фильм)

Битвы роботов

Бунт роботов (фильм)

Зал славы роботов

Сказки роботов

Именование статей/Географические названия/Список исключений

Национальный стандарт

Стандарт медицинской помощи

Локальный стандарт покоя

Стандарт частоты

Золотой стандарт

AES (стандарт шифрования)

ЗУР семейства «Стандарт»

Стандарт разложения (телевидение)

Золотой стандарт (серия марок)

Межгосударственный стандарт

Список национальных валют, не включённых в стандарт ISO 4217

Отраслевой стандарт

Национальный стандарт

Федеральный государственный образовательный стандарт (Россия)

Глобальный стандарт классификации отраслей

Русский Стандарт (водка)

AES (стандарт шифрования)

STEP (стандарт)

Золотой стандарт

Золотой стандарт

Денежные единицы, не включённые в стандарт ISO 4217