Главная / Блог / SEO / Зачем нужен файл robots.txt

Зачем нужен файл robots.txt

16.01.2024

Файл robots.txt – это текстовый файл, который содержит инструкции для поисковых роботов. Его неправильное использование может привести к большим проблемам для продвижения сайта. Разберем его функцию более подробно.

У каждой поисковой системы есть свои роботы, которые сканируют сайты в интернете и добавляют их в базу поисковой системы (индекс). Этот процесс называется индексацией. Когда Вы что-то ищете, например, в Яндексе, в результатах поиска Вы видите список только тех сайтов, которые робот Яндекса обошел и добавил их в индекс поисковой системы.

Когда робот поисковой системы заходит на сайт, он в первую очередь обращается к файлу robots.txt. Исходя из инструкций этого файла, робот понимает, какие страницы можно сканировать, а какие нельзя. Таким образом, редактируя файл robots.txt, мы можем закрыть для робота те страницы, которые не должны попасть в поисковую базу. К таким страницам обычно относятся: личный кабинет пользователя, технические страницы и т.п. Для каждого сайта robots.txt составляется индивидуально исходя из разных факторов. Рассмотрим основные инструкции (директивы) файла robots.txt.

User-agent

Эту директиву можно считать заголовком, в ней указывается название поискового робота, к которому относятся все последующие инструкции.

Например User-agent: Yandex. Такая запись говорит о том, что инструкции после этой записи предназначены для робота Яндекса, и только он их должен соблюдать. Другие роботы их просто проигнорируют.

В файле может быть несколько директив User-agent для разных роботов. Но зачастую это не требуется и используется одна запись для всех: User-agent: *, в которой знак звездочки означает «любой робот».

Disallow и Allow

Две основные директивы, которые говорят роботам о конкретных адресах или масках адресов, которые запрещены (Disallow) или разрешены (Allow) к индексированию. Например:

Disallow: /catalog/ - запретит к индексации каталог сайта и все дочерние страницы.
Allow: /catalog/ - разрешит к индексации каталог сайта и все дочерние страницы.

Если в конце адреса не стоит оператор $, который означает окончание адреса, то инструкция будет работать для всех дочерних страниц. Если мы напишем адрес /catalog/$ тогда инструкция сработает только для страницы /catalog/.

Crawl-delay и Clean-param

Директива Crawl-delay используется достаточно редко и для большинства сайтов не нужна. Она говорит роботу о том, какой минимальный период времени (в секундах) должен пройти между загрузкой одной страницы и другой.

Директива Clean-param указывает роботу, что адрес страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании. Например, пропишем директиву Clean-param: utm. Теперь, если робот перейдет по ссылке /catalog/?utm, то он вырежет из адреса значение ?utm и таким образом в индекс попадет правильный адрес /catalog/. Благодаря этому, мы избежим появления множества дублей страниц.

В директиве Clean-param можно использовать несколько параметров, которые не нужно учитывать роботу, запись следует делать через амперсанд &. Например Clean-param: utm>m&oid.

Sitemap.xml и Host

Директива Sitemap содержит ссылку на файл sitemap.xml. Директива Host указывает главное зеркало сайта, в настоящее время она не обязательна.

Прочее

Чтобы файл robots.txt работал корректно, он должен отвечать HTTP-кодом 200 и быть расположен в корне сайта.

Если Ваш сайт имеет доменное имя или адреса с использованием кириллицы, то их допустимо прописывать только с преобразованием в Punycode.

Для проверки файла на наличие ошибок существует множество валидаторов, например, можно проверить в Яндекс Вебмастере https://webmaster.yandex.ru/tools/robotstxt/.

Требования поисковых систем Яндекс и Google к файлу robots.txt:

Степан Бодяк

Руководитель отдела маркетинга интернет-агентства "Сайт69"

г. Тверь, ул. Артюхиной, д.24к3, пом.39

+7 (4822) 75-19-50

+7 (920) 158-43-23

info@site69.ru