Файл robots.txt присутствует в любом веб-проекте. С помощью него можно запретить индексацию отдельных файлов и директорий Вашего сайта. Когда поисковый робот заходит на Ваш сайт, он первым делом читает файл robots.txt и получает инструкции к дальнейшим действиям. Неправильно написанный файл, может привести к плачевным последствиям, поэтому важно знать, как правильно составить robots.txt. Хочу отметить, что правила записанные в этом файле не дают 100% гарантии того, что их выполнят, это больше рекомендации, чем правила. Тем не менее этот файл необходимо создавать.
Основные правила создания файла robots.txt
- файл должен иметь название только robots.txt, а не какое-либо другое(robot.txt и т.д.)
- название файла должно быть в нижнем регистре, robots.txt соответственно. Robots.txt, ROBOTS.TXT — недопустимые варианты!
- файл robots.txt должен находиться только в корневой директории Вашего сайта, а не где-нибудь еще.
Содержание файла robots.txt
Обычно содержимое выглядит примерно так:
User-agent: * Disallow: /edit/ Disallow: /users/
В 1 строке «User-agent: *» звездочка говорит о том, что все поисковые роботы должны выполнять эту инструкцию. Если инструкция предназначена для определенного робота, то следует указать его имя.
Во 2 и 3 строке указаны инструкции, которые запрещают индексировать директории edit и users. Следует обратить внимание на то, что запрещать индексацию директорий необходимо в отдельных строках. Совмещать запись в одной строке ни в коем случае нельзя — это ошибка. Также хочу отметить, что 1 инструкция записывается в 1 строку, то есть строки переносить нельзя.
Для яндексовского поискового робота можно записать директиву Host, которая указывает на зеркало сайта. В этой директиве необходимо указать адрес Вашего сайта с www или без него, разницы нет никакой. Пример записи:
User-agent: Yandex Disallow: /users/ Host: mysite.com
Правила написания содержимого robots.txt
1. Содержимое файла необходимо писать в нижнем регистре.
2. В каждой инструкции Disallow указывать только одну директорию или один файл.
3. Инструкция User-agent всегда раньше Disallow.
4. Нельзя оставлять пустой инструкцию User-agent, либо звездочка *, либо имя поискового робота.
5. Адрес в директиве Host необходимо указывать без http:// и без закрывающего слеша /.
6. Для инструкции Disallow не нужны символы подстановки (звёздочки и прочие символы).
7. Инструкцию Disallow пропускать нельзя. Просто не заполняйте её, если ничего не нужно запрещать.
8. Если запрещаете индексацию директорий, то обязательно прописывайте слеши.
9. Перед тем как залить robots.txt на сервер, обязательно его проверьте несколько раз.
Файл robots.txt для wordpress
Ну и напоследок хочу привести пример robots.txt для wordpress:
User-agent: * Crawl-delay: 4 Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: *?replytocom User-agent: Yandex Crawl-delay: 4 Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: *?replytocom Host: officialplat-tt.ru Sitemap: http://officialplat-tt.ru/sitemap.xml.gz Sitemap: http://officialplat-tt.ru/sitemap.xml
Желаю Вам составить правильный robots.txt. До встречи на просторах интернета!
Получайте новые статьи блога прямо себе на почту
Интересная статья! Я думала он одинаковый у всех.
Сложно разбираться во всем этом. Я предпочел скачать готовый файл для моей CMS. Но спасибо за то, что подробно объяснили что к чему
Очень нужная информация. Нужно подробнее в ней разобраться.
Очень ценная на мой взгляд информация! Слава богу, школа нам помогает все делать правильно. Спасибо за статью.
Спасибо за подробности. Век живи, век учись.
Очень трудно продвигать сайт на Яндексе. Черт бы его побрал))
Спасибо за информацию по роботам, буду ждать еще новых статей.
Были проблемы с этим файлом. До конца так и не разобрался как сделать лучше…
Не стоит дублировать для Яндекса целую секцию, в которой то же самое, что и в верхней.
Достаточно для Яндекса просто внизу добавить Host: officialplat-tt.ru, но перед ней рекомендуется оставлять одну пустую строку после последнего Disallow
Disallow: */*/trackback перекроется Disallow: */trackback
Disallow: */*/feed/*/ перекроется Disallow: */feed
Здравствуйте, Максим. Скажите пожалуйста, что означает Crawl-delay: 4.
И еще, нужно ли закрывать теги(метки) от индексации в вордпрессе? Я закрыла от дубликата , и теперь у меня около 40 страниц 404…:(
Не могу разобраться в этом вопросе… многих пишут, что нужно закрывать…
Crawl-delay: 4 — частота сканирования поисковым роботом не чаще, чем раз в 4 секунды.
С этим нужно быть осторожным, есть шанс перекрыть доступ к целевым страницам и они не попадут в поисковый индекс
Я не использовала этот код. А как быть с метками? Можно ли их открывать для индексации? Не будет ли это дублировать свой же контент?