Как написать правильный robots.txt?

{lang: ‘ru’}

Файл robots.txt присутствует в любом веб-проекте. С помощью него можно запретить индексацию отдельных файлов и директорий Вашего сайта. Когда поисковый робот заходит на Ваш сайт, он первым делом читает файл robots.txt и получает инструкции к дальнейшим действиям. Неправильно написанный файл, может привести к плачевным последствиям, поэтому важно знать, как правильно составить robots.txt. Хочу отметить, что правила записанные в этом файле не дают 100% гарантии того, что их выполнят, это больше рекомендации, чем правила. Тем не менее этот файл необходимо создавать.

Основные правила создания файла robots.txt

файл должен иметь название только robots.txt, а не какое-либо другое(robot.txt и т.д.)
название файла должно быть в нижнем регистре, robots.txt соответственно. Robots.txt, ROBOTS.TXT — недопустимые варианты!
файл robots.txt должен находиться только в корневой директории Вашего сайта, а не где-нибудь еще.

Так же не менее важно содержание самого файла. Неправильно составленный файл может привести к тому, что некоторые страницы или директории не будут индексироваться. Рассмотрим это более подробно.

Содержание файла robots.txt

Обычно содержимое выглядит примерно так:

User-agent: *
Disallow: /edit/
Disallow: /users/

В 1 строке «User-agent: *» звездочка говорит о том, что все поисковые роботы должны выполнять эту инструкцию. Если инструкция предназначена для определенного робота, то следует указать его имя.

Во 2 и 3 строке указаны инструкции, которые запрещают индексировать директории edit и users. Следует обратить внимание на то, что запрещать индексацию директорий необходимо в отдельных строках. Совмещать запись в одной строке ни в коем случае нельзя — это ошибка. Также хочу отметить, что 1 инструкция записывается в 1 строку, то есть строки переносить нельзя.

Для яндексовского поискового робота можно записать директиву Host, которая указывает на зеркало сайта. В этой директиве необходимо указать адрес Вашего сайта с www или без него, разницы нет никакой. Пример записи:

User-agent: Yandex
Disallow: /users/
Host: mysite.com

Правила написания содержимого robots.txt

1. Содержимое файла необходимо писать в нижнем регистре.
2. В каждой инструкции Disallow указывать только одну директорию или один файл.
3. Инструкция User-agent всегда раньше Disallow.
4. Нельзя оставлять пустой инструкцию User-agent, либо звездочка *, либо имя поискового робота.
5. Адрес в директиве Host необходимо указывать без http:// и без закрывающего слеша /.
6. Для инструкции Disallow не нужны символы подстановки (звёздочки и прочие символы).
7. Инструкцию Disallow пропускать нельзя. Просто не заполняйте её, если ничего не нужно запрещать.
8. Если запрещаете индексацию директорий, то обязательно прописывайте слеши.
9. Перед тем как залить robots.txt на сервер, обязательно его проверьте несколько раз.

Файл robots.txt для wordpress

Ну и напоследок хочу привести пример robots.txt для wordpress:

User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: *?replytocom

User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: *?replytocom
Host: officialplat-tt.ru

Sitemap: http://officialplat-tt.ru/sitemap.xml.gz
Sitemap: http://officialplat-tt.ru/sitemap.xml

Желаю Вам составить правильный robots.txt. До встречи на просторах интернета!

Получайте новые статьи блога прямо себе на почту

27.01.2012 в 12:18 пп

Интересная статья! Я думала он одинаковый у всех.

Ответить

27.01.2012 в 12:36 пп

Сложно разбираться во всем этом. Я предпочел скачать готовый файл для моей CMS. Но спасибо за то, что подробно объяснили что к чему

27.01.2012 в 12:52 пп

Очень нужная информация. Нужно подробнее в ней разобраться.

27.01.2012 в 2:45 пп

Очень ценная на мой взгляд информация! Слава богу, школа нам помогает все делать правильно. Спасибо за статью.

30.01.2012 в 3:32 пп

Спасибо за подробности. Век живи, век учись.

06.02.2012 в 3:40 пп

Очень трудно продвигать сайт на Яндексе. Черт бы его побрал))
Спасибо за информацию по роботам, буду ждать еще новых статей.

19.02.2012 в 7:35 пп

Были проблемы с этим файлом. До конца так и не разобрался как сделать лучше…

19.03.2012 в 5:59 пп

Не стоит дублировать для Яндекса целую секцию, в которой то же самое, что и в верхней.
Достаточно для Яндекса просто внизу добавить Host: officialplat-tt.ru, но перед ней рекомендуется оставлять одну пустую строку после последнего Disallow

Disallow: */*/trackback перекроется Disallow: */trackback

Disallow: */*/feed/*/ перекроется Disallow: */feed

18.04.2012 в 3:30 дп

Здравствуйте, Максим. Скажите пожалуйста, что означает Crawl-delay: 4.
И еще, нужно ли закрывать теги(метки) от индексации в вордпрессе? Я закрыла от дубликата , и теперь у меня около 40 страниц 404…:(
Не могу разобраться в этом вопросе… многих пишут, что нужно закрывать…

admin:

19.04.2012 в 2:45 пп

Crawl-delay: 4 — частота сканирования поисковым роботом не чаще, чем раз в 4 секунды.
С этим нужно быть осторожным, есть шанс перекрыть доступ к целевым страницам и они не попадут в поисковый индекс

Ответить
- :
  
  20.04.2012 в 5:39 пп
  
  Я не использовала этот код. А как быть с метками? Можно ли их открывать для индексации? Не будет ли это дублировать свой же контент?
  
  Ответить

Счетчики

Как правильно написать robots.txt?

Основные правила создания файла robots.txt

Содержание файла robots.txt

Правила написания содержимого robots.txt

Файл robots.txt для wordpress

11 комментариев к записи “Как правильно написать robots.txt?”

Оставить комментарий

Поиск

Подпишись на обновления!

Рубрики