Robots.txt – это текстовый файл, который загружается в корневую директорию вашего сайта и содержит инструкции для поисковых роботов. Основная цель его использования – это запрет индексации отдельных страниц и разделов на сайте. Впрочем, с помощью robots.txt можно также указывать правильное зеркало домена, прописывать путь к карте сайта (sitemap) и тому подобное.
Большинство современных поисковиков научились неплохо ориентироваться в популярных CMS и обычно не пытаются индексировать контент, который для этого не предназначен. Например, Google не будет индексировать админку вашего WordPress-блога даже если вы не будете указывать это напрямую в robots.txt. Впрочем, в некоторых случаях использование прямых запретов все-таки может оказаться полезным. И речь идет в первую очередь о запрете дублированного контента.
Некоторые вебмастера доходят до того, что запрещают индексацию страниц категорий и тегов, поскольку их содержание частично дублирует контент главной страницы. Но большинство ограничивается запретом страниц trackback и feed, которые полностью дублируют контент статьи и предназначаются совсем не для поисковиков. Такая предосторожность не только сделает выдачу сайта “чище”, но и убережет от возможных поисковых фильтров, особенно после введения нового алгортиму Google Panda.
Вот какие директивы рекомендуются для файла robots.txt (он подойдет практически для любого WordPress-блога):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback/ Disallow: /feed/ Disallow: */trackback/ Disallow: */feed/
Обратите внимание, что в robots.txt полностью закрыты для индексации административные папки wp-admin и wp-includes. Папка же wp-content закрыта лишь частично, поскольку в ней находится директория uploads, куда попадают все изображения с вашего блога, которые должны индексироваться.
Все, что нужно сделать – это скопировать директивы из приведенного выше кода (обратите внимание, что каждая директива должна писаться с новой строки), сохранить их в текстовый файл с названием robots.txt и загрузить в корневую директорию вашего сайта.
Проверить, правильно ли работает robots.txt всегда можно через интерфейсы Google Webmaster Tools и Яндекс Вебмастер.