Файл robots.txt для Вордпресс

Для того, чтобы разрешить или же запретить индексацию отдельных страниц или записей сайта в поисковые системы (например, Яндекс, Rambler, Bing, Google, Yahoo…), используется файл robots.txt. Он есть на каждом сайте, и располагаеся в корневой директории Вашего сайта. Но что такое индексация страниц?

Допустим, Вы вошли в поисковую машину Яндекс (или Gooogle) и ввели следующую фразу: «как сделать сайт». Появилось следующее:

Фото Яндекса

Высветились название статьи, ссылка на статью и её краткое содержание. Как они здесь оказались? Прежде всего, поисковая система Яндекс проиндексировала множество различных сайтов, ссылки на статьи которых теперь мы видим на экране. Поэтому правильно составленный файл robots.txt облегчит не только индексацию сайта для поисковых систем, но и исключит связанные с этим ошибки. Зачем, к примеру, Яндексу индексировать страницу входа на сайт, куда сможет попасть только владелец сайта? Зачем индексировать дубли страниц, которые уже есть на главной странице сайта? Именно поэтому следует исключать не только все файлы, предназначенные для работы на вордпресс, но и все архивы, за все года.

Вообще, строгих правил по составлению файла robots.txt нет. Кто-то говорит, что для Яндекса нужно отдельно прописывать директивы, кто-то считытает совсем обратное. Лично у меня с этим проблем ещё не возникало. Я сразу составил рабочий файл, загрузил его в корневую директорию сайта и проверил все запреты от индексации страниц здесь, чтобы не возникло проблем в будущем. Высветилось следующее окно:

Проверка запрета индексации в Яндексе

В используемых секциях видно, что Яндекс выбрал строки из файла robots.txt 25-49 и 51-52, благодаря которым учитывает, какие страницы сайта индексировать, а какие нет. Это можно даже проверить. Откроем «Список URL» и введём какие-нибудь страницы, например: http://fortran-new.ru, http://fortran-new.ru/wp-admin, http://fortran-new.ru/2012, http://fortran-new.ru/wp-login.php, http://fortran-new.ru/sozdanie-sajta/kak-sdelat-sitemap, следующим образом:

Проверяем страницы сайта на запрет от индексации в Яндексе

И нажимаем на кнопку «Проверить».

Результаты индексации сайта в Яндексе

Как видим, все ненужные нам страницы запрещены от индексации.

И напоследок, хотелось бы дать не просто готовый файл robots.txt, но и объяснить, что ещё нужно будет прописывать туда ежегодно и каким образом это сделать.
Как упоминалось выше, бывают ситуации, когда появляется множество дублей страниц. На вордпрессе они есть. Например, архивы за год. Запрет в файле robots.txt прописывается директивой Disallow, после чего указывается адрес страницы. Таким образом, чтобы запретить все дубли страниц 2012 года, пропишем Disallow: /2012

И, конечно же, предлагаем воспользоваться формой, для создания robots.txt:

Ваш сайт:*

http://

URL Sitemap1:

http://

URL Sitemap2:

http://

URL Sitemap3:

http://

URL Sitemap4:

http://

Сгенерировать для Яндекса:
URL, запрещённые к индексации:
Архивы, запрещённые к индексации:
2005 год
2006 год
2007 год
2008 год
2009 год
2010 год
2011 год
2012 год
2013 год
2014 год
2015 год
2016 год
2017 год

HERE;
?>

Автор

admin

Программист - техник, разработчик сайтов и программного обеспечения, владелец сервера, администратор сайта "Немного о компьютере..."

Файл robots.txt для Вордпресс: 3 комментария

  1. Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
    А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
    То есть как я понимаю архив в индексацию влез?

  2. Да, все лишние страницы — которые дублируются — убираем! Для запрета индексации всех архивов в 2012 году прописываем: сайт.ру/2012/*

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *