Robots.txt и индексация блога на WordPress

Что такое файл robots.txt и для чего он нужен?

Файл robots.txt – это обыкновенный файл выполненный в формате .txt, находящийся в корневом каталоге блога, в котором находятся специальные инструкции для поисковых ботов. В robots.txt записываются инструкции, которые запрещают к индексации некоторые разделы, страницы и даже ссылки с блога, а так же указывают на правильное зеркалирование домена.

 

Robots.txt для WordPress

Как файл robots.txt может помочь в оптимизации блога?

Да очень просто, данный файл способствует более качественной индексации блога. Для оптимизатора важно исключить дубли контента блога, портала, сайта такие например, как тэги и категории, ведь все, что закрыто для индексации никогда не попадет в индекс поисковиков (Yandex, Google, Mail, MSN и др.).

Для WordPress не существует плагина (во всяком случае, я его не нашел) для генерации, и последующего управления файлом robots.txt

Поэтому данный файл необходимо будет сделать самостоятельно. Начнем с того, что данный файл должен называться именно так и не, как иначе, либо поисковые системы просто не будут обращать на него внимание. Robots.txt это обыкновенный текстовый файл. И если вообще не нужны запреты индексации, то можно оставить его просто пустым.

Формат файла robots.txt имеет несколько параметров (инструкций) для поисковых роботов.

User-agent: отвечает за то, на каких ботов будут распространяться инструкции.

Описание инструкций:

User-agent: Yandex #Только для робота Яндекс

User-agent: Googlebot #Только для Googlebot-а

User-agent: * #Для всех роботов

Allow: / #Разрешает скачивать ботам весь сайт/блог целиком

Disallow: / #Закрывает от индексации абсолютно все

В Dissallow можно запретить индексировать конкретную ссылку:

Disallow: /catalog.php?id=13384 #Запрещаем индексировать весь раздел каталога

Disallow: /catalog.php?url=https://soft-deev.blogspot.ru/&stat=13384&id=196

#Это запрет индексации конкретной ссылки, на примере моего каталога сайтов

А можно разрешить например, индексировать только одну ссылку в каталоге, тогда инструкция будет выглядеть так:

Allow: /catalog.php?url=https://soft-deev.blogspot.ru/&stat=13384&id=196

#Разрешаем индексировать только эту ссылку в каталоге

Disallow: /catalog.php?id=13384 #Все остальные в разделе отдыхают:)

#Да и комментарии нужно писать с новой строки

Sitemap: https://seocub.ru/sitemap.xml

#Эта инструкция указывает роботу на файл с картой сайта в формате XML

Host: https://seocub.ru

#Данный параметр распространяется только на робота Яндекса, и указывает ему главное зеркало блога/сайта

А вот пример того, как может выглядеть robots.txt для WordPress

User-agent: * 
Allow: /wp-content/uploads
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 

User-agent: Yandex 
Allow: /wp-content/uploads 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 
Host: https://seocub.ru 

Sitemap: https://seocub.ru/sitemap.xml 
Sitemap: https://seocub.ru/sitemap.xml.gz

 

Комментарии

  1. Я слышала, что страницы к тегам нужно закрывать от индексации так как они дублируют страницы рубрик. Изучая robots.txt заметила, что у вас для яндекса закрыта страница рубрик: Disallow: /category/ Необходимо ли закрывать от индексации рубрики и как влияет на индексацию открытые рубрики?

    1. Мнения веб-мастеров на этот счет, немного разделяются. Одни считают, что нужно закрывать рубрики и теги от индексации, другие утверждают, что нет, т. к. в рубриках дублируется только анонс статьи. Я же в свою очередь решил пока закрыть /category/ от поисковых роботов, т. к. блог мой еще молодой и лишние дубли, пусть даже и частичные анонсы, я думаю, что совершенно ни к чему.

  2. Disallow: /category/ — закрывается от робота служебная информация, та, которая обычным людям не нужна и на которую робот тратит свое время. Из всех категорий можно оставить только картинки. Чтобы не было дублей, в шаблоне используют Canonical — все дубли ссылаются на страницу с каноникл, таким образом, даже если у вас будут дубли страниц, роботы будут индексировать только ту где установлен каноникл.

  3. WordPress создаёт свой виртуальный robots.txt. Проверяли, нет ли конфликтов с ним, если создать обычный файл? Если проверяли, то как?

    1. Конфликтов между виртуальным и реальным robots.txt нет, если в настройках плагина Google XML Sitemaps, отключена функция, т. е. снята галочка с Add sitemap URL to the virtual robots.txt file. (The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory!)

      Ведь эта функция всего лишь создает мета тег на тех страницах, которые и запрещает для индексации. Но, лучше запретить индексацию в физическом robots.txt, для тех файлов и документов блога, которые вообще не имеют отношения к информационному наполнению, да и лишние дубли тоже абсолютно ни к чему. Ведь роботы того же Яндекса и Гугла могут совсем не проиндексировать необходимый контент, лишь потому, что у них на это совсем не останется времени. Да и ненужная индексация еще к тому же создает серьезную нагрузку на сервер.

  4. Интересует вопрос по поводу индексации ссылок. Т.е. если мне необходимо чтобы робот попав на главную страницу перешел по ссылке на страницу 2-го уровня, и далее ходил по страницам 2-го уровня, не переходя на главную. Грубо говоря, как сделать «noindex», и «nofollw» главной страницы со страниц 2-го уровня? Спасибо!

    1. Я не знаю, как сделать noindex и nofollоw главной страницы со страниц 2-го уровня, более того, даже если и будет закрыта главная страница в ноуиндекс и нофоллов, робот все ровно будет по ним переходить, только вес PR и анкор ссылки учитываться не будет. А если вы хотите выделить какие-то отдельные страницы сайта перед ПС, то во внутренней перелинковке есть такое понятие, как кольцо. Можно просто акцентировать внутреннюю перелинковку на какие то приоритетные страницы, статьи.

  5. Спасибо, сделал вн. перелинковку в кольцо. Noindex и nofollow для ссылок ведущих со страниц 2-го уровня на главную сделал так: ссылку с логотипа, в коде засунул в теги noindex и nofollow. А вот из меню навигации, все ссылки на главную вообще убрал. Считаю робот потратит свое время более полезно и не будет циклично ходить по одним и тем же страницам.

  6. Здравствуйте, если в роботс указать – Allow: /wp-content/uploads/*.jpg (индексировать только картинки.jpg)но на странице есть кнопки(картинки) с расширением.png, которые являются ссылками на другие страницы с описанием, будут ли такие ссылки учитываться поисковиками, если сама картинка.png запрещена к индексации? За ранее спасибо.

    1. Мое субъективное мнение: такие ссылки не будут учитываться, а как оно будет на самом деле, покажет время.

  7. Здравствуйте, кто-нибудь объяснит мне, зачем в robots.txt прописывать два раза одно и то же??? User-agent: * — значит для абсолютно всех поисковых роботов, User-agent: Yandex — только для роботов яндекса. Открыты и закрыты от индексации абсолютно одинаковые подкаталоги. А разве роботы Яндекса не относятся к «абсолютно всем» в User-agent: * ? Либо я чего-то не понимаю, либо большинство переписывают одну и ту же статью, предложенную когда-то кем-то как пример.

    1. У меня тоже неоднократно возникал этот вопрос, в справке для вебмастеров я не нашел специальных рекомендаций для отдельного использования робота Яндекса! Видимо все и я в том числе, просто копируют первоисточник и изменяют его в соответствии со своими индвидуальными требованиями.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *