WordPress

Robots.txt и индексация блога на WordPress

Что такое файл robots.txt и для чего он нужен?

Файл robots.txt – это обыкновенный файл выполненный в формате .txt, находящийся в корневом каталоге блога, в котором находятся специальные инструкции для поисковых ботов. В robots.txt записываются инструкции, которые запрещают к индексации некоторые разделы, страницы и даже ссылки с блога, а так же указывают на правильное зеркалирование домена.

 

Robots.txt для WordPress

Как файл robots.txt может помочь в оптимизации блога?

Да очень просто, данный файл способствует более качественной индексации блога. Для оптимизатора важно исключить дубли контента блога, портала, сайта такие например, как тэги и категории, ведь все, что закрыто для индексации никогда не попадет в индекс поисковиков (Yandex, Google, Mail, MSN и др.).

Для WordPress не существует плагина (во всяком случае, я его не нашел) для генерации, и последующего управления файлом robots.txt

Поэтому данный файл необходимо будет сделать самостоятельно. Начнем с того, что данный файл должен называться именно так и не, как иначе, либо поисковые системы просто не будут обращать на него внимание. Robots.txt это обыкновенный текстовый файл. И если вообще не нужны запреты индексации, то можно оставить его просто пустым.

Формат файла robots.txt имеет несколько параметров (инструкций) для поисковых роботов.

User-agent: отвечает за то, на каких ботов будут распространяться инструкции.

Описание инструкций:

User-agent: Yandex #Только для робота Яндекс

User-agent: Googlebot #Только для Googlebot-а

User-agent: * #Для всех роботов

Allow: / #Разрешает скачивать ботам весь сайт/блог целиком

Disallow: / #Закрывает от индексации абсолютно все

В Dissallow можно запретить индексировать конкретную ссылку:

Disallow: /catalog.php?id=13384 #Запрещаем индексировать весь раздел каталога

Disallow: /catalog.php?url=https://soft-deev.blogspot.ru/&stat=13384&id=196

#Это запрет индексации конкретной ссылки, на примере моего каталога сайтов

А можно разрешить например, индексировать только одну ссылку в каталоге, тогда инструкция будет выглядеть так:

Allow: /catalog.php?url=https://soft-deev.blogspot.ru/&stat=13384&id=196

#Разрешаем индексировать только эту ссылку в каталоге

Disallow: /catalog.php?id=13384 #Все остальные в разделе отдыхают:)

#Да и комментарии нужно писать с новой строки

Sitemap: https://seocub.ru/sitemap.xml

#Эта инструкция указывает роботу на файл с картой сайта в формате XML

Host: https://seocub.ru

#Данный параметр распространяется только на робота Яндекса, и указывает ему главное зеркало блога/сайта

А вот пример того, как может выглядеть robots.txt для WordPress

User-agent: * 
Allow: /wp-content/uploads
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 

User-agent: Yandex 
Allow: /wp-content/uploads 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /webstat/ 
Disallow: /feed/ 
Disallow: /category/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /autor/ 
Host: https://seocub.ru 

Sitemap: https://seocub.ru/sitemap.xml 
Sitemap: https://seocub.ru/sitemap.xml.gz