Файл Robots.txt в Blogger

Что такое robots.txt?
Это обычный текстовой файлик (расширение txt), в который записаны чёткие инструкции для поисковых машин: запретитить или разрешить индексирование определённой части сайта, зеркало домена и т.д.

Robots.txt рекомендуется создавать для каждого сайта, иначе поисковые боты (роботы) будут индексировать всё подряд, собирая в кеше поисковика дубли, и служебные файлы, включая вход в админку (на standalone блогах).


Неправильно заполненный robots.txt или его отстутствие может спровоцировать Яндекс к карательным мерам: наложить на сайт АГС. Смешно, да? Многие блогеры неделями ждут, когда бот Яндекса заглянет хоть на минуту, но стоит допустить какой-то малейший косяк, то сразу фильтр или писсимизация.

Robots.txt обязан находиться в корне сайта, и блогоплатформа Blogger/Blogspot тут не исключение. В блоггере также есть роботс и находится он по стандартному для всех сайтов адресу:
http://ваш-домен.ру/robots.txt.

Правильный, с разрешённым индексированием, robots.txt в Blogger имеет такую структуру (на примере моего блога):

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://blogger.omg-linux.ru/feeds/posts/default?orderby=updated

Давайте определимся сразу с терминами этого конфига:
User-agent - клиентский идентификатор, который используется поисковыми системами и браузерами для связи с сайтом по сетевому протоколу
User-agent: * - любой юзер-агент
disallow - не позволять индексировать
allow - позволить индексировать
Mediapartners-Google - юзерагент поискового робота Adsense
/ - корень сайта
Sitemap - xml карта (перечень главных ссылок на сайте в "сыром" виде)

Какие выводы из этого можно сделать? Что в правильном robots.txt у Blogger'а:
-- разрешено авбсолютно всё для робота контекстной рекламы
-- всем агентам стоит запрет на раздел /search в блоге (search использутся в ссылках на теги и запрещён к индексированию, что бы не плодились дубли в кеще ПС)
-- разрешено индексировать весь сайт (блог)

Вообще, и это один из косяков Blogspot, мы, юзеры дрожащие, не имеем доступа к настройке robots.txt и должны довольствоваться тем, что есть.

Но бывают такие досадные случаи... ↓


На скриншоте, как вы видите, в блоге стоит запрет на индексирование корня сайта, а это и есть весь блог. Произойти может такая ситуация внезапно, после смены бесплатного домена .blogspot.com на свой. поэтому всегда проверяйте состояние своего robots.txt, если Яндекс перестал индексировать блог или ругается на запрет индексации.

И это единственный случай, где пользователь Blogger может как-то воздействовать на robots.txt - это менять для корня домена (/) разрешающий параметр allow на disallow. Сделать это возможно только из админки в настройках:

Старый интерфейс Blogger
Новый интрфейс Blogger

Состав ссылки сайта (блога):
Ссылка, она же web-ссылка или url, всегда следует одному стандарту и имеет следующий вид:
http://blogger.omg-linux.ru/2011/11/google-plus-kak-sozdat-stranitsy-dlya.html

красный - это сетевой протокол http;
синий - доменное имя сайта (блога), в этом примере 3 уровня;
пурпурный - slash, корень сайта (видимо произошло от иерархии папок в файловых системах *nix, где / - рутовый раздел, корень фс);
зелёный - категории/папки на сервере;
серый - название файла/документа/страницы;

Как альтернатива robots.txt, для веб-страниц разработан метатег meta name=“robots”, в котором указываются две вещи:

-- можно ли поисковому роботу индексировать данную страницу (index - можно; noindex - нельзя)
-- можно ли поисковому роботу переходить (следовать) по ссылкам (follow - можно; nofollow - нельзя)

 Этот метатег (прописывается в "голову" сайта, в <head></head>) может присутствовать на каждой странице и для каждой определять параметры индексирования.

В Blogger этот метатег вставляется один раз в шаблон и забывается. Возможно, что статические страницы позволяют использовать свой метатег (ещё не пробовал).

Пример "разрешающего" (индексацию и следования по ссылкам) метатега meta name=“robots”:
<meta name=“robots” content=“index,follow”>
К регистру букв метатег не чувствителен.
Есть ещё одна достойная упоминания функция метатега - запретить сохранять в кеше ПС копию стрницы:
<meta name="robots" content="noarchive"/>

Обновление 23 марта 2012:
Теперь в Blogger/Blogspot можно менять параметры файла robots.txt.

10 комментариев:

  1. Вы не поверите несколько вы мне разъяснили... Я уже мозг сломал по поводу - сделать сайт одним целым для ПС с www и без. Теперь хоть знаю, что такое роботс.тхт...Спасибо! Буду дальше разбираться...

    ОтветитьУдалить
  2. Kefir, теперь в настройках есть редирект с "naked domain" на домен с www.
    Для каждой страницы можно определить свои мета-теги в настройках Search Preferences

    ОтветитьУдалить
  3. Aldus добрый день. А разве вот этой функции не достаточно, чтобы определить ту или иную индексацию? "Персонализированные теги robots для заголовков"

    ОтветитьУдалить
  4. Марина, привет. Персонализированные заголовки, увы, актуальны только для Гугла и Бинга. Яндекс их не поддерживает.

    ОтветитьУдалить
  5. Добрый день. Мой файл robots.txt такой же, как Вы написали - тоесть корректный. Но:

    Проблема в том что в яндекс вебмастере у меня появились документ запрещенные в файле robots.txt. Это url всех моих разделов на сайте. Пример:
    http://www.auto-mirage.com/search/label/тест%20драйв%20Nissan
    http://www.auto-mirage.com/search/label/тест%20драйв%20Mazda
    http://www.auto-mirage.com/search/label/20%20сезон%20топ%20гир

    Как видите каждый URL имеет тег "/search/"
    И в файле роботс у меня прописано Disallow: /search


    Как изменить урлы для всех этих разделов? А то у меня весь сайт состоит из этих разделов.

    ОтветитьУдалить
  6. Здравствуйте! Исходя из Ваших рекомендаций:
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://kopilkarish.blogspot.ru/feeds/posts/default?orderby=updated

    User-agent: Yandex
    Disallow: /search
    Allow: /

    Ну пожалуйста, скажите, что правильно!!!

    ОтветитьУдалить
  7. так, я ничего не поняла )))) получается, если я введу для всех- будет для всех условно- только типа гугл и ещё парочки, а яндекс не сможет искать? а если укажу конкретно яндекс, тогда остальные не будут заходить??? но я посмотрела историю запросов и у меня больше всего траффика именно с яндекса. или должен быть не траффик с яндекса, а именно робот яндекса? короче объясните чайнику плз :-) ?

    ОтветитьУдалить
  8. Здравствуйте. Пожалуйста помогите, у меня появилась одна проблема: Почему-то blogspot не принимает robots.txt с указанием главного зеркала. Пишет: содержимое robots.txt не соответствует правилам форматирования. Вот как выглядит мой robots.txt:

    User-agent: *
    Disallow: /search
    User-agent: Mediapartners-Google
    Disallow:

    Sitemap: http://мой сайт.ру/sitemap.xml

    Объясните пожалуйста. Куда надо вставлять директиву "host" чтобы она заработала.

    ОтветитьУдалить
  9. Вот ловите правильный robot txt


    User-agent: Mediapartners-Google

    Disallow:

    User-agent: *

    Disallow: /search

    Disallow: /p/search.html

    Allow: /

    Sitemap: http://malahovigor.blogspot.it/feeds/posts/default?orderby=updated

    User-agent: Yandex

    Disallow: /search

    Disallow: /p/search.html

    Allow: /

    Только ссылку на сайт замените на вашу

    ОтветитьУдалить