Blogger не для чайников: Файл Robots.txt в Blogger

Что такое robots.txt?

Это обычный текстовой файлик (расширение txt), в который записаны чёткие инструкции для поисковых машин: запретитить или разрешить индексирование определённой части сайта, зеркало домена и т.д.

Robots.txt рекомендуется создавать для каждого сайта, иначе поисковые боты (роботы) будут индексировать всё подряд, собирая в кеше поисковика дубли, и служебные файлы, включая вход в админку (на standalone блогах).

Неправильно заполненный robots.txt или его отстутствие может спровоцировать Яндекс к карательным мерам: наложить на сайт АГС. Смешно, да? Многие блогеры неделями ждут, когда бот Яндекса заглянет хоть на минуту, но стоит допустить какой-то малейший косяк, то сразу фильтр или писсимизация.

Robots.txt обязан находиться в корне сайта, и блогоплатформа Blogger/Blogspot тут не исключение. В блоггере также есть роботс и находится он по стандартному для всех сайтов адресу:
http://ваш-домен.ру/robots.txt.

Правильный, с разрешённым индексированием, robots.txt в Blogger имеет такую структуру (на примере моего блога):

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://blogger.omg-linux.ru/feeds/posts/default?orderby=updated

Давайте определимся сразу с терминами этого конфига:
User-agent - клиентский идентификатор, который используется поисковыми системами и браузерами для связи с сайтом по сетевому протоколу
User-agent: * - любой юзер-агент
disallow - не позволять индексировать
allow - позволить индексировать
Mediapartners-Google - юзерагент поискового робота Adsense
/ - корень сайта
Sitemap - xml карта (перечень главных ссылок на сайте в "сыром" виде)

Какие выводы из этого можно сделать? Что в правильном robots.txt у Blogger'а:
-- разрешено авбсолютно всё для робота контекстной рекламы
-- всем агентам стоит запрет на раздел /search в блоге (search использутся в ссылках на теги и запрещён к индексированию, что бы не плодились дубли в кеще ПС)
-- разрешено индексировать весь сайт (блог)

Вообще, и это один из косяков Blogspot, мы, юзеры дрожащие, не имеем доступа к настройке robots.txt и должны довольствоваться тем, что есть.

Но бывают такие досадные случаи... ↓

На скриншоте, как вы видите, в блоге стоит запрет на индексирование корня сайта, а это и есть весь блог. Произойти может такая ситуация внезапно, после смены бесплатного домена .blogspot.com на свой. поэтому всегда проверяйте состояние своего robots.txt, если Яндекс перестал индексировать блог или ругается на запрет индексации.

И это единственный случай, где пользователь Blogger может как-то воздействовать на robots.txt - это менять для корня домена (/) разрешающий параметр allow на disallow. Сделать это возможно только из админки в настройках:


Старый интерфейс Blogger

Новый интрфейс Blogger

Состав ссылки сайта (блога):
Ссылка, она же web-ссылка или url, всегда следует одному стандарту и имеет следующий вид:
http://blogger.omg-linux.ru/2011/11/google-plus-kak-sozdat-stranitsy-dlya.html

красный - это сетевой протокол http;
синий - доменное имя сайта (блога), в этом примере 3 уровня;
пурпурный - slash, корень сайта (видимо произошло от иерархии папок в файловых системах *nix, где / - рутовый раздел, корень фс);
зелёный - категории/папки на сервере;
серый - название файла/документа/страницы;

Как альтернатива robots.txt, для веб-страниц разработан метатег meta name=“robots”, в котором указываются две вещи:

-- можно ли поисковому роботу индексировать данную страницу (index - можно; noindex - нельзя)
-- можно ли поисковому роботу переходить (следовать) по ссылкам (follow - можно; nofollow - нельзя)

Этот метатег (прописывается в "голову" сайта, в <head></head>) может присутствовать на каждой странице и для каждой определять параметры индексирования.

В Blogger этот метатег вставляется один раз в шаблон и забывается. Возможно, что статические страницы позволяют использовать свой метатег (ещё не пробовал).

Пример "разрешающего" (индексацию и следования по ссылкам) метатега meta name=“robots”:
<meta name=“robots” content=“index,follow”>
К регистру букв метатег не чувствителен.
Есть ещё одна достойная упоминания функция метатега - запретить сохранять в кеше ПС копию стрницы:
<meta name="robots" content="noarchive"/>

Обновление 23 марта 2012:
Теперь в Blogger/Blogspot можно менять параметры файла robots.txt.

12 комментариев:

Kefir12 марта 2012 г. в 12:04
Вы не поверите несколько вы мне разъяснили... Я уже мозг сломал по поводу - сделать сайт одним целым для ПС с www и без. Теперь хоть знаю, что такое роботс.тхт...Спасибо! Буду дальше разбираться...
ОтветитьУдалить
Ответы
Pavel4 мая 2012 г. в 20:19
Kefir, теперь в настройках есть редирект с "naked domain" на домен с www.
Для каждой страницы можно определить свои мета-теги в настройках Search Preferences
ОтветитьУдалить
Ответы
Марина2 августа 2013 г. в 11:53
Aldus добрый день. А разве вот этой функции не достаточно, чтобы определить ту или иную индексацию? "Персонализированные теги robots для заголовков"
ОтветитьУдалить
Ответы
Al5 августа 2013 г. в 03:21
Марина, привет. Персонализированные заголовки, увы, актуальны только для Гугла и Бинга. Яндекс их не поддерживает.
ОтветитьУдалить
Ответы
Unknown29 августа 2013 г. в 14:55
Добрый день. Мой файл robots.txt такой же, как Вы написали - тоесть корректный. Но:

Проблема в том что в яндекс вебмастере у меня появились документ запрещенные в файле robots.txt. Это url всех моих разделов на сайте. Пример:
http://www.auto-mirage.com/search/label/тест%20драйв%20Nissan
http://www.auto-mirage.com/search/label/тест%20драйв%20Mazda
http://www.auto-mirage.com/search/label/20%20сезон%20топ%20гир

Как видите каждый URL имеет тег "/search/"
И в файле роботс у меня прописано Disallow: /search

Как изменить урлы для всех этих разделов? А то у меня весь сайт состоит из этих разделов.
ОтветитьУдалить
Ответы
Al29 августа 2013 г. в 23:55
Ответил на форуме
ОтветитьУдалить
Ответы
Rinat Salimov6 апреля 2014 г. в 02:43
Здравствуйте! Исходя из Ваших рекомендаций:
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://kopilkarish.blogspot.ru/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Allow: /

Ну пожалуйста, скажите, что правильно!!!
ОтветитьУдалить
Ответы
julka-spulka13 июня 2014 г. в 02:11
так, я ничего не поняла )))) получается, если я введу для всех- будет для всех условно- только типа гугл и ещё парочки, а яндекс не сможет искать? а если укажу конкретно яндекс, тогда остальные не будут заходить??? но я посмотрела историю запросов и у меня больше всего траффика именно с яндекса. или должен быть не траффик с яндекса, а именно робот яндекса? короче объясните чайнику плз :-) ?
ОтветитьУдалить
Ответы
Ramzan-3D2 января 2015 г. в 12:01
Здравствуйте. Пожалуйста помогите, у меня появилась одна проблема: Почему-то blogspot не принимает robots.txt с указанием главного зеркала. Пишет: содержимое robots.txt не соответствует правилам форматирования. Вот как выглядит мой robots.txt:

User-agent: *
Disallow: /search
User-agent: Mediapartners-Google
Disallow:

Sitemap: http://мой сайт.ру/sitemap.xml

Объясните пожалуйста. Куда надо вставлять директиву "host" чтобы она заработала.
ОтветитьУдалить
Ответы
Unknown22 февраля 2015 г. в 17:17
Вот ловите правильный robot txt

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Disallow: /p/search.html

Allow: /

Sitemap: http://malahovigor.blogspot.it/feeds/posts/default?orderby=updated

User-agent: Yandex

Disallow: /search

Disallow: /p/search.html

Allow: /

Только ссылку на сайт замените на вашу
ОтветитьУдалить
Ответы
Gidra26 апреля 2020 г. в 21:05
Как исправить ?

# robots.txt for https://www.blogger.com

User-agent: *
Disallow: /blog_this.pyra
Disallow: /comment.g
Disallow: /comment-iframe.g
Disallow: /create-blog.g
Disallow: /delete-comment.g
Disallow: /email-post.g
Disallow: /followers.g
Disallow: /post-edit.g
Disallow: /profile-find.g
Disallow: /rearrange
Disallow: /share-post.g
Disallow: /share-post-menu.g
ОтветитьУдалить
Ответы
Саша16 июля 2020 г. в 16:43
https://www.konustv.ru не получается
ОтветитьУдалить
Ответы

Добавить комментарий