Архивы в Blogger. Так ли страшен чёрт, как его малюют?

Начну этот пост с признания того, что я не знаю чёткого ответа на этот вопрос :).

Архивы в Blogger/Blogspot являются длиным страницами и содержат ленту постов за определённый интервал времени. Как правило, архивы "бьются" по месяцам. Это распространённый элемент навигации во многих движках, но на блогспоте он реализован несколько странным способом.

Представляет в блоге архивы одноимённый виджет:


В этом виджете можо выбрать один из трёх вариантов показа постов в блоге:
  • Иерархия - нажимаете на стрелочку возле даты и получаете список постов, написанных в это время
  • Простой список - список ссылок на архивные страницы
  • Раскрывающееся меню - кнопка с выбором дат

С точки зрения поисковой индексации последний вариант наиболее безобидный. Я почти пол года держал такой "блогонавигатор", и не один архив не проиндексировался (даже архивы были не закрыты метатегом). Яндекс не полез в тег "option", а я боролся за ссылки в индексе при помощи sitemap, аддурилки и пингов.

На днях, пока не отремонтировал (по подсказке Virens'а в комментах) показ архивов "раскрывающееся меню", я переставил переключатель в виджете в положение "простой список", и расторопный Яндекс сразу сьел пять архивов (omg!!!)

С этого места должна начаться паника, ведь архивы дублируют контент в блоге, а все прекрасно помнят о карательных мерах злобного Яндекса под названиями "пессимизация", "агс", "новый домен" и т.п.
Но вот что удивительно (лично для меня): совпадение или нет, но кол-во проиндексированных страниц резко увеличилось. В индекс (согласно вебмастеру) попала та фигня (которую я ленился нормально оформлять), которую безуспешно проталкивал через аддурилку несколько месяцев.
Может это шутки Яндекса, с ним делать какие-то выводы трудно - сегодня страницы есть в индексе, а завтра после апа их может там и не стать.

Что мы знаем об архивных страницах?
Они имеют приблизительно такой вид ссылки: /2011_12_01_archive.html
И при неправильном подходе в вебмастере могут стать ошибками разделов.

Архивы можно настраивать в панеле администратора:


В первом случае мы выбираем деление архивов на определённые промежутки времени, согласно которым будут формироваться архивные страницы. Так же мы можем начисто отключить архивы и тогда ссылки а-ля /2011_11_01_archive.html будут отдавать код 404, несуществующей страницы.  а сам виджет "архивы" перестанет работать.

Во втором - отключаем страницы сообщений. Т.е. архивы становятся просто лентой постов и на внутренние страницы со статьями (постами) не ведут.

Грамотные люди, поскольку в Blogger нет доступа к конфигу для поисковых машин robots.txt (и не предвидится), давно изобрели специальное условие, при котором архивы не индексируются, но поисковик может следовать по ним. Это, думаю, очень положительно влияет на перелинковку.

Откуда Яндекс может узнать о существовании архивных страниц?
Если вы на них нигде в блоге не ссылались, то только из виджета.
"Внутри" дебрей блоггера она вряд ли их найдёет, потому что движок оперирует с ссылками, в которых указан id блога, вместо доменного имени.

А теперь "десерт"
.
Снова вопрос "как выглядит архивная страница"? Если вы посмотрите ее исходный код в брузере, то увидите, что это анонсы постов строго до тега <!-- more -->, после них идут ярлыки и ссылка на комменты (зависит от шаблона).

Эксперимент
.
Тогда я решил сделать ход конём. Создал ГС (о содержимом говорить не буду), каждый пост отсёк тегом more, оставил для анонса только одно предложение с жёсткими ключами. Поставил в сайдабар виджет "архивы" (вариант 2, см. скриншот). Добавил в аддурилку только архивные ссылки. Конечно архивы были все открыты для индексирования.
Какой результат? Яндекс махом съел архивы, после них посты (внутренние страницы со статьями), т.е. проиндексировал блог. и очень быстро. Теперь можно в вебмастере спокойно удалить ссылки на архивы (и даже закрыть их в шаблоне ГС) и насладиться результатом полной (мгновенной) индексации блога.
В стандартном случае мне бы пришлось ждать фиг знает сколько, прежде чем Яндекс заглянет на мой ГС.
Ещё я слазил на другой блог с многолетним стажем и посмотрел на ссылки в Яндексе, среди которых обнаружил архивы.

Резюмирую.
1) Оставлять просто окрытыми архивы не целесообразно. И даже вредно.
2) Виджет "архивы" скармливает Яндексу (для следования по ссылкам) или индексации, или просто для следования только в двух первых вариантах (см. скриншот).
3) Баловаться с архивами полезно (нынешние алгоритмы Яндекса позволяют), если лента анонсов в архивной странице грамотно оформлена, что по сути является аналогом карты сайта, только более продуктивным.
4) Google не зря дал возможность формирования архивов и не закрыл их в robots.txt.
5) Возможно существуют другие факторы, которые вляют на успешную индексацию с помощью архивов ↓

Предупреждение.
Ни в коем случае нельзя слепо практиковать все, что я описал в этой заметке.
Возможно, что это лишь удачное стечение обстоятельств или, как уже сказал, вмешательство инопланетян.

Лучший опыт - это слазить в эту статью и проанализировать мощные блоги, но не те, которые посвящены сео (там особая кухня).

4 комментария:

  1. Для Яндекса открытый архив очень полезен. Он быстрее индексирует страницы - это а-ля карта сайта. Еще к тому же повышает релевантность заголовка. Но для гугл я так понимаю это минус, поэтому я его закрыл в тег ноффолоу

    ОтветитьУдалить
  2. Приятные новости-)
    А то я ждал пинков от единомышленников.

    ОтветитьУдалить
  3. Насколько я понимаю, архивы нужны лишь для соответствующего гаджета. Тогда он был очень моден. В целом - это только дублирующий контент.

    ОтветитьУдалить
  4. Ага, я тоже так думаю. Вообще они активны по системным соображениям, это ж скелет блога.
    Я проанализировал социалки в роде атибубена и хабра. Там такие архивы (ленты-дубликаты микропостов) не закрывают.
    Но это касается только микропостов. Кто их не отсекал в настройках блоггера, пускал целыми, - наплодил дубли и вылетел из поиска (есть пример).

    ОтветитьУдалить