Sitemap xml для блога

Sitemap - конфиг с прописанными ссылками, придуман для упрощения работы по индексации сайта поисковыми системами. Грамотный sitemap не содержит левых, ненужных ссылок (например, тех, которые закрыты метатегом или через robots.txt).

Робот Яндекса и других ПС ходит по ссылкам и индексирует сайт. Насколько в реальности это действует, я не знаю. В Блогспоте долгое время не было вообще такого конфига. В Гугл скрамливалась atom-лента, для Яндекса блогспотовцы генерировали сайтмапу через онлайн-сервисы и клали болт её на сторонний хостинг.

В экспериментальном режиме (потому что оно глючит) Блогспот давно начал запускать автогенерацию sitemap.xml, где перечислены все посты (урлы) бога с датой последней модификации.

Вот пример этого конфига (кликабельно!!!):

Содержимое sitemap из Blogger

Результаты теста валидности этого сайтмапа (инструмент проверки от Яндекса):

Валидатор Яндекса для sitemap

Из скудной документации (ссылки в Вебастере) можно узнать, что Яндекс поддерживает следующие параметры в конфиге, не считая ссылки:

  • дату последнего обновления страницы (lastmod)
  • частоту изменения страницы (changefreq)
  • относительную значимость страницы (priority)
Lastmod у нас есть в файлике есть, и этого достаточно.

Как получить ссылку на sitemap
Ссылка выглядит так:
http://ваш_сайт.ru/sitemap.xml

Например: http://remont-kvartiri-svoimi-rykami.blogspot.com/sitemap.xml

Есть одна особенность.
В случае, если у вас к блогу припаркован свой домен, и лаги вам не открывают ничего, то придётся выудить sitemap по старому названию.
У меня это http://blogger-omg.blogspot.com/sitemap.xml

Кормим Яндекс
Ссылка на саймап конечно не появится в Вебмастере Яндекса сама, её надо внести туда ручками:
Как добавить sitemap в Яндекс

Потом придётся неделю, две, три... подождать и с радостью увидеть надпись:
Статус sitemap в Яндексе


Что там в ссылке "подробнее", я скриншотил тут.

В период глюков на Блогспоте генерация точной sitemap особенна актуальна, надеюсь, Яндекс её учитывает.

Sitemap и Robots
Сайтмапу по рекомендации Яндекса можно добавлять в robots.txt записью вида:

Sitemap в robots txt

Как видите, встроенную Блогспотом ссылку на фид можно оставить, поскольку Яндекс разрешает использовать несколько конфигов.

32 комментария:

  1. Привет. Спасибо за статью. В общим взял со старого адреса ссылку _ http://pro100blogger.blogspot.com/sitemap.xml

    И впихнул в ЯВ pro100blogger.com. Яндекс принял и ошибок не нашел. Меня только смущает, что это сайтмеп со старого домена.

    ОтветитьУдалить
  2. Посмотри robots.txt моего блога, все ли я правильно сделал?

    ОтветитьУдалить
  3. Что тебя смущает? Там ссылки свежие, и за 2013 год есть. Домен указан везде, как pro100blogger.com.
    А то, что он светит с другого домена - это вообще без разницы для Яндекса.
    Убери в robots из раздела для юзер-агента Yandex строку "Sitemap: http://pro100blogger.com/feeds/posts/default?orderby=updated" - это безобразие совершенно не нужно Яндексу.

    ОтветитьУдалить
  4. Да такая же фигня, на новом домене - стр 404 , а по старому, блогсптовскому, зачетный сайтмап его-то и прикрутим ;)

    ОтветитьУдалить
  5. Обязательно ли скармливать этот сайтмап в роботс?

    ОтветитьУдалить
  6. @Justus
    Неа. В robots он прописывается, если лень идти в Вебмастер или хочется разом прописать для всех юзер-агентов поисковиков.

    ОтветитьУдалить
  7. У меня Яндекс по поводу: http://blogodel.com/feeds/posts/default?orderby=updated пишет ОШИБКА. Что делать? Не обращать внимание?

    ОтветитьУдалить
  8. Не кормить Яндекс этой atom-лентой! Это не сайтмап, это лента для подписки и внутренних дел в Блогспоте.
    Яндексу скармливать либо ту сайтмап, про которую я написал, либо ту, что сгенерируете где-нибудь в онлайн-сервисе.

    ОтветитьУдалить
  9. Ни кто этой лентой не кормит, Яндекс сам выдергивает из Роботса как сайтмап, а потом пишет ОШИБКА.

    ОтветитьУдалить
  10. Спасибо за статью. Сделала все, как написано. Тоже пришлось брать ссылку со старого адреса, блогспотовского.. Надеюсь, это не повлияет на индексацию и все пройдет успешно!

    ОтветитьУдалить
  11. @Justus
    Ну правильно, дефолтовый атом прописан в robots.txt.

    ОтветитьУдалить
  12. Здравствуйте , извините , но я так и не понял всего. Стоит сайтмап старый , никаких изменений в плохую сторону блог не ощутил (стоит старый сайтмап ....orderby=updated). Нужно менять ? Вроде и так поисковики не плохо едят новые посты

    ОтветитьУдалить
  13. Этот старый сайтмап - не сайтмап, а атом лента, годится только для Гугла.
    Яндекс его не читает.

    ОтветитьУдалить
  14. Не совсем понял, что нужно делать. В blogge-е появился нормальный sitemap? Вроде его не было никогда. Мне один оптимизатор в robots.txt прописал такой конфиг:

    User-agent: *
    Disallow: /search
    Allow: /
    Sitemap: http://www.eb-school.ru/feeds/posts/default?orderby=UPDATED

    User-agent: Yandex
    Disallow: /search
    Allow: /
    Sitemap: http://www.eb-school.ru/feeds/posts/default?orderby=UPDATED

    Это нормально? В таком режиме сайт живет давно, не могу сказать, что есть какие-то проблемы. Указание нового sitemap что-нить изменит? Главное, чтобы не в худшую сторону :-/.

    ОтветитьУдалить
  15. Для директивы Яндекса бесполезно указывать "http://www.eb-school.ru/feeds/posts/default?orderby=UPDATED
    "!!! Я уже писал в комментах. Вместо этого теперь можно прописать настоящий сайтмап. Как получить ссылку, написано в заметке.

    ОтветитьУдалить
  16. @aldous

    ок, видимо так. Непонятно, что в robots в итоге прописать нужно. Если брать настоящий сайтмап отсюда: http://eb-school.blogspot.com/sitemap.xml , то он также статические страницы не захватывает. И странно, что с текущим доменом http://www.eb-school.ru/sitemap.xml - сайтмап не обнаруживается.. Честно говоря слегка страшновато robots трогать лишний раз.. Понять бы, что это даст. Яндекс мои статьи порой лучше гугла находит. Этот новый сайтамп недавно что ли появился? Всегда говорили, что он в Blogger-е через /feeds/posts/default?orderby=UPDATED генерируется.

    ОтветитьУдалить
  17. Если брать настоящий сайтмап отсюда: http://eb-school.blogspot.com/sitemap.xml , то он также статические страницы не захватывает.
    Цитирую руководство Яндекса:
    " Файл Sitemap — это файл, расположенный на сайте, с дополнительной информацией о страницах сайта, подлежащих индексированию.
    С помощью файла Sitemap вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно.

    Файлы Sitemap учитываются при обходе сайта, однако мы не гарантируем, что все URL из вашего файла Sitemap будут добавлены в поисковый индекс Яндекса."

    Логично, что sitemap может ускорить индексацию и указать на те ссылки про которые Яндекс не знал. Никто не скажет сейчас, насколько нужен sitemap, просто используют на всякий случай. ВДруг проблемы с индексацией начнутся, или суппорт Яндекса укажет на отсутствие sitemap, как на несоблюдение рекомендаций Яндекса.

    Статические страницы не заносятся ни в фид, ни в сайтмап. На них публикуется маловажная информация, либо не предназначенная для индексации, либо не требующая точной индексации.

    И странно, что с текущим доменом http://www.eb-school.ru/sitemap.xml - сайтмап не обнаруживается..
    Блогспот не анонсировал sitemap ещё. Официально его нет.

    Честно говоря слегка страшновато robots трогать лишний раз..
    Это осу за зад трогать страшно, а текстовый конфиг... что там страшного? Почитайте рекомендации Яндекса.

    Всегда говорили, что он в Blogger-е через /feeds/posts/default?orderby=UPDATED генерируется
    Генереруется не sitemap, а atom-лента! Это Гугл использовал её в качестве сайтмапы. И я не помню, чтобы там были статические страницы.

    ОтветитьУдалить
  18. @aldous

    "Это осу за зад трогать страшно" ))). Супер!! Я рыдаю )). Блин, все хорошо, только не технический склад ума у меня. И потом.. все изменения в robots могут аукнутся не сразу, а позже.. Не хочется самодеятельностью заниматься, я привык доверять такие вопросы профессионалам. Проблема в том, что по Blogger в рунете профи либо нет, либо я таких не знаю. Еще не видел блога на Blogger с посещаемостью более 1000 чел. в сутки и при этом, чтобы человек помогал другим настраивать блоги. Катя (http://amateurblogger.ru) мне помогала однажды, но ее блог переехал на Wordpress :(. А в blogger-е постоянно что-то случается и нужно корректировать.

    ОтветитьУдалить
  19. Да не аукнется из-за robots ничего. Можно даже без него жить.
    Альтернативный вариант - сходить в Яндекс Вебмастер и добавить вручную новую ссылку с sitemap.

    ОтветитьУдалить
  20. Еще не видел блога на Blogger с посещаемостью более 1000 чел.
    Футбол в России.
    До того, как они спрятали цифры в счётчике, посещаемость была ~ 200тысяч уников в сутки.
    Записки Дебианщика ~5-7 тысяч в сутки.
    Ещё надо? )
    Буржуйский - xiaxue.blogspot.com. У них там и милионники есть, я такой видел про индийское кино.

    ОтветитьУдалить
  21. Впихнул в вэбмастер новый сайтмап . Яша принял , жду результата. Вопрос : гуглу надо скармливать новую , или старая лента сойдет?

    ОтветитьУдалить
  22. Для Гугла старая сойдёт.

    ОтветитьУдалить
  23. В первую очередь - с возвращением, вчера читала вас в кешированной странице.Напишите пожалуйста пост по поводу директив с расширением .htaccess.
    Очень надо :) - пока получается отбиваться с помощью robot.txt, но я понимаю, что это не правильно.Как запретить посещение с определенной сети доступ к сайту?

    ОтветитьУдалить
  24. Марина, .htaccess - это файл конфигурации веб-сервера Apache. Я работаю c web-сервером Nginx, а в Blogger вообще нет ни апача, ни доступа к серверу.
    Вот неплохая статья про .htaccess.

    ОтветитьУдалить
  25. @aldous
    Да...а в блоггере в файле много не напишешь...(
    Спасибо за ответ :)

    ОтветитьУдалить
  26. А как тогда будет реагировать гугл? По умолчанию в роботсе прописан адрес на сайтмап на припаркованный домен. Поскольку на припаркованном домене ничего не открывается, а на старом, с блогспотовским хвостом открывается, то я естественно поправила не только для яндекса, но и для гугла. Как это исправить в гугл вэбмастерс? А то он там не хочет видеть и всё, а регистрировать ещё один сайт со старым доменом в гугл вэбмастерс как-то не хочется.

    ОтветитьУдалить
    Ответы
    1. Вот тут смотрите про Гугл и Яндекс, посвежее информация http://www.blogopoisk.ru/2013/12/sitemap-blogger.html

      Удалить
  27. Спасибо за статью! Добавил карту своего блога http://le2x.blogspot.com/sitemap.xml в Яндекс, буду ждать результата. Скажите а в файле robot.txt обязательно прописывать sitemap.xml ?

    ОтветитьУдалить
    Ответы
    1. Не обязательно, если вручную занесли.
      Но теперь у Яндекса ограничения: sitemap.xml учитывается, только если находится на том же домене, что и блог. Соответствено, на платном домене sitemap не будет читаться Яндексом.

      Удалить
  28. Добрый день.
    Подскажите пожалуйста что у меня не так.
    У меня если добавить sitemap.xml выдает совсем другую информацию.
    http://3dmoliermodels.blogspot.ru/sitemap.xml
    И еще непонятно. Почему в яндексе проиндексированно из 900 страниц только 80.
    Спасибо!

    ОтветитьУдалить
    Ответы
    1. У вас он разбит на 3 части. Добавьте к адресу ?page=1, ?page=2, ?page=3. У вас будет 3 файла sitemap. Например http://3dmoliermodels.blogspot.ru/sitemap.xml?page=1 и так далее.

      Удалить
  29. У меня на блоге припаркован свой домен, в ЯВ скормил файлом sitemap со старого домена, но он находится в обработке уже второй год, счастливую надпись ОК наверное никогда не дождусь.

    В требованиях Яндекса к файлу есть пункт:

    Файл Sitemap должен располагаться на том же домене, что и сайт, для которого он составлен.

    Переворачивал интернет, но внятного лекарства не нашел (

    Пациент http://www.box-boi.ru

    Файлы sitemap: http://box-boi.blogspot.com/sitemap.xml?page=1 и http://box-boi.blogspot.com/sitemap.xml?page=2

    Подскажите что можно сделать ?

    ОтветитьУдалить