Sitemap

S

SlaSoft

Maestro
#1
Здесь я не буду писать зачем он нужен

Здесь я опишу зачем он нужен :) Не пугайтесь. Вы все поймете.

1. Это проверка работоспособности вашего магазина
Если карта сгенерирована - ваш магазин выдержит среднюю нагрузку.
Формирование карты - один из самых тяжелых процессов

2. Это проверка доступности ваших товаров.
Например, вы используете ЧПУ, а в карте вдруг видите product_id

3. Это проверка наличия основных картинок и валидность изображений
Валидность изображения подразумевает целостность данных, и серверные возможности по ресайзингу

Вы можете использовать внешние сервисы для формирования карты, например моя любимая XENU
Даст карту только доступных ссылок
Но чтобы ее создать, вам придется подождать когда XENU запустит свои щупальца, а это также может привести к самоДдосу.. Если вы запустите ее в 20 потоков.
Но зато проверите ваш магазин на стресоустойвость. А еще также получите ресайзинг картинок, во всех доступных разрешениях
Тоже самое относится ко всем другим анализаторам, например Screaming Frog SEO Spider

Но пока речь идет о собственной карте

Надо ли размещать ссылку в robots.txt

Считаю, что не надо
Размещайте ссылку в вебмастерах
а в robots.txt только в том случае если вас там нет (в вебмастере Г или Я)
Поверьте ПС сами и без карты все найдут. НО!!!! Это также и проверка доступности ваших страниц (повторился, но если вы не раз там были, то видели что регулярно появляются ошибки, связанные, или с каноической или 404, или редиректом, или ... )
Карта сайта - сигнал для ПС к индексации/переидексации

Кроме того из спецификации robots.txt
Код:
urlnongroupfield = "sitemap"
sitemap может быть указан только один


Теперь не много о параметрах (тегах)

lasmod, - вроде понятно, Дата последнего изменения.. Не поверите но Г игнорит, и тому есть причина - черное сео

priority Якобы приоритет сканирования, не замечал - остается только верить.
Ну.. если у меня 100500 ссылок то о каком priority может быть речь? Хорошо было бы чтобы ПС справилась с таким объемом
Ладно.. не 100500 - меньше, при 1 сек на страницу - включайте калькулятор. И тут появляется на свет "краулинговый бюджет". Боюсь что скоро ПС начнут с вебмастеров брать деньги за "бюджет"

changefreq - как по мне очень непонятный параметр - я процитирую
Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать точно частоте сканирования этой страницы. Допустимые значения:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never
Значение"всегда" должно использоваться для описания документов, которые изменяются при каждом доступе к этим документам. Значение "никогда" должно использоваться для описания архивных URL-адресов.

Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой "ежечасно" менее часто, чем указано, а страницы с пометкой "ежегодно" – более часто, чем указано. Сканеры могут периодически сканировать страницы с пометкой "никогда", чтобы отслеживать неожиданные изменения на этих страницах.
Если вы указали дату последнего изменения годовалой давности и changefreq="hourly" - что должна подумать о вас ПС?

Как рекомендация - не используйте все эти параметры, если не понимаете (не поняли) зачем это нужно.
 
#2
Отличная статья @SlaSoft, все верно сказано, касательно последних параметров, то могу от себя добавить, среднестатистические настройки, которые настраиваем при генерации у заказчика:
Приоритность <priority> по типам страниц на opencart:
1 - для страниц товаров
0.7 - для страниц категорий
0.5 - для общих страниц и инфо страниц

Частотность <changefreq> по типам страниц на опенкарт:
Always - для главной и для страниц категорий
Daily - для товаров и других обновляемых разделах на сайте, в том числе статей
Weekly - для необновляемых или редко обновляемых страниц

При этом, в карте сайта должны быть только страницы с статусом 200.

Страницы с ниже перечисленными условиями не должны генерироваться в карте:
  • Наличие правила запрещающего к индексации в robots.txt
  • Наличие тега <META NAME="ROBOTS" CONTENT="NOINDEX">
  • Страницы со статусом 4xx, 3xx
Рекомендации по тегам в карте сайта для сайтов работающих на brocart:
  1. У всех URL обязательно должен присутствовать тег <lastmod>, с указанием последней даты редактирования документа.
  2. Теги <urlset>, <url>, <loc> являются обязательными для карты сайта
  3. В теге <changefreq> указывать параметр Always для главной, для страниц категорий. Указывать параметр Daily для страниц производителей, фильтров и товаров и других обновляемых разделах на сайте, в том числе информационных. Указывать параметр Weekly для не обновляемых или редко обновляемых страниц и разделов на сайте.
  4. Файл Sitemap может содержать не более 50 000 URL, а его размер в несжатом виде не должен превышать 50 МБ. Если размер файла Sitemap превышает допустимый, нужно разбить его на несколько частей.
  5. При указании URL нужно использовать одинаковый синтаксис. Например, если адрес сайта указан как https://brocart.net/, в списке не должно быть URL, которые начинаются с https://www.brocart.net/
  6. Не следует включать в URL идентификаторы сеансов.
  7. Файл Sitemap должен определять следующее пространство имен XML: xmlns="http://www.sitemaps.org/schemas/sitemap/0.9".
  8. URL в файле Sitemap должны быть указаны в кодировке UTF-8, и его кодировка должна быть понятна веб-серверу, на котором размещен этот файл.
  9. Sitemap может описывать только страницы того домена, на котором он расположен. Страницы поддоменов или других доменов описывать нельзя.
  10. При обращении к файлу сервер должен возвращать код ответа 200.
  11. Перед загрузкой файла на сайт рекомендуется проверить его корректность с помощью валидатора файлов Sitemap. ( http://webmaster.yandex.ru/sitemaptest.xml)
  12. Карта сайта должна автоматически обновляться при добавлении или удалении страниц со страницы.
 
OP
S

SlaSoft

Maestro
Thread Starter #3
По большому счету нужен чеккер карты для
Страницы с ниже перечисленными условиями не должны генерироваться в карте:
  • Наличие правила запрещающего к индексации в robots.txt
  • Наличие тега <META NAME="ROBOTS" CONTENT="NOINDEX">
  • Страницы со статусом 4xx, 3xx
Если 404, та как бы движок не дает формировать, хотя бывают случаи

3хх - maybe, may be
Но здесь нужно знать структуру, возможно, что страница существует, но в силу всяких условностей, она доступна, например, после регистрации

robots и мета роботс
модели о них не знают

Т.е. они как бы есть, но вот модель не отдает..

И вот еще..

Если не хотите облегчать жизнь граберам, парсерам, не отдавайте карту по стандартному имени, или закрывайте каким нибудь секртеным праметром
 
#4
касательно 404 - то в бОльшой части, которые встречал карты, полюбому имели "битые ссылки" - а они же и есть 404, сюда же относим и битые рисунки - тоже 404 отдают.
Касательно 3хх - то в практике - не подавать в меню карты такие, лучше уж там отобразить ссылки отредирекченные, тоесть те, которые 200 отдадут.
 
OP
S

SlaSoft

Maestro
Thread Starter #5
про 404 в следующий раз... в другой теме
там же, возможно и про 301.. Как пойдет

Почему я про карту.. Имею свою карту, достатоно интеерсную, с возможностью генерацимм мультиязыковых ссылок
Но на данный момент как раз столкнулся с ситуацией

Есть в базе товар, но к нему не привязано описание
Т.е. по сути товара-то нет!!!
Но, за счет оптимизации - таблица product_description не подкючается, что дает не слабый эффект в производительности
А ссылка генерится

Т.е. с одной стороны как я писал проверка магазина на вшивость, с другой - вовремя обнаруженная проблема - не проблема.

Ситуация №2
Тот же магазин
Есть товар, привязан к категории, а категория отключена

Как себя должна вести карта сайта?
Должен ли быть в ней товар? Как по мне - нет. Но товар то в базе помечен как существующий

Ну.. я как бы конечно представляю как нужно генреить в таком случае карту, но то что эта карта выливается во времеННые затраты 100%
 
#6
Есть товар, привязан к категории, а категория отключена
очень интересное моделирование, по факту - не встречал, но место имеет быть, надо поразмыслить как лучше, по факту то товар - 200, категория - 404, тут бы я доп. проверку в модели на статус категории, при листинге товара в карту, это как вариант, но мысль довольно интересная, я так же карту писал со своим URL отдельным генератором, но предусмотреть все ньюансы - фактически невозможно, практически же - надо понимать все переменные, с которыми конфигурируем шоп.
 
Зверху