Наш подход к управлению индексацией страниц сайта, выраженный в совокупности разных настроек, являются результатом внедрения известных нам рекомендаций поисковых систем и сео-специалистов, а так же результатом практических наблюдений за индексацией запущенных сайтов. Мы продолжаем принимать и внедрять новые аргументированные рекомендации.
Для управления индексацией сайта и борьбы с дублями контента мы используем комбинацию нескольких инструментов:
Запрет индексации в файле robots.txt – используется, чтобы снизить нагрузку на сервер, которая возникает при индексации большого количества страниц фильтрации.
Запрет индексации с помощью тега robots для того, чтобы гарантировано исключить индексацию ненужных страниц и попадание их во второстепенный индекс.
Указание канонических страниц (rel canonical) для того, чтобы связать одинаковые страницы в одну, для тех страниц, которые все-таки необходимо индексировать.
Далее детально опишем настройки индексации каждого типа страниц.
Страницы категорий
Страницы категорий являются основными посадочными страницами для продвижения, поэтому они всегда по умолчанию открыты для индексации. Для частных случаев предусмотрена возможность их закрытия для индексации.
Как это реализовывается:
Страницы категорий не закрыты для индексации в robots.txt
По умолчанию на страницах категорий отсутствует тег robots и таким образом, они открыты для индексации
При необходимости, можно управлять содержанием тега robots для каждой страницы категории. В свойствах страницы есть возможность включить значения nofollow и/или noindex. При включении этих значений, они так же будут проставлены для всех товаров, для которых данная категория является родительской. Но эта настройка не повлияет на дочерние категории и их товары.
Ссылки на эти страницы присутствуют в файле sitemap.xml (если для страницы не включена настройка "не показывать в карте сайта")
Страницы фильтров
Все страницы фильтров по умолчанию закрыты для индексации. Так как комбинаций фильтров очень большое количество и содержание страниц выводится динамически, то даже обращения к этим страницам от нескольких поисковых систем одновременно может создать заметную нагрузку на сервер.
Закрытие реализовано следующим образом:
В robots.txt закрыты от индексации все комбинации фильтров в которых пресутсвуют более трех фильтров одновременно
На всех страницах фильтров по умолчанию присутствует теги robots со значениями noindex, follow и canonical со ссылкой на страницу категории без фильтра
Индексируемые фильтры
Так же есть возможность открыть некоторые фильтры или их комбинации (до двух фильтров одновременно) для индексации с помощью функции Индексируемые фильтры.
При настройке индексируемых фильтров есть возможность указать категорию, для которой они будут открыты (можно указать для корня каталога), и выбрать 1 или 2 свойства фильтры, по которым будут открыты для индексации. Если указано два свойства, то открыты будут страницы с фильтрами по каждому из этих свойств по отдельности и по комбинации этих двух свойств. Но фильтры по двум значениям для одного свойства всегда закрыты для индексации.
Для открытия индексации страниц устанавливаются такие настройки:
Они изначально не закрыты от индексации в robots.txt
На этих страницах присутствует тег robots со значениями index, follow и canonical со ссылкой на страницу индексируемого фильтра
Страницы сортировки, отображения товаров
Страницы сортировки (содержат в урле filter/sort_) и разного формата отображения товаров (содержат в урле view_type=) являются однозначными дублями, поэтому они по умолчанию закрыты для индексации всеми возможными средствами без возможности открыть их для индексации.
Страницы сортировки/отображения закрыты в robots.txt
По умолчанию на этих страницах установлен тег <meta name="robots" content="noindex, follow"> который запрещает индексацию, но разрешает дальнейшее следование по ссылкам.
На этих страницах установлен тег canonical который ведет на аналогичную страницу без указания сортировки или формата отображения
Эти страницы не входят в sitemap.xml
Страницы пагинации
Страницы пагинации содержат уникальный контент (разные товары) поэтому все должны быть проиндексированы.
Страницы пагинации не закрыты для индексации в robots.txt ни с помощью тега robots.
Для того, чтобы объединить все страницы в одну, согласно рекомендаций Google, мы используем теги <rel="next"> и <rel="prev">
Для всех страниц пагинации Не используем тег canonical со ссылкой на первую страницу пагинации
Для всех страниц пагинации установлен тег canonical со ссылкой на собственную страницу пагинации
Только для страницы page=all установлен тег canonical со ссылкой на первую страницу пагинации, так как на ней отсутствуют теги <rel="next"> и <rel="prev">
Страницы пагинации не входят в sitemap.xml
Так же доступны две альтернативных настройки для страниц пагинации, которые противоречат требованиям google, но встречаются в рекомендациях некоторых seо-компаний. Эти опции выключены по умолчанию. Но могут быть включены в админ панели сайта в Seo - Дополнительные SEO настройки.
Установить тег canonical со ссылкой на первую страницу пагинации
На всех страницах пагинации кроме первой установить тег robots со значениями noindex, follow
Страницы брендов
Страницы брендов индексируются по логике аналогичной индексации страниц категорий:
Корневые урлы страниц брендов не закрыты в robots.txt
Страницы фильтров более двух уровней, сортировки и смены отображения закрыты от индексации в robots.txt
Страницы сортировки и смены отображения закрыты с помощью тега robots со значениями noindex, follow
Страницы пагинации открыты для индексации по той же логике, что и страницы пагинации в категориях
Модификации товаров
Каждая модификация товара имеет собственный url.
При этом на всех этих страницах присутствует ссылка на каноническую страницу основной модификации.
Страницы товаров не закрыты для индексации в robots.txt
Могут быть закрыты для индексации с помощью тега robots, при условии если закрыта их родительская категория.
Пресеты фильтров
Страницы с пресетами фильтров создаются специально для продвижения и поэтому они по умолчанию открыты для индексации, без возможности закрыть их индексацию.
В robots.txt отсутствует запрет на индексацию пресетов-фильтров
На страницах пресетов отсутствует теги robots
На страницах пресетов установлен тег canonical, который ведет на аналогичную страницу пресета
Ссылки на страницы пресетов находятся в фильтрах и в файле sitemap.xml
Личный кабинет, заказ
Страницы оформления заказа и личного кабинета закрыты для индексации в robots.txt и с помощью тега robots со значениями noindex, follow.
Текстовые страницы, новостные страницы
Не закрыты для индексации в robots.txt
По умолчанию на них не располагается тег robots
В свойствах каждой страницы настраивается значения тега robots, что позволяет точечно выключать страницы из индексации
Страницы со значением noindex не включаются в sitemap.xml
Сравнение товаров
Отображение таблицы сравнения товаров осуществляется на страницах каталога, без генерации отдельных страниц с выделенными урлами. Поэтому страницы сравнения товаров отсутствуют как таковые и не индексируются.
Языковые версии
По умолчанию открыты для индексации все языковые версии, открытые для пользователей. При необходимости можно закрыть отдельно каждую языковую версию для индексации.
Языковые версии не закрыты для индексации в robots.txt
Ссылки на альтернативные переводы находятся в блоке head каждой страницы и в sitemap.xml
У языковых версий присутствует свойство "Закрыть для индексации". Если оно включено, то вступают в силу такие настройки:
Для всех страниц этой языковой версии устанавливается тег robots со значениями noindex, nofollow
Ссылки в блоке head и в sitemap.xml не размещаются
В шапке ссылка на закрытую от индексации языковую версию помечается атрибутом rel=nofollow
Результаты поиска
На всех страницах с результатами поиска по умолчанию установлен тег robots со значениями noindex, follow.