При отсутствии контроля за дублями, создаются дополнительные временные затраты при переобходе всех страниц. Дело в том, что у каждого краулера существует определенный лимит запросов к вашему домену. Вполне реальны случаи, когда краулер тратит все лимиты при обходе мусорных страниц, а до страниц с оригинальным контентом так и не добирается.
Дублями очень часто грешат и плагины для CMS, особенно – плагины для WordPress. Когда мы говорим о дублях в технических разделах сайта, то наиболее часто портачит Joomla и всеми любимый Bitrix. Указанные CMS автоматически создают ссылки, включающие специальные параметры. Особенно часто дубли формируются при регистрации, использовании поиска на сайте, фильтровании товаров, кастомизации карточек товаров, сортировке, пагинации.
Для выявления дублированного контента на своих сайтах, я использую несколько инструментов. Вообще искать можно и вручную, но, если страниц много, то этот вариант трудно исполним. Гораздо легче находить дубли при помощи специализированных сервисов, таких как NetPeak Spider. Достаточно ввести домен в поисковой строке и выбрать пункт «Найти». Предварительно, откройте раздел с параметрами и отметьте следующие чекбоксы:
Еще один вариант решения проблемы схожих описаний: использовать селектор, чтобы выбирать различные характеристики товара. CSS-селектор определяет с каким именно элементом соотносится выбранное CSS-правило. Предварительно нужно будет сгруппировать все схожие типы товаров, в рамках единой карточки, например, если мы говорим об интернет-магазине.
Третий вариант: все описания схожих предметов нужно сделать максимально уникальным. Если таких карточек слишком много, то начните с тех, которые приносят наиболее высокие конверсии. Например, уникализируйте описания футболок только красного цвета, а зеленые и розовые оставьте на потом, если их не покупают. В общем, правильно расставляйте приоритеты.
Wordpress, таким образом, заново создает новый URL-адрес при ответе на каждый последующий комментарий на странице. Все это замедляет сайт, а краулеры также не прочь скушать такие URL. Потом такие дубли могут оказаться в SERP. Что делать? Установите Disqus или любой другой сторонний модуль комментариев на свой сайт. Стандартные комментарии в этом случае придется выключить.