Дублированный контент: выявление и методы устранения. Скрытые страницы в стадии разработки

Многие владельцы сайтов уделяют внимание главным образом тому, чтобы контент был уникален по сравнению с другими ресурсами. Однако не стоит упускать из виду наличие дублированного контента в пределах одного сайта. Это тоже оказывает сильное влияние на ранжирование.

Что такое дублированный контент

Повторяющийся, или дублированный, контент – это совпадающие в рамках сайта объемные блоки текста на разных страницах. Не обязательно такое делается со злым умыслом – чаще возникает по техническим причинам, подробно разобранные ниже.

Опасность состоит в том, что часто дублированный контент невозможно увидеть невооруженным глазом, однако поисковик его прекрасно видит и реагирует соответствующим образом.

Откуда берется дублированный контент и где он чаще встречается

Основные причины возникновения такого явления:

  • Изменение структуры сайта;
  • Намеренное использование в конкретных целях (скажем, версии для печати);
  • Ошибочные действия программистов и веб-мастеров;
  • Неувязки с CMS.

Например, часто встречается ситуация: replytocom (ответ на комментарий) в WordPress автоматически формирует и новые страницы с разными URL-адресами, но не содержимым.

Обычно дублированный контент замечается при создании анонсов статьи на других страницах сайта, размещении отзывов, а также при одинаковых описаниях товаров, категорий, рубрик.

Почему дублированный контент – это плохо

У повторяющегося содержимого есть аналог из области экономики – банковский овердрафт. Только здесь расходуется так называемый краулинговый бюджет. Это число страниц ресурса, которое за конкретный промежуток времени сможет просканировать поисковая машина. Ресурс очень ценный, и лучше потратить его на действительно важные и актуальные страницы, чем на десятки дублей идентичного текста.

Таким образом, дублированный контент ухудшает поисковое продвижение. Кроме того, теряются естественные ссылки и неверно распределяется ссылочный вес внутри сайта. А также подменяются по-настоящему релевантные страницы.

Как найти дублированный контент на сайте (вручную, программы и сервисы)

Существуют специальные программы для анализа ресурсов. Из них пользователи особенно выделяют Netpeak Spider. Она ищет полные копии страниц, совпадения по тайтлу или дескрипшену, заголовкам. Другой вариант — Screaming Frog, которая обладает схожим функционалом и по сути отличается только интерфейсом. Еще есть приложение Xenu`s Link Sleuth, работающее схожим с поисковиком образом и способное довольно качественно прочесать сайт на наличие дубликатов.

К сожалению, нет инструментов, способных полноценно отслеживать все дубли текста. Поэтому, скорее всего, придется производить ручную проверку. Вот список возможных факторов, повлекших за собой проблему:


Разобрались, как найти дублированный контент. А лучшие помощники в борьбе с ним – это переадресация 301, теги Canonical URL, указания в robots.txt и параметры Nofollow и Noindex в составе мета-тега «robots».

Одним из способов на скорую руку проверить, если ли на сайте дублированный контент, является расширенный поиск в Яндексе или Гугле. Необходимо ввести адрес сайта и кусок текста со страницы, которую решили проверить. Также можно использовать многочисленные программы для проверки уникальности текста:

  • Text.Ru;
  • eTXT Антиплагиат;
  • Advego Plagiatus;
  • Content-Watch.

Как бороться и чистить дублированный контент

Всё та же справочная система Гугл дает ряд советов по предотвращению появления данной проблемы.

  • 301. При структурных изменениях ресурса необходимо указывать редирект 301 в файле htaccess.
  • Используйте единый стандарт ссылок.
  • Контент для конкретного региона лучше размещать на доменах верхнего уровня, чем на поддоменах или в поддиректориях.
  • Устанавливайте предпочтительный способ индексирования с помощью Search Console.
  • Не используйте шаблоны. Вместо того, чтобы на каждой странице размещать текст о защите авторского права, лучше сделать ссылку, которая будет вести на отдельную страницу с этим текстом.
  • Разрабатывая новые страницы, следите, чтобы до полной готовности они были закрыты от индексации.
  • Разберитесь, как именно отображается ваш контент – могут быть отличия отображения в блогах и форумах.
  • Если на сайте много схожих статей, лучше или объединить их содержимое в одно целое, или уникализировать каждую.

Поисковиками не предусмотрено никаких санкций по отношению к сайтам, имеющим дублированный контент по техническим причинам (в отличие от тех, кто делает это намеренно с целью манипулировать результатами поиска или вводить в заблуждение посетителей).

После того, как дубли удалены, осталось убрать их из поисковой выдачи. Яндекс делает это самостоятельно, при условии, что файл robots.txt настроен должным образом. Что касается Google: там придется вручную прописать правила в Вебмастере, на вкладке «Параметры URL».

Заключение

Борьба с дублированным контентом на сайте – важный аспект деятельности владельца любого сайта. Причин его возникновения довольно много, и столь же много способов устранения.

Однако главным правилом остается: размещать исключительно оригинальный контент, независимо от типа сайта. Даже если это крупный сетевой магазин с тысячами страниц.

ПОЛУЧАЙТЕ АНОНСЫ ПОДОБНЫХ ПОСТОВ СЕБЕ НА ПОЧТУ

Подпишитесь и получайте не чаще, чем раз в неделю что-нибудь интересное из мира интернет-маркетинга, SEO, продвижения сайтов, интернет-магазинов, заработка на сайтах.

1. Введение в проблему

В настоящее время все острее и острее встает проблема дублирования информации в интернете. Чаще всего такое дублирование совершается умышленно, с нарушением авторских прав. Злоумышленники используют авторский контент для наполнения собственных сайтов, чтобы извлекать для себя выгоду.

Такое дублирование информации ухудшает выдачу поисковых систем, вследствие чего последние активно борются с этим явлением. Действительно, если пользователь получает по запросу 10 одинаковых документов («одинаковость» определяется пользователем по ), это вряд ли добавляет популярности поисковику. Несколько лет назад такая ситуация наблюдалась в Рамблере, вследствие чего поисковик растерял часть своего рейтинга. Однако сейчас Rambler отфильтровывает и скрывает дубликаты.

Также нужно отметить, что дублирование контента засоряет индекс поисковика, ему становится труднее выдавать быстрые ответы пользователю. При этом все документы нужно регулярно индексировать, а появление новых документов с неоригинальным контентом явно вредит скорости индексации.

2. Теория по определению «нечетких дубликатов»

a. Что такое «нечеткий дубль»

Для начала нужно определиться с терминологией. Единого мнения по этому поводу в еще нет, и поэтому данная терминология отталкивается просто от здравого смысла.

Дубль (дубликат) web-документа – точная копия web-документа. «Нечеткий дубликат» web-документа – web-документ, частично измененный в содержательной части и/или в части форматирования (использование других тегов html для оформления страницы).

Мы будем трактовать «дубликат web-документа» только с точки зрения поисковой системы, а не пользователя. Поэтому мы не будем рассматривать такое явление как «копирайтинг», т.е. переписывание текста специально для поисковых систем с использованием других слов, но с сохранением общего смысла. Такой текст для поисковика будет всегда оригинальным, т.к. смысл текста компьютеры пока различать не могут.

Существует несколько основных методов определения дубликатов.

b. Метод «описательных слов»

Данный метод работает по следующему принципу.

Сначала формируется небольшая (ок. 2000-3000 слов) выборка. Выборка должна удовлетворять следующим условиям:

С ее помощью можно достаточно полно описать практически любой документ в сети
- описание документа не должно быть при этом избыточным

Таким образом, для формирования выборки нужно отбросить слова, которые наиболее и наименее употребительны, т.е. не учитывать стоп-слова и различные узко тематические термины. Также в выборку не попадают прилагательные, так как они не несут в русском языке смысловой нагрузки.

Далее каждый документ сопоставляется с выборкой и рассчитывается вектор, размерность которого равна количеству слов в выборке. Компоненты вектора могут принимать два значения – 0 или 1. 0 – если слова из выборки нет в документе, 1 – если слово встречается в документе. Далее документы проверяются на дублирование путем сопоставления их векторов.

По такому алгоритму Яндекс определяет нечеткие дубликаты.

c. Метод шинглов

Метод шинглов заключается в следующем. Для всех подцепочек анализируемого текста рассчитывается «контрольная сумма». Контрольная сумма (или "сигнатура") - это уникальное число, поставленное в соответствие некоторому тексту и/или функция его вычисления. Функция вычисления контрольных сумм может преследовать несколько целей: например "невзламываемость" (минимизируется вероятность того, что по значению контрольной суммы можно подобрать исходный текст) или "неповторяемость" (минимизируется вероятность того, что два разных текста могут иметь одну контрольную сумму) - Электронный журнал "Спамтест" No. 27.

Обычно используются следующие алгоритмы вычисления контрольных сумм: fnv, md5, crc. После вычисления контрольных сумм строится случайная выборка из полученного набора. По этой выборке документ можно сличать с другими документами, для которых также предварительно рассчитана выборка.

Данный метод расчета является достаточно ресурсоемким и его можно обойти, незначительно изменив текст, так как, прежде всего, шинглы зависят от расстояния между словами.

Сейчас метод шинглов эволюционировал до алгоритма «супершинглов», при котором стоится ограниченный набор контрольных сумм. Эксперименты на РОМИП привели к следующим результатам – 84 шингла, 6 супершинглов над 14 шинглами каждый. Тексты считаются совпавшими при совпадении хотя бы двух супершинглов из 6.

Официальными лицами неоднократно заявлялось, что Яндекс не рецензент и не будет бороться с проблемой воровства контента в сети .

Вот официальный ответ А. Садовского:

... поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml

Теперь рассмотрим, а что есть для Яндекса «дубликат документа»? Автор предлагает следующую трактовку. (Если ниже приведенный текст показался вам знакомым, то не думайте плохого, автор не так давно пытался активно обсуждать данную проблему на форумах)))

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. определяются фактически запросом пользователя. Происходит это следующим образом.

1. Пользователь задает запрос.
2. Яндекс вычисляет релевантность сайтов запросу и ранжирует сайты, но пока еще не показывает пользователю.
3. Далее Яндекс сравнивает сниппеты отобранных документов на предмет определения дубликатов (возможно, сниппеты сравниваются методом шинглов).
4. И наконец, выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно; возможно, выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы; возможно, играет роль только ссылочное окружение сайтов).

Существование фильтр такого типа косвенно доказывают слова Садовского (пост №9) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная.

При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуем запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» (запрос задается без кавычек!) - в первом случае (отображать 1 фрагмент в сниппете) в выдаче 21 сайт, во втором (5 фрагментов) – 27 сайтов.

Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете. Например, во втором случае у второго сайта сниппет отличается от сниппетов первого и третьего сайта.

Теперь разберемся с «полными дубликатами». Автор считает, что такие дубликаты определяются в момент индексации страницы. Это удобно, так как сразу позволяет отсечь мусор и не добавлять в базу данных поисковика дублированную информацию.

Метод определения дубликатов - «метод описательных слов» (о котором говорилось выше).

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, скорее всего, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и проч.

Как Яндекс определяет первоисточник в случае обнаружения «нечетких дублей» и определяет ли его? Давайте попробуем разобраться…

Сначала выделим факторы, которые могут указывать на первоисточник контента…

Дата создания документа
- релевантность документа запросу
- «доверие к ресурсу» (например, больше всего можно доверять ресурсам, имеющим хорошую позицию в Каталоге Яндекса, и высокую посещаемость)
- перелинковка между дубликатами (например, если все дубликаты ссылаются на один и тот же документ – он и есть первоисточник)

Попробуем осуществить небольшой эксперимент. Возьмем страницу href=http:// zoom.cnews.ru/ru/publication/index.php?art_id80=1523 и фразу "По дизайну Lumix FZ50 похожа на свою 8-мегапиксельную предшественницу FZ30". Явно это оригинал. Теперь посмотрим, кто еще использует текст статьи: зададим запрос с использованием параметра rd=0. Без rd в выдаче только сайт №1 и №5.

Характеристики сайтов следующие (заметим, что ссылаются только на первую страницу, у остальных бэклинков нет):

Станица тИЦ Рубрика каталога PR PR стр-цы
zoom.cnews.ru/ru/publication/index.php?art_id80=1523 3800 Да 6 4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50 170 Да 5 0
www.apitcomp.ru/analytic/genre3/page637 700 Да 4 0
www.toplist.ru/card/35859 110 Нет 3 0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316 0 Нет 1 0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323 0 Нет 0 0
www.media.nrd.ru/index.php?showtopic=3323&st=100 40 Нет 0 0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523 0 Нет 0 0

Заметим, что сниппеты у всех сайтов одинаковые.

На первый взгляд совершенно неясно, почему Яндекс отфильтровал все сайты кроме пятого. Сайт явно не является авторитетным в глазах Яндекса. Логичнее было бы оставить в выдаче страницу с сайта www.apitcomp.ru – сайт является более авторитетным или оставить страницы с форумов (позиция 6 и 7).

Аналогично проверим для страницы http://www.3dnews.ru/digital/lumix_fz50/ и фразы "В наше время, когда покупателей, жаждущих хороших характеристик". Жирным выделены сайты, которые показываются без rd=0, красным – первоисточник, который, кстати, фильтруется!

Страница тИЦ YACA LS LP PR Page PR
saturn-plus.ru/ 70 Да 54 20349 3 3
saturn.24online.ru/ 0 Нет 1 1 0 0
www.3dnews.ru/digital/lumix_fz50/print 11000 Да 0 0 6 2
fotomag.com.ua/handbook14.html 400 Да 0 0 4 0
Deshevshe.net.ua/ua/review-73/4.html 80 Нет 0 0 4 0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9 1400 Да 0 0 4 1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html 0 Нет 0 0 0 0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&… 4300 Да 0 0 6 0
www.velc.ru/podderjka/stati/lumix_fz50/ 120 Да 0 0 3 0
Ephotolink.tkat.ru/?mod=articles&id_article=21007 10 Нет 0 0 3 0
www.ru-coding.com/rss.php?p=501 130 Да 0 0 3 0
www.toprunet.com/article.php?id=6388 200 Нет 0 0 3 0
www.dphotographer.com.ua/camera/from/2/ 90 Нет 0 0 4 0
www.asmedia.ru/news/id8242.html 400 Нет 0 0 3 0
www.mega-bit.ru/obzor/read/?id=70 40 Нет 0 0 3 0
www.audiovideophoto.ru/panasonic1.html 0 Нет 0 0 0 0
www.foto-piter.ru/news/2006/12/01/127/ 10 Нет 0 0 2 0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html 20 Нет 0 0 1 0
www.novoe.nnov.ru/articles/?parent_id=33 0 Нет 0 0 0 0
iwy.com.ua/top.php?p=326 0 Нет 0 0 0 0
www.5-uglov.ru/articles_view.php?id_news=1222 90 Да 0 0 3 0
www.techhome.ru/catalog/photo/article_17112.html 950 Да 0 0 5 3
www.panasonic-spb.ru/articles_view.php?id_news=1222 0 Нет 0 0 1 0
new-articles.ru/page_215.html 40 Нет 0 0 3 0
www.ekvator-hifi.ru/articles_view.php?id_news=1222 10 Нет 0 0 1 0
shop.key.ru/shop/goods/36608/ 230 Нет 3 18 4 0
www.pc-shop.kz/index.php?g_id=1711 Нет 0 0 3 0
Portalink.ru/portal/ecamera/infoat_15269.htm 110 Нет 0 0 3 3
www.rusdoc.ru/articles/13085/ 1100 Да 3 13 5 1
www.docs.com.ru/articles.php?p=509 220 Нет 0 0 4 0
e-libed.ru/a31/ 0 Нет 1 17 0 0
dvdlink.ru/portal/Ecamera/infoat_15269.htm 140 Нет 0 0 3 0
www.articlesearch.ru/a3b856d85.html 0 Нет 0 0 0 0
www.bestarticles.ru/a31/ 0 Нет 1 5 2 0
www.temu.ru/a31/ 0 Нет 0 0 2 0

LP – ссылающихся страниц, LS – ссылающихся сайтов, Page PR – PR страницы, PR – PR главной страницы сайта.

Аналогичная картина – критерии фильтрации совершено неясны. Однако, если посмотреть на сниппеты, то мы увидим, что у страниц на сайтах uaport.net, www.megastoke.ru , portalink.ru сниппеты несколько отличаются от сниппетов других сайтов и поэтому первый и третий сайт не фильтруется.

Что сказать в итоге? Прежде всего, конечно нужно еще много экспериментировать и анализировать, однако уже видно, что решение о фильтрации «нечетких дубликатов» основывается на анализе многих факторов, главным из которых является оригинальность сниппета.

4. Google и дублирование контента

Google стремится выдавать на запросы пользователя сайты только со свежим и уникальным контентом.

Google считает, что пользователи не хотят видеть дубликаты в результатах поиска, поэтому такие документы скрываются в suggestion results. Если пользователь все же захочет увидеть дубликаты (например, это веб-мастер, который хочет выяснить, кто ворует контент с его сайта), то он должен добавить параметр «&filter=0» в конец URL.

Google считает, что идентификация автора контента поможет улучшить поиск. Однако отмечает, что такие способы определения первоисточника как фиксация даты создания документа или регистрация контента авторами в специальных сервисах не эффективны. Пока Google ориентируется по большей части на авторитетность ресурса и количество входящих ссылок. Поэтому вполне возможна ситуация, когда какой-нибудь известный ресурс позаимствовал статью, например, у специализированного ресурса, далее большинство узнало о статье из известного ресурса и поставило на него ссылки; в итоге Google определит известный сайт как первоисточник…

В случае дублирования контента на одном сайте (например, страница-оригинал и страница для печати) Google предлагает веб-мастерам активно использовать robots.txt. Также предлагается отказаться от использования идентификаторов сессий, так как это тоже может привести к дублированию контента. Т.е. поисковик может проиндексировать одну и ту же страницу, но с разным url, отличающимся значением параметра sessid.

5. Над чем можно поэкспериментировать и как это лучше сделать

Итак, мы выяснили основные моменты по проблеме дублирования контента. Принципы работы фильтра (в частности Яндекса) достаточно просты, однако определить в точности, как учитываются различные факторы достаточно сложно.

Итого, что нужно проверить экспериментальным путем:

Как дубликаты фильтруются в момент выдачи? По какому принципу?
- Метод «описательных слов» - как формируется выборка слов и как сравниваются вектора?
- По какому принципу выкидываются «полные дубликаты»?

Можно предложить следующий вариант:

Создаем один сайт с оригинальным контентом. Немного спамим его, чтобы он проиндексировался. Создаем далее некоторое количество клонов (дубликатов). Клоны можно сделать различным образом: перемешать слова первоисточника, сделать рерайтинг, взять отдельные абзацы. Клоны можно разместить как на отдельных сайтах (на нормальных и обычных хостингах) так и на внутренних страницах сайтов. Можно частично проспамить клоны. Потом оцениваем результат умозрительно и делаем выводы.
- Определить принципы, по которым фильтруются «нечеткие дубликаты» можно по методике, описанной выше, т.е. просто путем анализа отфильтрованных сайтов.

6. Дополнительная литература

Многие владельцы сайтов уделяют внимание главным образом тому, чтобы контент был уникален по сравнению с другими ресурсами. Однако не стоит упускать из виду наличие дублированного контента в пределах одного сайта. Это тоже оказывает сильное влияние на ранжирование.

Что такое дублированный контент

Повторяющийся, или дублированный, контент – это совпадающие в рамках сайта объемные блоки текста на разных страницах. Не обязательно такое делается со злым умыслом – чаще возникает по техническим причинам, подробно разобранные ниже.

Опасность состоит в том, что часто дублированный контент невозможно увидеть невооруженным глазом, однако поисковик его прекрасно видит и реагирует соответствующим образом.

Откуда берется дублированный контент и где он чаще встречается

Основные причины возникновения такого явления:

  • Изменение структуры сайта;
  • Намеренное использование в конкретных целях (скажем, версии для печати);
  • Ошибочные действия программистов и веб-мастеров;
  • Неувязки с CMS.

Например, часто встречается ситуация: replytocom (ответ на комментарий) в WordPress автоматически формирует и новые страницы с разными URL-адресами, но не содержимым.

Обычно дублированный контент замечается при создании анонсов статьи на других страницах сайта, размещении отзывов, а также при одинаковых описаниях товаров, категорий, рубрик.

Почему дублированный контент – это плохо

У повторяющегося содержимого есть аналог из области экономики – банковский овердрафт. Только здесь расходуется так называемый краулинговый бюджет. Это число страниц ресурса, которое за конкретный промежуток времени сможет просканировать поисковая машина. Ресурс очень ценный, и лучше потратить его на действительно важные и актуальные страницы, чем на десятки дублей идентичного текста.

Таким образом, дублированный контент ухудшает поисковое продвижение. Кроме того, теряются естественные ссылки и неверно распределяется ссылочный вес внутри сайта. А также подменяются по-настоящему релевантные страницы.

Как найти дублированный контент на сайте (вручную, программы и сервисы)

Существуют специальные программы для анализа ресурсов. Из них пользователи особенно выделяют Netpeak Spider. Она ищет полные копии страниц, совпадения по тайтлу или дескрипшену, заголовкам. Другой вариант — Screaming Frog, которая обладает схожим функционалом и по сути отличается только интерфейсом. Еще есть приложение Xenu`s Link Sleuth, работающее схожим с поисковиком образом и способное довольно качественно прочесать сайт на наличие дубликатов.

К сожалению, нет инструментов, способных полноценно отслеживать все дубли текста. Поэтому, скорее всего, придется производить ручную проверку. Вот список возможных факторов, повлекших за собой проблему:


Разобрались, как найти дублированный контент. А лучшие помощники в борьбе с ним – это переадресация 301, теги Canonical URL, указания в robots.txt и параметры Nofollow и Noindex в составе мета-тега «robots».

Одним из способов на скорую руку проверить, если ли на сайте дублированный контент, является расширенный поиск в Яндексе или Гугле. Необходимо ввести адрес сайта и кусок текста со страницы, которую решили проверить. Также можно использовать многочисленные программы для проверки уникальности текста:

  • Text.Ru;
  • eTXT Антиплагиат;
  • Advego Plagiatus;
  • Content-Watch.

Как бороться и чистить дублированный контент

Всё та же справочная система Гугл дает ряд советов по предотвращению появления данной проблемы.

  • 301. При структурных изменениях ресурса необходимо указывать редирект 301 в файле htaccess.
  • Используйте единый стандарт ссылок.
  • Контент для конкретного региона лучше размещать на доменах верхнего уровня, чем на поддоменах или в поддиректориях.
  • Устанавливайте предпочтительный способ индексирования с помощью Search Console.
  • Не используйте шаблоны. Вместо того, чтобы на каждой странице размещать текст о защите авторского права, лучше сделать ссылку, которая будет вести на отдельную страницу с этим текстом.
  • Разрабатывая новые страницы, следите, чтобы до полной готовности они были закрыты от индексации.
  • Разберитесь, как именно отображается ваш контент – могут быть отличия отображения в блогах и форумах.
  • Если на сайте много схожих статей, лучше или объединить их содержимое в одно целое, или уникализировать каждую.

Поисковиками не предусмотрено никаких санкций по отношению к сайтам, имеющим дублированный контент по техническим причинам (в отличие от тех, кто делает это намеренно с целью манипулировать результатами поиска или вводить в заблуждение посетителей).

После того, как дубли удалены, осталось убрать их из поисковой выдачи. Яндекс делает это самостоятельно, при условии, что файл robots.txt настроен должным образом. Что касается Google: там придется вручную прописать правила в Вебмастере, на вкладке «Параметры URL».

Заключение

Борьба с дублированным контентом на сайте – важный аспект деятельности владельца любого сайта. Причин его возникновения довольно много, и столь же много способов устранения.

Однако главным правилом остается: размещать исключительно оригинальный контент, независимо от типа сайта. Даже если это крупный сетевой магазин с тысячами страниц.

ПОЛУЧАЙТЕ АНОНСЫ ПОДОБНЫХ ПОСТОВ СЕБЕ НА ПОЧТУ

Подпишитесь и получайте не чаще, чем раз в неделю что-нибудь интересное из мира интернет-маркетинга, SEO, продвижения сайтов, интернет-магазинов, заработка на сайтах.

» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.

Что такое дубли страниц ? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы ресурса

Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.

Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС довольно высока.

Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции: что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс .» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.

Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса. Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.

Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом. Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.

Вывод №1. Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.

Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!

Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.

Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.

Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.

Примеры часто встречающихся дублей контента и способы устранение проблемы

Дубль главной страницы. Пример:

  • http://сайт.com
  • http://сайт.com/index.php.

В этом случаи вопрос решается с помощью 301 редиректа — «командой» для сервера через файл.htaccess.

Еще один пример дубля главной страницы:

  1. http://сайт.com
  2. http://www.сайт.com

Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt в директиве — «Host» для Яндекс:

  1. Host: сайт.com

А также воспользоваться 301 редиректом и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.

Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:

  1. http://сайт.com
  2. http://сайт.com/

Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL, ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.

Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.

Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился. Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!

Ну и еще один пример дубля главной страницы:

  1. http://сайт.com
  2. https://сайт.com

Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:

В поисковой системе Яндекс, веб- мастер — мои сайты — удалить URL:

Важно ! Директивы, прописанные в файле robots.txt, запрещают поисковым роботам сканировать текст, что уберегает сайт от дублей, но те же директивы не запрещают индексировать URL страниц.

Подробнее читайте в статьях:

Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:


Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице. Но если для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.

С помощью поиска Google проверить можно так: site:сайт.com «Фрагмент текста». Пример:


Программы и онлайн сервисы для поиска внутренних и внешних дублей контента по фрагментам текста

Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.

Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru . Помимо проверки текста сервис включает еще различные интересные возможности.

Программа для поиска дублей — Advego Plagiatus . Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.


После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:


Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:


Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога .

До встречи!

С уважением, Кириллов Виталий

Дублированный контент можно разделить на три большие категории : точный дубликат , где два URL-адреса имеют полностью идентичный контент, контент с небольшими отличиями (порядок предложений, немного другие изображения и т. д.) и кроссдоменные дубликаты , где точная или немного измененная копия существует на многих доменах.

Существуют две связанных концепции, которые не считаются Google тем же самым, что и дублированпый контент, но которые часто сбивают с толку издателей и неопытных SEO-специалистов:

  • тонкий контент - как было отмечено ранее, это страницы, на которых очень мало кон­тента. В качестве примера можно привести набор страниц, построенный на списке адре­сов организаций, в котором есть 5000 адресов, но каждая страница содержит только один адрес - всего несколько строк;
  • нарезка контента- в эту категорию попадают страницы, которые незначительно от­личаются друг от друга. Представьте себе сайт, продающий обувь Nike Air Мах, которая приходит в размерах 37, 37,5, 38, 38,5, 39, ... 46. Если у сайта есть отдельная страница для каждого размера обуви, то разница между всеми этими страницами будет незначи­тельной. Подобный эффект Google и называет тонкой нарезкой.

Google не любит ни тонкий контент, ни тонкую нарезку. Любой из этих эффектов может быть выявлен алгоритмом «Панда». Как именно Bing отличает дубликацию контента, тонкий контент и нарезку контента не ясно, но точно известно, что издатели должны избегать создания этих типов страниц.

Дублированный контент может получиться по многим причинам, в том числе благодаря лицензированию контента вашего сайта, дефектам архитектуры сайта вследствие не опти­мизированной под поисковики системы управления контентом или из-за наличия плагиата. В последние пять лет спамеры, испытывающие чрезвычайную необходимость в контенте, начали «выцарапывать» контент из легальных источников, переставлять слова посредством множества сложных процессов и размещать полученный текст на своих страницах, чтобы привлечь операции поиска из «длинного хвоста» и продемонстрировать контекстную рек­ламу, а также и для прочих бесчестных целей.

Таким образом, сегодня мы живем в мире «проблем дублированного контента» и «штрафов за дублирование контента». Приведем некоторые определения, которые будут полезны для нашего обсуждения.

  • Уникальный контент- написан человеком, полностью отличается от любой другой комбинации букв, символов и слов во Всемирной паутине, не подвергался воздействию компьютерных алгоритмов обработки текста (таких как инструменты спамеров, исполь­зующие цепи Маркова).
  • Фрагменты - это небольшие куски контента (например, цитаты), которые копируются и используются многократно. Они почти никогда не являются проблемой для поисковых движков, особенно когда включаются в более крупный документ с большим количест­вом уникального контента.
  • Шинглы - поисковые движки ищут относительно небольшие сегменты фраз (пять- шесть слов) на других страницах во Всемирной паутине. Если два документа имеют слишком много общих шинглов, то поисковые движки могут интерпретировать эти до­кументы как дублированный контент.
  • Проблемы дублированного контента - эта фраза, как правило, служит для обозначения дублированного содержания, за которое сайт может быть оштрафован. Такой контент просто является копией существующей страницы, заставляющей поисковик выбирать, какую версию в индексе нужно отображать (это так называемый фильтр дублированного контента).
  • Фильтр дублированного контента - ситуация, когда поисковик удаляет подобный кон­тент из результатов поиска, чтобы предоставить лучшие результаты пользователю.
  • Штраф за дублированный контент - штрафы (пенальти) применяются редко и только в очевидных ситуациях. Поисковые движки могут уменьшить рейтинг или запретить остальные страницы сайта, могут даже запретить весь веб-сайт.

Последствия дублированного контента

Предполагая, что ваш дублированный контент является результатом безобидного недо­смотра со стороны ваших разработчиков, поисковый движок, скорее всего, отфильтрует все дублированные страницы (кроме одной), поскольку он хочет показать на страницах резуль­татов поиска только одну версию такого контента. В некоторых случаях поисковый движок может отфильтровать результаты до включения их в индекс, а в других случаях - допус­тить страницу в индекс и отфильтровать ее уже при подготовке результатов поиска в ответ на конкретный запрос. В этом последнем случае страница может быть отфильтрована в от­вет на некоторые определенные запросы и не отфильтрована для других.

Пользователи хотят видеть в результатах разнообразие (а не одни и те же результаты снова и снова). Поэтому поисковые движки стараются отфильтровывать дублированный контент, и это имеет такие последствия:

  • робот поискового движка приходит на сайт с определенной сметой просмотра, выра­жающейся в количестве страниц, которые он планирует просмотреть в каждом конкрет­ном сеансе. Каждый раз, когда он попадает на дублированную страницу, которая просто должна быть отфильтрована из результатов поиска, вы позволяете роботу потратить впустую некоторую часть его сметы на просмотр. Это означает, что будет просмотрено меньше ваших «хороших» страниц и приведет к тому, что в индекс поискового движка будет включено меньшее количество ваших страниц;
  • несмотря на то, что поисковые движки стараются отфильтровать дублированный кон­тент, ссылки на страницы дублированного контента все равно передают им «сок ссы­лок». Поэтому дублированные страницы могут получить рейтинг PageRank или «сок ссылок», а поскольку это не помогает им в рейтинге, то этот ресурс теряется впустую;
  • ни один из поисковых движков не дал четкого объяснения, как его алгоритм выбирает ту версию страницы, которую будет показывать. Иначе говоря, если он обнаруживает три копии одного и того же контента, то какие две из них он отфильтрует? Какую покажет? Зависит ли это от поискового запроса? В итоге поисковый движок может показать не ту версию, которая вам нужна.

Несмотря на то, что отдельные специалисты по оптимизации могут поспорить с некоторы­ми из приведенных здесь положений, общая структура практически ни у кого не вызывает возражений. Однако по границам этой модели имеется несколько проблем.

Например, на вашем сайте есть группа товарных страниц, а также версии этих страниц для распечатывания. Поисковый движок может выбрать для показа в своих результатах именно версию для печати. Такое иногда случается, причем это может произойти даже тогда, когда страница для распечатывания имеет меньше «сока ссылок» и более низкий рейтинг, чем основная страница товара.

Для исправления такого положения надо применить атрибут ссылки rel=”canonical” ко всем дублированным версиям страницы, чтобы указать главную версию.

Второй вариант может появиться тогда, когда вы синдицируете свой контент (разрешаете перепечатку своего контента) сторонним организациям. Проблема состоит в том, что поис­ковый движок может выкинуть из результатов поиска ваш оригинал и предпочесть ему ту версию, которую использует человек, перепечатавший вашу статью. Есть три потенциаль­ных решения этой проблемы:

  • пусть человек, переопубликовавший вашу статью, установит обратную ссылку на ис­ходную статью на вашем сайте с атрибутом rel=”canonical” . Это укажет поисковым ма­шинам, что ваша копия страницы является оригиналом и любые ссылки, указывающие на синдицированную страницу, будут зачислены на вашу оригинальную страницу;
  • пусть ваш партнер по синдикации закроет свою копию атрибутом noindex . В этом случае дублированный контент просто не будет индексироваться поисковой машиной. Кроме того, любые ссылки в этом контенте на ваш сайт будут по-прежнему передавать полно­мочия вам;
  • пусть ваш партнер сделает обратную ссылку на исходную страницу на вашем сайте. По­исковики обычно это корректно интерпретируют и подчеркивают вашу версию контен­та. Однако следует отметить, что были случаи, когда Google ошибочно определяла авторство контента и назначала авторство сайту, который переопубликовал его, особенно если тот сайт имеет гораздо больше полномочий и доверия, чем истинный первоисточ­ник контента.

Как поисковые движки распознают дублированный контент?

Процесс поиска дублированного контента во Всемирной паутине для движка Google мы проиллюстрируем примерами. В примерах, представленных на рис. 1-4, сделаны три допущения:

  • страница с текстом - это страница, содержащая дублированный контент (а не просто его фрагмент, как это показано на рисунках);
  • все страницы с дублированным контентом находятся в разных доменах;
  • показанные далее шаги были упрощены, чтобы сделать процесс легким и понятным (на­сколько это возможно). Это, безусловно, не является точным описанием работы Google, но передает смысл.

Рис. 1

Рис. 2

Рис. 3

Рис. 4

Имеется несколько фактов, касающихся дублированного контента, которые заслуживают особого упоминания, поскольку они могут запутать веб-мастера, являющегося новичком в области проблем дублированного контента. Рассмотрим эти факторы.

  • Местоположение дублированного контента - если весь этот контент находится на моем сайте, является ли он дублированным? Да, потому что дублированный контент может получиться как в пределах одного сайта, так и на разных сайтах.
  • Процент дублированного контента - какой процент страницы должен быть дубли­рован, чтобы попасть под фильтрацию дублированного контента? К сожалению, поисковые движки никогда не раскрывают эту информацию, поскольку это нанесло бы ущерб их способности предотвращать саму проблему.
  • Почти уверенно можно утверждать, что этот процент у всех движков постоянно меняет­ся, и при выявлении дублированного контента производится не только прямое сравне­ние. Итог таков: чтобы считаться дубликатами, страницы не обязательно должны быть идентичными.
  • Соотношение кода и текста - а что, если наш код очень большой, но на странице мало уникальных HTML-элементов? Не подумает ли Google, что все страницы явля­ются дубликатами друг друга? Нет. Поисковым движкам нет никакого дела до вашего кода, их интересует контент ваших страниц. Размер кода превращается в проблему толь­ко тогда, когда он становится чрезмерным.
  • Соотношение навигационных элементов и уникального контента - все страницы моего сайта имеют большую навигационную полосу, много верхних и нижних ко­лонтитулов, но совсем мало контента. Не сочтет ли Google все эти страницы дубли­рованными? Нет. Google (а также Yahoo! и Bing) учитывает элементы навигации еще до оценки страниц на дублирование. Они хорошо знакомы с компоновкой веб-сайтов и понимают, что наличие постоянных структур на всех страницах (или большом их коли­честве) - это совершенно нормально. Они обращают внимание на уникальные части страниц и почти совершенно игнорируют остальные.
  • Лицензированный контент - что делать, если я хочу избежать проблем с дублиро­ванием контента, но у меня есть контент из других веб-источников, который я ли­цензировал для показа своим посетителям? Используйте код meta name = "robots” content="noindex, follow" . Поместите его в верхнем колонтитуле вашей страницы, и по­исковые движки будут знать, что этот контент не для них. Это лучшая практика, по­скольку люди все равно смогут посетить эту страницу и сделать на нее ссылку, а ссылки на этой странице будут сохранять свою ценность.

Другой вариант- получить эксклюзивные права на владение этим контентом и его публикацию.

Выявление и устранение нарушений авторских прав

Один из лучших способов отслеживания дублирования вашего сайта - это прибегнуть к помощи сайта CopyScape (copyscape.com), который позволяет моментально увидеть те страницы во Всемирной паутине, которые используют ваш контент. Не беспокойтесь, если страницы этих сайтов находятся во вспомогательном индексе или имеют значительно более низкий рейтинг, чем ваши, - если бы какой-то большой, авторитетный и богатый контен­том домен попытался бороться со всеми копиями его материалов во Всемирной паутине, то ему потребовались бы, по крайней мере, два человека на полную рабочую неделю. К счастью, поисковые движки доверяют таким сайтам и поэтому признают их оригиналь­ными источниками.

С другой стороны, если у вас есть относительно новый сайт или сайт с небольшим количе­ством входящих ссылок, а плагиаторы постоянно стоят в рейтинге выше вас (или вашу ра­боту крадет какой-то мощный сайт), то вы можете кое-что предпринять. Один из вариан­тов- отправить запрос издателю с просьбой удалить контент, нарушающий авторские права. В некоторых случаях издатель просто не знал о нарушении авторских прав. Еще один из вариантов - написать хостинг-провайдеру. Хостинговые компании потенциально могут нести ответственность за организацию дублированного контента, поэтому они часто быстро реагируют на такие запросы. Просто убедитесь, что вы готовы предоставить как можно больше возможной документации, подтверждающей авторство контента.

Следующий вариант - отправить запрос о нарушении авторских прав (DMCA) в Google, Yahoo! и Bing. Этот же запрос вам следует отправить и той компании, у которой размещен сайт нарушителя.

Второй вариант - возбудить дело в суде против сайта-нарушителя или пригрозить это сде­лать. Если публикующий ваши работы сайт имеет владельца в вашей стране, то этот вари­ант, вероятно, является самым разумным первым шагом. Вы можете начать с более нефор­мального общения и попросить удалить контент еще до того, как посылать официальное письмо от адвоката, поскольку до вступления в силу мер агентства DMCA могут пройти месяцы. Но если вам не отвечают, то у вас нет никаких причин откладывать более серьез­ные действия.

Очень эффективным и недорогим вариантом для этого процесса является ресурс DCMA.com .

Ситуация с реальным штрафом

Предыдущие примеры показывают работу фильтров дублированного контента, но это не штрафы, хотя в практическом смысле эффект тот же самый, что и от штрафов, - снижение рейтингов ваших страниц. Однако есть и такие ситуации, когда может появиться настоящий штраф. Например, этим рискуют агрегирующие контент сайты, в особенности если сам сайт добавляет мало уникального контента. При таком сценарии сайт может быть реально оштрафован.

Исправить это можно только уменьшением количества дублированных страниц, доступных пауку поискового движка. Это достигается путем их удаления, посредством добавления атрибута canonical в дубликаты, атрибута noindex в сами страницы, либо добавлением зна­чительного количества уникального контента.

Пример контента, который может часто отфильтровываться, - это «тонкий» сайт-партнер. Так часто называют сайт, который продвигает продажи чужих товаров, чтобы заработать комиссионные, но не предоставляет новой информации. Такой сайт мог получить описания от изготовителя товаров и просто воспроизвести эти описания вместе со ссылкой на партне­ра, чтобы заработать на «кликах» или покупках.

Проблема возникает тогда, когда продавец имеет тысячи партнеров, использующих один и тот же контент, - а инженеры поисковых движков получили от пользователей данные о том, что (с их точки зрения) такие сайты не добавляют ничего ценного в их индексы. По­этому поисковые движки пытаются отфильтровать такие сайты или даже исключить их из своих индексов. Партнерские модели применяет множество сайтов, но они также предос­тавляют и новый богатый контент, поэтому у них обычно нет проблем. Поисковые движки принимают меры только тогда, когда одновременно возникает и дублирование контента, и отсутствие уникального ценного материала.

Как избежать дублированного контента на сайте?

Как мы уже отмечали ранее, дублированный контент может создаваться многими способа­ми. Внутреннее дублирование материала требует применения специфической тактики, что­бы получить наилучшие с точки зрения оптимизации результаты. Во многих случаях дуб­лированные страницы - это такие страницы, которые не имеют ценности ни для пользова­телей, ни для поисковых движков. Если это именно так, попытайтесь полностью устранить эту проблему. Подправьте реализацию таким образом, чтобы на каждую страницу ссылался только один URL-адрес. Сделайте также 301-й редирект для старых URL-адресов на остав­шиеся URL-адреса, чтобы помочь поисковым движкам как можно быстрее увидеть произведенные вами перемены и сохра­нить тот «сок ссылок», который имели удаленные страницы.

Если сделать это невозможно, то имеется еще много других вариантов. Далее представлена сводка указаний по самым простым решениям для самых разных сценариев:

  • используйте файл robots.txt для блокирования пауков поисковых движков, чтобы они не ползали по дублированным версиям страниц вашего сайта;
  • используйте элемент rel="canonical" - это второе решение (из лучших) для ликвидации дублированных страниц;
  • используйте КОД , чтобы дать указание ПОИСКО­ВЫМ движкам не индексировать дублированные страницы.

Однако учтите: если вы используете файл robots.txt для предотвращения просмотра страни­цы, то применение атрибута noindex или nofollow на самой странице смысла не имеет. По­скольку паук не может прочитать эту страницу, то он никогда не увидит атрибуты noindex или nofollow . Помня об этих инструментах, рассмотрим некоторые специфичные ситуации дублированного контента.

    HTTPS-страницы - если вы используете протокол SSL (шифрованный обмен между браузером и веб-сервером, который часто применяется для электронной коммерции), то на вашем сайте есть страницы, начинающиеся с HTTPS : (вместо HTTP :). Проблема возникает тогда, когда ссылки на ваших HTTPS-страницах указывают на другие страни­цы сайта с использованием относительных, а не абсолютных ссылок (так что, например, ссылка на вашу домашнюю страницу становится https://www.ВашДомен.com вместо http://www.ВашДомен.com).

    Если на вашем сайте имеется такая проблема, то для ее решения вы можете использо­вать элемент rel="canonical" или З01-е редиректы. Альтернативное решение- изменить ссылки на абсолютные: http://www.ВашДомен.com/content.html вместо /contenthtml), что заодно несколько усложнит жизнь тем, кто ворует ваш контент.

  • Системы управления контентом, создающие дублированный контент - иногда на сай­те есть много версий идентичных страниц. Такое бывает из-за ограничений в некоторых системах управления контентом, которые адресуют один и тот же контент с более чем одним URL-адресом. Обычно это совершенно ненужное дублирование, которое не имеет ценности для пользователей, и лучшее решение- удалить дублированные страницы и сделать 301-й редирект для удаленных страниц на оставшиеся страницы. Если не по­лучится, попробуйте другие способы (приведенные в начале этой статьи).
  • Страницы для печати или множество вариантов сортировки - многие сайты предла­гают страницы для печати, которые предоставляют пользователю тот же самый контент в адаптированном для принтера формате. Некоторые сайты электронной коммерции предлагают списки своих товаров с множеством возможных сортировок (по размеру, цвету, бренду и цене). Эти страницы имеют ценность для пользователя, но не имеют ценности для поисковых движков, и поэтому будут казаться им дублированным контен­том. В такой ситуации необходимо либо использовать один из ранее приведенных в этом блоге вариантов, либо настроить таблицу CSS для печати (как это описано в посте yoast.com/added-print-css-style-sheet/ на сайте Yoast).
  • Дублированный контент в блогах и системах архивирования- блоги представляют собой интересный вариант проблемы дублированного контента. Пост в блоге может по­явиться на нескольких разных страницах: на начальной странице блога, на странице пермалинков этого поста, на страницах архива и на страницах категорий. Каждый эк­земпляр поста представляет собой дубликат остальных экземпляров. Очень редко изда­тели пытаются справиться с проблемой присутствия поста как на домашней странице блога, так и на странице пермалинков. И, по-видимому, поисковые движки достаточно хорошо справляются с этой проблемой. Однако, возможно, есть смысл показывать на страницах категорий и архива только фрагменты постов.
  • Генерируемый пользователями дублированный контент (повторные посты и т. д.) - многие сайты реализуют структуры для получения генерируемого пользователями кон­тента, такие как блоги, форумы или доски объявлений. Это могут быть отличные спосо­бы разработки большого количества контента с очень низкой стоимостью. Проблема со­стоит в том, что пользователь может одновременно опубликовать один и тот же контент и на вашем сайте, и на нескольких других сайтах, что и приводит к появлению дублиро­ванного контента. Контролировать это сложно, но для уменьшения проблемы можно учесть следующее:
    • нужно иметь четкую политику, которая уведомляет пользователей о том, что постав­ляемый ими на ваш сайт контент должен быть уникальным и не может быть разме­щен на других сайтах. Конечно, добиться этого трудно, но это поможет понять ваши ожидания;
    • реализуйте ваш форум таким уникальным образом, который потребует иного контен­та. Дополнительно к стандартным полям для ввода данных добавьте также некие уникальные поля (отличающиеся от других сайтов), которые будет полезно видеть посетителям вашего сайта.


Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: