Дублирование контента: что это, где встечается, как избежать

22. Октябрь 2012 · Комментариев: 4 · Рубрика: Создание сайта · Метки: 1, контент, статьи

Поисковые механизмы тщательно отслеживают дублированный контент и удаляют cайты-нарушители из списка индексирования. Чем уникальнее контент сайта, тем больше полезного трафика поступит на сайт и тем выше сайт будет в выдаче. Это аксиома, которая известна сегодня всем, кроме совсем уж новичков, считающих, что создать хороший сайт можно просто копируя информацию с других Интернет ресурсов. Но как же вычислить весь дублированный контент на вашем сайте и что вообще с этим можно сделать? Читайте в сегодняшней статье.

Виды дублированного контента

Дублированный контент крайне отрицательно влияет на рейтинг сайта. Проблема в том в том, что владелец не всегда знает о том, что на его сайте присутствуют элементы дубля. Конечно, до того момента пока сайт не вылетает из индекса ввиду попадания в бан. На сегодняшний день, дублированный контент делится на две категории: копия архитектуры и традиционно ворованный контент. Разница между ними лишь в том, что копии с архитектуры фиксируются поисковой системой немного позже, чем банально украденный контент.

SEO:Дублирование контента.

Смотрите полный видеокурс на iTunes

Дублирование контента с архитектуры сайта

Архитектура сайта сама по себе структура нестабильная в плане плагиата. Некоторые примеры архитектуры иногда являются причиной копий контента:
— основные страницы, оптимизированные под печать;
— страницы с тематическим контентом (возможен доступ через различные URL);
— страницы с прототип-элементами (прототип-элементами могут служить товары одного вида, но с разными описаниями на витрине Интернет-магазина);
— страницы, которые носят одно и то же название и проходят по идентификатору, как дискрипторы мета;
— страницы использующие идентификаторы сеанса на основе URL;
— страницы с проблемами канонизации.

Итак, чтобы проверить контентное наполнение сайта на наличие отображаемых в отчетах поисковых машин дубли, нужно воспользоваться запросом “site:www.sait.com”. Запрос работает на базе всех поисковых машин. Ответом будут все возможные служебные страницы, которые уже проиндексированы. В этом случае поисковые роботы Google на высоте. Дублированный, по мнению этого поисковика, контент помещается в “дополнительный индекс” с маркировкой “опущенные результаты”. Если страницы (не служебные) сайта попали в этот дополнительный индекс, то можно смело сказать, что Google считает их наглым дублем и скоро сайт отправится в электронный ад, то есть в бан.

Дублирование контента и его кражи

Украсть контент — святое дело. По крайней мере для некоторых жадных на услуги копирайтеров владельцев сайтов. Краденный контент — это проблема как для настоящих владельцев контента, так и для поисковых роботов. Роботы, не всегда могут отследить, какой текст является исходником. Неприятная ситуация, асессоры фиксируют нарушение, сайт понижается в индексе, причем не факт, что сайт-нарушитель. В этом случае нужно воспользоваться сервисом CopyScape (http://www.copyscape.com), который в «промышленных» масштабах постоянно, а не в рамках сессии анализирует контентное наполнение сайта. Еще немного программ по анализу дубля: eTXT Антиплагиат double content finder, advego plagiatus, istio.com.

Если вы обнаружили, что ваш контент бессовестно воруют на постоянной основе, можно конечно попытаться обсудить ситуацию с оппонентами, но лучше связаться с соответствующими отделами в поисковых системах: http://www.google.com/dmca.html и http://docs.yahoo.com/info/copyright/copyright.html. Яндекс особо не разбирается, в бан попадают все. Обычно поисковые механизмы точно (процент довольно высокий) определяют первоначального автора. Но случается всякое, в том числе и ошибки роботов.

Опасность страниц, оптимизированных для печати

CSS не содержит средств форматирования для различных носителей (печать, экран и т.д.), поэтому программеры создают для каждой страницы две базовых версии — стандартную и печатную. Это не является чем-то неправильным или запретным, но каждая из версий может быть расценена асессором как дубль.

Трасса и навигация ссылок

Идентификаторы категорий база для трассовой навигации. Если товар относится лишь к одной категории — трассы нет, соответственно нет номинального дубля. Если товар относится более чем к одной категории — возникает проблема (для программного создания трассы нужно передавать параметр). Трасса, облегчает навигацию, но может служить источником дублированного контента для асессоров, хотя на самом деле таковой не является. В этом случае контентное наполнение сайта является источником проблем ввиду несовершенности работы алгоритмов поисковых систем.

Что делать с дублированным контентом?

Дублированный контент нужно уникализировать или удалить. Первое подойдет, если контента очень много, второе — если он затрагивает важные для сайта рабочие страницы. Но можно и обойти систему, закрыв некоторые страницы. Делается это с помощью стандартного инструмента мета-тега «robots» в html-коде страницы. Достаточно прописать команды: index — разрешение на индексацию, follow – разрешение на анализ веса ссылок, noindex — запрет на индексацию, nofollow – запрет на учет веса ссылок, all — можно индексировать все, none – нельзя ничего индексировать. Есть еще тег Яндекса «noindex». С его помощью можно закрыть любую часть текста, расположенного на странице. Робот его будет видеть, но учитывать не будет.

Мой robots.txt для WordPress

User-Agent: *
Allow: /category/staty/
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: saitowed.ru
Sitemap: http://saitowed.ru/sitemap.xml

Вот такой robots.txt для CMS WordPress я использую на данном блоге и на других моих проектах, сделанных на этом движке. Можно просто скопировать и вставить в корневой каталог вашего сайта, заменив адрес блога — на свой. Удачи!

Подпишись на обновления блога по

RSS,

Email,

twitter!

Интересные посты на "Сайтоведе":

Комментарии (4)

Княгиня
2 Ноябрь 2012 at 16:10

Что-то я не поняла насчёт css. Отлично делается версия для печати средствами css — используем media type. На этом обломался мой первый html-шеф, когда вздумал оспаривать предложенный мной метод — давно-давно, в 2006 году, если не ошибаюсь. Проспоренное пиво я взыскала тортиком.

Ответить
Дмитрий
15 Ноябрь 2012 at 22:19

В Яндекс.Вебмастере есть сервис «Добавить новый текст» для защиты авторских прав. Но, как всегда, Яндекс ничего не обещает, кроме учета заявки.

Ответить
- Хэннер
  16 Ноябрь 2012 at 14:59
  
  Угу, пока этот сервис работает криво, чтобы на него расчитывать.
  
  Ответить
Правда о
18 Ноябрь 2012 at 21:16

проги по проверки контента использую постоянно, можно как вариант заблокировать правую кнопку мыши только скрипт не помню где находится ……еще есть сервис текст 2.0 не пробовал но буду тестить

Ответить