Поисковые механизмы тщательно отслеживают дублированный контент и удаляют cайты-нарушители из списка индексирования. Чем уникальнее контент сайта, тем больше полезного трафика поступит на сайт и тем выше сайт будет в выдаче. Это аксиома, которая известна сегодня всем, кроме совсем уж новичков, считающих, что создать хороший сайт можно просто копируя информацию с других Интернет ресурсов. Но как же вычислить весь дублированный контент на вашем сайте и что вообще с этим можно сделать? Читайте в сегодняшней статье.

Виды дублированного контента

Дублированный контент крайне отрицательно влияет на рейтинг сайта. Проблема в том в том, что владелец не всегда знает о том, что на его сайте присутствуют элементы дубля. Конечно, до того момента пока сайт не вылетает из индекса ввиду попадания в бан. На сегодняшний день, дублированный контент делится на две категории: копия архитектуры и традиционно ворованный контент. Разница между ними лишь в том, что копии с архитектуры фиксируются поисковой системой немного позже, чем банально украденный контент.

SEO:Дублирование контента.

Смотрите полный видеокурс на iTunes

Дублирование контента с архитектуры сайта

Архитектура сайта сама по себе структура нестабильная в плане плагиата. Некоторые примеры архитектуры иногда являются причиной копий контента:
— основные страницы, оптимизированные под печать;
— страницы с тематическим контентом (возможен доступ через различные URL);
— страницы с прототип-элементами (прототип-элементами могут служить товары одного вида, но с разными описаниями на витрине Интернет-магазина);
— страницы, которые носят одно и то же название и проходят по идентификатору, как дискрипторы мета;
— страницы использующие идентификаторы сеанса на основе URL;
— страницы с проблемами канонизации.

Итак, чтобы проверить контентное наполнение сайта на наличие отображаемых в отчетах поисковых машин дубли, нужно воспользоваться запросом “site:www.sait.com”. Запрос работает на базе всех поисковых машин. Ответом будут все возможные служебные страницы, которые уже проиндексированы. В этом случае поисковые роботы Google на высоте. Дублированный, по мнению этого поисковика, контент помещается в “дополнительный индекс” с маркировкой “опущенные результаты”. Если страницы (не служебные) сайта попали в этот дополнительный индекс, то можно смело сказать, что Google считает их наглым дублем и скоро сайт отправится в электронный ад, то есть в бан.

Дублирование контента и его кражи

Украсть контент — святое дело. По крайней мере для некоторых жадных на услуги копирайтеров владельцев сайтов. Краденный контент — это проблема как для настоящих владельцев контента, так и для поисковых роботов. Роботы, не всегда могут отследить, какой текст является исходником. Неприятная ситуация, асессоры фиксируют нарушение, сайт понижается в индексе, причем не факт, что сайт-нарушитель. В этом случае нужно воспользоваться сервисом CopyScape (http://www.copyscape.com), который в «промышленных» масштабах постоянно, а не в рамках сессии анализирует контентное наполнение сайта. Еще немного программ по анализу дубля: eTXT Антиплагиат double content finder, advego plagiatus, istio.com.

Если вы обнаружили, что ваш контент бессовестно воруют на постоянной основе, можно конечно попытаться обсудить ситуацию с оппонентами, но лучше связаться с соответствующими отделами в поисковых системах: http://www.google.com/dmca.html и http://docs.yahoo.com/info/copyright/copyright.html. Яндекс особо не разбирается, в бан попадают все. Обычно поисковые механизмы точно (процент довольно высокий) определяют первоначального автора. Но случается всякое, в том числе и ошибки роботов.

Опасность страниц, оптимизированных для печати

CSS не содержит средств форматирования для различных носителей (печать, экран и т.д.), поэтому программеры создают для каждой страницы две базовых версии — стандартную и печатную. Это не является чем-то неправильным или запретным, но каждая из версий может быть расценена асессором как дубль.

Трасса и навигация ссылок

Идентификаторы категорий база для трассовой навигации. Если товар относится лишь к одной категории — трассы нет, соответственно нет номинального дубля. Если товар относится более чем к одной категории — возникает проблема (для программного создания трассы нужно передавать параметр). Трасса, облегчает навигацию, но может служить источником дублированного контента для асессоров, хотя на самом деле таковой не является. В этом случае контентное наполнение сайта является источником проблем ввиду несовершенности работы алгоритмов поисковых систем.

Что делать с дублированным контентом?

Дублированный контент нужно уникализировать или удалить. Первое подойдет, если контента очень много, второе — если он затрагивает важные для сайта рабочие страницы. Но можно и обойти систему, закрыв некоторые страницы. Делается это с помощью стандартного инструмента мета-тега «robots» в html-коде страницы. Достаточно прописать команды: index — разрешение на индексацию, follow – разрешение на анализ веса ссылок, noindex — запрет на индексацию, nofollow – запрет на учет веса ссылок, all — можно индексировать все, none – нельзя ничего индексировать. Есть еще тег Яндекса «noindex». С его помощью можно закрыть любую часть текста, расположенного на странице. Робот его будет видеть, но учитывать не будет.

Мой robots.txt для WordPress

User-Agent: *
Allow: /category/staty/
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: saitowed.ru
Sitemap: http://saitowed.ru/sitemap.xml

Вот такой robots.txt для CMS WordPress я использую на данном блоге и на других моих проектах, сделанных на этом движке. Можно просто скопировать и вставить в корневой каталог вашего сайта, заменив адрес блога — на свой. Удачи!


Подпишись на обновления блога по Сайтовед по RSSRSS, RSS по EmailEmail, twitter hennertwitter!


Интересные посты на "Сайтоведе":

Комментарии (4)

  1. Что-то я не поняла насчёт css. Отлично делается версия для печати средствами css — используем media type. На этом обломался мой первый html-шеф, когда вздумал оспаривать предложенный мной метод — давно-давно, в 2006 году, если не ошибаюсь. :) Проспоренное пиво я взыскала тортиком.

    Ответить

  2. В Яндекс.Вебмастере есть сервис «Добавить новый текст» для защиты авторских прав. Но, как всегда, Яндекс ничего не обещает, кроме учета заявки.

    Ответить

  3. проги по проверки контента использую постоянно, можно как вариант заблокировать правую кнопку мыши только скрипт не помню где находится ……еще есть сервис текст 2.0 не пробовал но буду тестить

    Ответить

Добавить комментарий для Хэннер Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>