Здравствуйте, уважаемые читатели! Задумывались ли вы когда-нибудь о такой проблеме как дублирование контента? Нет? Очень зря, ведь дублирование контента актуально для многих сайтов, особенно для блогов. Сегодня будем разбираться с этим всеми подручными способами, заодно научимся проверять текст на уникальность.

дублирование контента

Дублирование контента можно разделить на следующие составляющие:

  • страница сайта доступна более чем по одному URL адресу — для решения этой проблемы используется редирект 301, который прописывается в файле .htaccess;
  • контент содержит не уникальный текст, который встречается на сторонних интернет ресурсах (преднамеренно или нет) — используются теги noindex и blockquote;
  • на сайте присутствуют страницы, состоящие из кусков контента других страниц сайта (например, с результатами поиска) — запрет индексации с помощью файла .htaccess

Разберем каждую составляющую проблемы дублирования контента и способ ее решения подробнее.

Canonical URLs

Проблема наличия у одной страницы сайта нескольких URL адресов особенно актуальна для современных CMS. Приведу пример. Если с главной моего блога, перейти на запись, используя ее заголовок, то ее URL будет:

Настройка WordPress и подготовка блога к работе

А если нажать на ссылку «Читать дальше» в конце анонса, то URL уже будет иметь вид:

http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/nastrojki-wordpress.html#more-669

Фактически, мы получаем одну страницу по двум URL адресам. Первыми об этой проблеме задумались в Google. Они ввели новый тег canonical, который добавляется между открывающим и закрывающим тегом head страниц дубликатов и указывает основной URL адрес, тем самым сообщая поисковикам, что необходимо добавить в поиск, а что исключит. Инициативу Google поддержали Yahoo и Microsoft. В настоящее время тэгом canonical умеет пользоваться и Яндекс, что не может не радовать.

Синтаксис:

<link rel='canonical' href=http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/
nastrojki-wordpress.html' />

В атрибуте href указывается адрес основной страницы, которая и будет учитываться поисковиками.

С помощью каких средств, современные CMS позволяют настроить canonical URLs:

  • WordPRess — плагин All in One Seo Pack. Помимо автоматической настройки canonical URLs, этот плагин позволяют запретить индексацию контента с возможными дубликатами, а также отвечает за создание title и мета тегов keywords, description);
  • Joomla — модуль Canonical URL;
  • Drupal — модуль Nodewords

Для WordPRess проблема дублирования контента очень актуально. Это связано со стандартными древовидными комментариями — каждый ответ в комментариях создает страницу с идентичным содержимым но по новому URL адресу. Данная проблема получила название «replytocom» — по имени функции, отвечающей за ответы в комментариях WP. Как ее решить, читайте здесь.

Noindex и blockquote

Тег blockquote предназначен для добавления цитат и заимствованного текста. Визуально цитаты выделяются отступом слева и справа, сверху и снизу. В настоящее время для цитат все чаще используются стандартные блочные теги div с добавлением к ним соответствующих стилей, при этом забывается, что blockquote помимо визуальной составляющей, несет в себе и смысловую нагрузку. Он указывает поисковым системам, что текст в нем взят из стороннего источника.

Синтаксис:

<blockquote>Текст</blockquote>

Так же как и для любого элемента div, для него можно указать свои стили.

Помимо blockquote рекомендуется заимствованный контент заключать в тег noindex, который запрещает его индексацию для поисковой системы Яндекс. К сожалению, Гугл не понимает его, но он более лоялен к заимствованному контенту.

Синтаксис:

<noindex>Запрещаем индексация этого текста</noindex>

Если вы стремитесь сделать код сайта валидным, то следует использовать несколько измененный синтаксис:

<!--noindex-->Запрещаем индексацию данного текста.<!--/noindex-->

Не путайте noindex с одноименным мета тегом, который прописывается в заголовке head исходного кода . Мета тег noindex запрещает индексацию целиком страницы, а тег noindex закрывает только тот текст, что находится между его открывающей и закрывающей частями. Не забывайте закрывать тег noindex!

Конечно, если вы используете намеренно контент со сторонних интернет ресуров, то сами знаете, какой участок теста следует запретить индексировать или оформить в качестве цитаты, но что если написанный вами текст содержит части, которые встречаются на других сайта? Следует проверить текст на уникальность. Для этого можно воспользоваться простой и бесплатной программой Advego Plagiatus, от одноименного сервиса Advego. Данная программа наглядно показывает куски теста, которые уже встречаются на других интернет ресурсах. Их следует изменить и проверить текст на уникальность еще раз. Если изменить текст не представляется возможным, тогда уже используйте noindex и blockquote.

Другие способы борьбы с дублированием контента

Проблема дублирования контента не может быть решена только использованием canonical URLs и тегов noindex и blockquote. На сайте всегда присутствуют страницы, которые полностью или частично состоят из заимствованного контента который встречается на том же сайте. К ним можно отнести результаты поиска, версии для печати, метки и теги, на блоге — главная и категории с анонсами статей. Если с главной и категориями блога ничего сделать нельзя — можно только ограничить объем анонсов статей, то другие элементы с дублированным контентом следует запрещать индексировать. Для этого необходимо создать и правильно настроить файл robot.txt.

Кроме того, ваш сайт может быть доступен по нескольким адресам — с приставкой www или без, а главная еще и по http://vash_sayt.ru/index.html или http://vash_sayt.ru/index.php. Поисковики могут воспринимать эти адреса как разные сайты. Чтобы подобного не произошло, необходимо указать главный адрес или, как его еще называют, главное зеркало. Для этого используется файл .htaccess, в котором задается редирект 301 (перенаправление) со второстепенных адресов на основной.

На этом все, спасибо за внимание!

Лучший способ выразить благодарность автору - поделиться с друзьями!

Узнавайте о появлении нового материала первым! Подпишитесь на обновления по email:

Следите за обновлениями в Twitter и RSS.