Здравствуйте, уважаемые читатели! Задумывались ли вы когда-нибудь о такой проблеме как дублирование контента? Нет? Очень зря, ведь дублирование контента актуально для многих сайтов, особенно для блогов. Сегодня будем разбираться с этим всеми подручными способами, заодно научимся проверять текст на уникальность.
Дублирование контента можно разделить на следующие составляющие:
- страница сайта доступна более чем по одному URL адресу — для решения этой проблемы используется редирект 301, который прописывается в файле .htaccess;
- контент содержит не уникальный текст, который встречается на сторонних интернет ресурсах (преднамеренно или нет) — используются теги noindex и blockquote;
- на сайте присутствуют страницы, состоящие из кусков контента других страниц сайта (например, с результатами поиска) — запрет индексации с помощью файла .htaccess
Разберем каждую составляющую проблемы дублирования контента и способ ее решения подробнее.
Canonical URLs
Проблема наличия у одной страницы сайта нескольких URL адресов особенно актуальна для современных CMS. Приведу пример. Если с главной моего блога, перейти на запись, используя ее заголовок, то ее URL будет:
А если нажать на ссылку «Читать дальше» в конце анонса, то URL уже будет иметь вид:
http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/nastrojki-wordpress.html#more-669
Фактически, мы получаем одну страницу по двум URL адресам. Первыми об этой проблеме задумались в Google. Они ввели новый тег canonical, который добавляется между открывающим и закрывающим тегом head страниц дубликатов и указывает основной URL адрес, тем самым сообщая поисковикам, что необходимо добавить в поиск, а что исключит. Инициативу Google поддержали Yahoo и Microsoft. В настоящее время тэгом canonical умеет пользоваться и Яндекс, что не может не радовать.
Синтаксис:
<link rel='canonical' href=http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/ nastrojki-wordpress.html' /> |
В атрибуте href указывается адрес основной страницы, которая и будет учитываться поисковиками.
С помощью каких средств, современные CMS позволяют настроить canonical URLs:
- WordPRess — плагин All in One Seo Pack. Помимо автоматической настройки canonical URLs, этот плагин позволяют запретить индексацию контента с возможными дубликатами, а также отвечает за создание title и мета тегов keywords, description);
- Joomla — модуль Canonical URL;
- Drupal — модуль Nodewords
Для WordPRess проблема дублирования контента очень актуально. Это связано со стандартными древовидными комментариями — каждый ответ в комментариях создает страницу с идентичным содержимым но по новому URL адресу. Данная проблема получила название «replytocom» — по имени функции, отвечающей за ответы в комментариях WP. Как ее решить, читайте здесь.
Noindex и blockquote
Тег blockquote предназначен для добавления цитат и заимствованного текста. Визуально цитаты выделяются отступом слева и справа, сверху и снизу. В настоящее время для цитат все чаще используются стандартные блочные теги div с добавлением к ним соответствующих стилей, при этом забывается, что blockquote помимо визуальной составляющей, несет в себе и смысловую нагрузку. Он указывает поисковым системам, что текст в нем взят из стороннего источника.
Синтаксис:
<blockquote>Текст</blockquote> |
Так же как и для любого элемента div, для него можно указать свои стили.
Помимо blockquote рекомендуется заимствованный контент заключать в тег noindex, который запрещает его индексацию для поисковой системы Яндекс. К сожалению, Гугл не понимает его, но он более лоялен к заимствованному контенту.
Синтаксис:
<noindex>Запрещаем индексация этого текста</noindex> |
Если вы стремитесь сделать код сайта валидным, то следует использовать несколько измененный синтаксис:
<!--noindex-->Запрещаем индексацию данного текста.<!--/noindex--> |
Не путайте noindex с одноименным мета тегом, который прописывается в заголовке head исходного кода . Мета тег noindex запрещает индексацию целиком страницы, а тег noindex закрывает только тот текст, что находится между его открывающей и закрывающей частями. Не забывайте закрывать тег noindex!
Конечно, если вы используете намеренно контент со сторонних интернет ресуров, то сами знаете, какой участок теста следует запретить индексировать или оформить в качестве цитаты, но что если написанный вами текст содержит части, которые встречаются на других сайта? Следует проверить текст на уникальность. Для этого можно воспользоваться простой и бесплатной программой
Другие способы борьбы с дублированием контента
Проблема дублирования контента не может быть решена только использованием canonical URLs и тегов noindex и blockquote. На сайте всегда присутствуют страницы, которые полностью или частично состоят из заимствованного контента который встречается на том же сайте. К ним можно отнести результаты поиска, версии для печати, метки и теги, на блоге — главная и категории с анонсами статей. Если с главной и категориями блога ничего сделать нельзя — можно только ограничить объем анонсов статей, то другие элементы с дублированным контентом следует запрещать индексировать. Для этого необходимо создать и правильно настроить файл robot.txt.
Кроме того, ваш сайт может быть доступен по нескольким адресам — с приставкой www или без, а главная еще и по http://vash_sayt.ru/index.html или http://vash_sayt.ru/index.php. Поисковики могут воспринимать эти адреса как разные сайты. Чтобы подобного не произошло, необходимо указать главный адрес или, как его еще называют, главное зеркало. Для этого используется файл .htaccess, в котором задается редирект 301 (перенаправление) со второстепенных адресов на основной.
На этом все, спасибо за внимание!