Всем привет! Robots.txt для wordpress — неотъемлемая часть любого блога. К сожалению, часто начинающие блогеры об этом файле забывают. Самое время им напомнить.
Сейчас многие мои постоянные читатели покрутят у виска и скажут «Совсем Дима деградирует! Уже про robots.txt снова писать начал!». Может я и деградирую, но склерозом еще не страдаю. Вот статья про общие правила формирования этого файла была, а про robots.txt для wordpress пока нет. Надо исправить.
Сейчас очень часто сталкиваюсь с ним, то анализируя блоги моих читателей, то создавая новые блоги для них. Честно, надоело уже каждый раз лазить к себе на ftp за правильным robots.txt для wordpress. Пора выложить его к себе на блог, что я сейчас и сделаю.
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed$/*/ Disallow: */feed$ Disallow: /*?* User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed$/*/ Disallow: */feed$ Disallow: /*?* Host: fairheart.ru Sitemap: http://fairheart.ru/sitemap.xml.gz Sitemap: http://fairheart.ru/sitemap.xml
Обязательно в трех местах вместо fairheart.ru впишите домен своего блога. Последние две строчки Sitemap прописывают адрес карты сайта для поисковых систем. Она создается с помощью плагина Google XML Sitemaps, и об это я подробно рассказал здесь.
Совсем забыл, ведь меня же читают и совсем новички, так что надо сказать пару слов, зачем он вообще нужен.
Текстовый файл robots.txt (оно и видно из разрешения) располагается в корневом каталоге сайта на ftp и содержит в себе инструкции для поисковых систем — какие части сайта им можно индексировать и добавлять в поиск, а какие нельзя. Другими словами, данный файл запрещает поисковым системам заходить в некоторые папки на сервере и читать их содержимое. Другое дело, что некоторые поисковики им порой пренебрегают — тот же Гугл иногда жрет все подряд.
Что же мы прячем от поисковых систем? Прежде всего служебные файлы и папки, в которых могут содержаться страницы с дублирующим контентом. К примеру, страницы с результатами поиска. Между прочим, я именно из-за этого не рекомендую пользоваться стандартным поиском. Лучше поставьте Яндекс поиск по сайту и радуйтесь жизни. Очень удобная вещь, которая еще может приносить доход, если в нее добавить контекстную рекламу Яндекса.
Короче говоря, создаете текстовый документ под названием robots, пихаете в него то, что я привел выше и закидываете в корневой каталог WordPress на сервере (там, где лежит папка wp-content и файл wp-config.php). Больше ничего с ним делать не надо.
Только не перепутайте название этого файла, а то знаю, что некоторые люди по невнимательности называют его robot.txt (без s на конце). Так делать нельзя. Будьте бдительны, друзья!
На этом на сегодня все. Стремился, чтобы статья получилась короткой и понятной, как шпаргалку у школьника. Спасибо за внимание, друзья!
Сергей, повтори вопрос. А то я БД откатил и все последние комментарии канули в лету.
А можно вопрос, с чем связан откат БД?)
С экспериментами над шортокадами перемудрил, и админка упала
Пришлось откатываться БД. Хотя над точными причинами падения надо будет подумать, ибо на тестовом блоге все прошло нормально.
Спасибо за роботс текст. Дима я его скачал себе в Ворд, но он расположился не в столбик, а в виде как бы обычного текста, это имеет значение? И у меня нет прямого доступа к коду сайта, только через плагин, а я что то не могу никак разобраться как им пользоваться, а нужно осиливать. Может что то подскажете?
Word? А как же NotePad ++ — не в моде? Советую вам его использовать.
Александр Викторович, пользуйтесь лучше редактором Notepad++ — он гораздо удобнее и лучше. Содержание robots.txt должно выглядить так, как у меня, то есть не сплошным текстом, а построчно. Если есть доступ к панели управления хостингом, то там должен быть файловый менеджер. Можно им воспользоваться, если нет непосредственного доступа к ftp.
Про robots.txt и читала, и сама писала, и все равно ничего не могу понять
Конкретный пример. Гугл у себя в документации пишет, «чтобы заблокировать каталог и все его содержание, введите после названия каталога косую черту». И показывает наглядный пример: Disallow: /nenuzhnyj-katalog/
Ну, я так и делаю, запрещая к индексации служебные папки. А потом захожу посмотреть, что же он мне там наиндексировал и вижу вот такие урлы:
мой сайт/wp-content/plugins/posttabs/postTabs.js?ver=3.5.1
мой сайт/wp-content/plugins/pay-with-a-like/css/front.css?ver=1.3
И как к этому относиться? На фига он вообще индексирует чертову кучу мусора? Я вот этого не могу понять. Почему вебмастер должен постоянно голову ломать над этой проблемой? Ох, попались бы мне эти буржуины, я бы им сказала все, что думаю по поводу их «пса», который на каждый блог вываливает кучу «соплей».
Для Google в файле робот прописываются рекомендации, но не четкая инструкция к действию.
Так что их боты вполне могут кушать все, что им заблагорассудится.
Должно пройти время до апдейта базы, бывает месяцами.
Можно попробовать поудалять вручную через панель вебмастера гугл и смотреть, появятся снова или нет. А вообще обязательно стоит добавить вот такую строчку в роботс.тхт
Disallow: /*?*
Правда, придется потом проверить все старые урл))) Бывает что у людей нету ЧПУ и там такие урлы, что сотнями их надо править.
Ну это как-то неразумно, согласитесь. С одной стороны они пишут правила, с другой сами же их нарушают. Ведь этот мусор не только головная боль вебмастера, чтобы индексировать и хранить всю эту кучу г..., нужны ресурсы и немалые. И все разрастается, как снежный ком. Я где-то даже читала, что Гугл уже ломает голову, где хранить свои сервера и его взгляд упал на мировой океан. Не знаю уж, из области фантастики это или на самом деле можно это как-то устроить, но мне другой вопрос покоя не дает — на фига? Это все равно что пристраивать к дому новые комнаты и этажи вместо того, чтобы сделать генеральную уборку.
Так, что-то я тут у вас расфилософствовалась, мне и надо-то было узнать — а что делать-то?
Вот про Мировой океан — интересно. С удовольствием на такое посмотрю
Загрузить этот робот и не переживать. Google тоже не дурак, думаю, разберется.
Действительно, любопытно посмотреть, как сервера дрейфовать будут
Я когда первый раз увидела, где находится Гугл со всем своим добром, то прибалдела — это же целый город! Конечно, им на земле места мало. А насчет robots.txt меня все равно сомнения берут. Я, правда, с тем блогом как-то все на тормозах спустила и не следила, что там индексируется, что нет, но теперь знаю, что за Гуглом глаз да глаз нужен
Это не правила для гугл, а рекомендация. И они ничего не должны делать, как хотим мы)
Ой какой старый и интересны комментарий.
1) Хранить эту кучу Г многоместа не надо. Онаж храниться не в виде страниц, а в специально построенном индексе который ещё и сжимается в миллионы раз ибо простой текст.
2) Сервера строят не для хранения информации, а для увеличения вычислительной мощности. Это не диски, а процессоры.
3) Гугл ломает голову не над «Где хранить сервера», а "где строить датацентры. Пр похожести вопроса есть ряд нюансов. Просто мест на нашей планете ещё много, но:
4)При строительстве ДЦ возникает два главных вопроса — «Где брать электричество» и «Куда девать тепло» (А работающие процы создают ОЧЕНЬ много тепла. Вот Гугл и придумал строить ДЦ на баржах у берега. Электричество с берега подать можно, а тепло девать в воду, прямо вокруг баржи.
PS Это ничего, что я на два года опоздал с комментрарием?
Спасибо, Дмитрий. Текст и в нотепад сплошным монолитом копируется, в ручную сложила. Еще какаято строчка лишняя влезла с предложением читать подробнее на Вашем блоге
Все сделала, загрузила... проверять где-нибудь что-нибудь нужно?
Если заменили название домена на свое, а все остальное оставили как есть, то все норм — должно работать корректно.
Подскажите, пожалуйста, а вот Вы упомянули про плагин от Гугла.
У меня он тоже стоит с первого дня на блоге. Слышал такое, что его необходимо отключать — чтобы не грузил лишний раз блог и врубать его после того, как напишешь новую статью.
Далее: жать «построить карту» и после этого снова вырубать.
Так ли это и кто так делает — отзовитесь )))
Я тоже такое слышала и, как мне кажется, доля здравого смысла в этом есть — чем меньше плагинов, тем лучше, но вся проблема в том, что об этом нужно помнить, то есть это ручной труд. На автомате как-то спокойнее.
Я думаю, что вообще надо стремиться к тому, чтобы где можно, нужно ставить код, а не плагин. Тогда и необходимость в 356 — ти плагинах на блогах отпадет.
Я для себя решил так: если сайт грузится меньше секунды — все ок.
Между прочим, я сейчас снимаю видеокурс, который целиком и полностью будет посвящен ускорению WordPress. Там и о нужных плагинах расскажу, и о самых популярных и полезных хаках. На практике в хаках ничего сложного нет. Глаза боятся — руки делают.
Круто — это уже совсем другое дело ))) Вопрос то действительно важный!
Я бы забывал это каждый раз делать. Пущай уж работает постоянно.
Вот и я же про это... Загрузить то он может и не загрузит блог, а вот то что карта блога будет отражаться не корректно — это да, факт.
Так же поступил и я. Врубил его на постоянку — пусть пашет )))
Насчет файла роботс.тхт. Стоял файл у меня одной «версии», теперь его сменил на другой — разницы за почти месяц не заметил...
Никогда не разбирался в премудростях данного файлика, скопировал, тот что все рекомендуют и все дела. Основные вещи знаю и мне пока что хватит, за статью спасибо!!!
Вот и я, думаю не особо буду заморачиватся по этому поводу. Хотя, старый файл куда то дел по ходу )))
Сегодня посмотрел и выяснил, что мой роботс отличается от предложенного тобой. Поменял, посмотрю, что будет
Я вот тоже решил немного поэкспериментировать с роботом — задал для гугла отдельные правила, как для бота яндекса. Это чтобы гугл лишние страницы в поиск не пихал. Посмотрим, что выйдет.
У меня стоял один файл, сменил на другой — результат тот же.
Так что... Можно менять, экспериментировать...
Здравствуйте.
Помогите новичку разобраться.
В друг, по какой-то причине, из поиска Яндекса исчезли все страницы моего сайта, кроме стартовой. На странице анализа указано, что поиск запрещен файлом robots.txt. Но файл я не трогал, до этого все было в порядке.
В чем причина?
Сайт omnomad.com
На всякий случай вот мой файл:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: omnomad.com/
Sitemap: omnomad.com/sitemap.xml.gz
Sitemap: omnomad.com/sitemap.xml
Заранее спасибо
Здравствуйте. Криминала в файле не вижу. Может по фильтр от Яндекса попали?
Спасибо.
Да вроде не за что под фильтр. Вчера в самом Яндексе ответили, что с сайтом все в порядке, посоветовали подождать пару недель) И вчера же в поиске вновь появилось несколько страниц. Буду надеяться, что таких шуток больше не повторится)
Тогда Яндекс тупит. Бывает, что он ни с того, ни сего выкидывает страницы из поиска, а потом возвращает обратно.
Дима, Яндекс выдает, что в Disallow: */*/feed$/*/ возможно, был использован недопустимый символ
Тогда попробуй удалить эту строчку, там есть еще одна, которая запрещает индексацию страниц feed'а.
Так и сделаю
Нет, не все таки нужна помощь знатоков.
Число страниц запрещенных файлом robots.txt растет. Если 25.10 их было 115, то 31.10 их стало уже 139... Ребята, помогите разобраться в чем дело...
хмммм... у меня сейчас 287 исключенных страниц. А если отдельную страницу блога добавить в аддурилку Яндекса, что та ответит?
О как. Дмитрий, подскажи пожалуйста.
Я просто пока еще чайник в этом деле и может я попутал понятия?
Общая информация сейчас выглядит так:
Страниц в поиске ? 1 ↓
Внешних ссылок на страницы сайта 1
Дата последнего посещения сайта роботом 30.10.2013
Загружено роботом 413 ↑
Исключено роботом 162 ↑
Может это нормально? И исчезновение сайта из поиска Яндекса вовсе с этим не связанно.
Ну и глупый вопрос.
В адурилку нужно одтельно добавлять каждую страницу??
Изначально добавил только стартовую страницу. По мере добавления новых страниц в блог, они успешно индексировались Яндексом, отдельно в адурилку их не ставил.
Сейчас попробовал добавить выборочно и получил ответ — такой-то адрес добавлен и скоро появится в поиске...
Да, можно добавлять любую страницу, главное в этом другое. Аддурилк яндекс умеет оповещать об ошибках. К примеру, если добавлять страницу, запрещенную к индексации, то Яндекс об этом напишет. Ответ «адрес добавлен и скоро появится в поиске...» нормальный, то есть проблема не в robots.txt. Если сайт не под фильтром, то страницы должны вернуться в индекс через пару АПов.
Из всего этого меня смущает только одно: страниц в поиске — 1.
Дмитрий спасибо. Подожду пару недель.
На днях проверил данный файл — на лицо увеличение страниц, которые не в индексе — что за дела, от чего это зависит?
Я на это не обращаю особого внимания, главное, чтобы мусор в индекс не попадал. Последнее время борюсь с гуглом, который все подряд в индекс кидает. Пока с переменным успехом.:)
Спасибо за инструкцию,все понятно расписано. Правильно, что написали об этом статью. Всё-таки это важная часть при создании блога. Да и к тому же очень интересно, как выглядит robots у опытного блоггера.
Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями?
С Ув.
Добрый день! Если не запрещали ее индексацию в robots.txt, то она должна сама по себе индексироваться.
Добрый день! Вставил на сайт ваш robots.txt при проверке Яндекс.Вебмастер выдал:
11: Disallow: */*/feed$/*/
Возможно, был использован недопустимый символ
25: Disallow: */*/feed$/*/
Возможно, был использован недопустимый символ
С этим нужно что-то делать?
Приветствую, а как запретить в робот.тхт индексацию страниц с ошибками? У меня они в индексе появились.
Добрый день! А что за ошибки?
А вот про роботс могу сказать, что здесь уже пора на другой переходить. Почитайте у А. Борисова статью, она еще у него на первой странице. Он там подробно рассказывает про дубли и упоминает какой должен роботс.
Да, еще вот что. Чтобы трафик с Гугла увеличился надо именно роботс правильный сделать и настроить 301 редирект, а также избавиться от дублей.
Поднесите мышку к кнопке ответить на вашем блоге и снизу отразится ссылка, потом нажмите на неё и попадете опять на эту же страницу.
И таких дублей у вас много. Повторюсь, советую почитать статью Борисова.
Старая песня! Эту проблему решать надо не роботсом, анебольшим скриптом , благодаря которому комментарии в wordpress оставляются без перезагрузки страницы, и никаких дублей не создается! Можете на моем блоге поднести мышку к кнопке «ответить» и никакой ссылки там не будет!
как я устал с этим роботсом, сколько сайтов столько и роботсов, мне бы на доску объявлений хороший роботс создать))
Вставил на сайт ваш robots.txt при проверке Яндекс.Вебмастер выдал:
11: Disallow: */*/feed$/*/
Возможно, был использован недопустимый символ
25: Disallow: */*/feed$/*/
Возможно, был использован недопустимый символ
Что это? нормально ли?