Что такое вообще файл Robots.txt и зачем он нужен? Файл, находящийся в генеральном каталоге Вашего ресурса, который содержит в себе инструкции для поисковых машин, имеет название Robots.txt. С его помощью, возможно, открыть или закрыть доступ к определенным страницам или разделам Вашего сайта, установить базовое зеркало ресурса, а также прописать местонахождение файла sitemap. Robots.txt – чрезвычайно полезный файл. Проследить это возможно на примере ограничения доступа к техническим разделам Вашего ресурса. В случае если индексация для технических разделов на Вашем сайте открыта, тогда поисковые роботы постараются закрыть ее к ним, чем могут по случайности прикрыть доступ и к нужным страницам сайта.
Robots.txt — главенствующий файл на сайте. Как скачать robots.txt
Смотрите полный видеокурс на iTunes
Скачать robots.txt можно с корневого каталога на Вашем сайте. Создать этот файл возможно непосредственно с помощью приложения блокнот. Первым делом, что произведет поисковая машина, зайдя к Вам на ресурс, постарается скачать robots.txt и ознакомится с инструкциями, расположенными в нем.
Настроить robots.txt можно применяя две базовые директивы: Usеr-аgеnt и Disаllоw. С помощью первой мы определим, какая поисковая система будет закрывать индексацию, которая расположена во 2-ой директиве. Например: Usеr-аgеnt:* Disаllоw:/ — инструкция, находящаяся в таком виде, будет запрещать индексирование страниц всего сайта для поисковых роботов. Прописывая путь к отдельному файлу или директории после директивы Disallow, робот перестанет их индексировать. Примечание: не пишите в одной строке несколько путей к файлам (каталогам) В этом случае директива не будет работать. Если Вам нужно открыть доступ к конкретным страницам сайта, применяем директиву под названием Allow.
В robots.txt еще можно встретить следующие директивы:
— директива Host. Применяется в тех случаях, если у ресурса имеется 2 и более зеркал. Данная директива определяет основное зеркало, и именно оно будет показываться во всех выдачах поисковиков;
— посредством директивы Sitеmap поисковый робот может ознакомиться со структурой Вашего сайта;
— с помощью директивы Crawl-dеlay возможно установление задержки между загрузкой страниц на Вашем сайте для поисковика. Это является очень полезной командой в случае, если на Вашем ресурсе очень много страниц;
— директива Rеquest-ratе предназначена для установления периодичности загрузки страниц поисковым роботом. Рассмотрим следующий пример: Request-rate: 6/9 — робот будет загружать шесть страниц за 9 секунд.
— используя директиву Visit-timе, становится возможным определить диапазон времени, в промежутке которого можно загружать страницы. Время устанавливается по Лондону следующим образом: Visit-time: 0400-0600.
Неправильная настройка или регулировка rоbоts.txt может привести к тому, что для поиска станут доступными конфиденциальные данные о Вашей аудитории, и наоборот: нужные страницы могут быть недоступны для индексации машинами поисковых систем.
Мой robots.txt для WordPress
User-Agent: *
Allow: /category/staty/
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: saitowed.ru
Sitemap: http://saitowed.ru/sitemap.xml
Вот такой robots.txt для CMS WordPress я использую на данном блоге и на других моих проектах, сделанных на этом движке. Можно просто скопировать и вставить в корневой каталог вашего сайта, заменив адрес блога – на свой. Удачи!
Проверить правильность настройки robots.txt возможно с помощью сервиса Яндекс.Вебмастер, который называется анализ robots.txt. Все, что нужно, так это вписать имя своего домена, и Вы увидите свои ошибки, или скачать robots.txt и предоставить его на проверку сеошнику-профессионалу.
И напоследок об одном интересном сайте, который может вам пригодится. Это сайт Geeker.ru с обзорами сервисов для Интернет бизнеса и новостями стартапов — как раз, то что нужно начинающему вебмастеру. Например, вот несколько последних статей с блога Geeker.ru, которые мне понравились: 7 онлайн сервисов для ведения списка дел, TOP5 бесплатных онлайн-редакторов изображений и 8 лучших приложений для удаленного доступа. Удачи!
В последние два месяца, начал понимать что robots.txt очень нужен. Хотя до этого вообще не понимал зачем он нужен так как думал если сайт хорошо индексирует значит это хорошо. А ведь надо делать, так что бы индексировалось, то что нужно вам
да так же думал зачем он нужен этот robots.txt но почитав вашу статью понял нужно пересмотреть у себя в блоге мож что подкорекировать нужно
я месяц промучился чтобы найти оптимальный robots, получился очень приближенный к автору статьи, за что большое спасибо, я бы добавил:
User-agent: Googlebot-Image
Alow: /wp-content/uploads/
User-agent: YandexImages
Alow: /wp-content/uploads/
Моему сайту чуть меньше 2-х месяцев и почему-то Google картинки индексирует, а Yandex — нет. Может быть все дело в настройках robots.txt? Впрочем я еще очень неопытен. и мне нужно как следует разобраться.
Нет, в robots.txt вы ничего такого не прописывали. У вас он вообще какой-то не полный. Можете посмотреть мой для примера.
у меня в роботе прописано просто:
User-Agent: *
Allow: /
Это значит что все страницы сайта будут доступны для поиска? или надо прописывать каждую страницу?
Все страницы будут доступны поисковикам и без всякого робот.тхт. Этот файл используется, чтобы ЗАКРЫТЬ от индексации ненужные страницы.