Как создать файл robots.txt


Файл robots.txt создается именно для поисковых роботов, которые занимаются процессом индексации сайта, что является главной задачей после загрузки веб-ресурса на сервер. Сюда относиться как быстрота индексации сайта, так и запрет поисковикам для чтения и индексации файлов и каталогов, которые Вы не хотите показывать пользователям.

Как создать файл robots.txt

Например был создан каталог, в котором находятся файлы для доступа к базе данных, или папка с личными картинками, которые не нужно показывать всем пользователям. Или Вы хотите, чтобы все комментарии не индексировались поисковыми роботами, потому что там разрешено ставить ссылки на другие ресурсы. Возможно часть сайта создана только для узкого круга пользователей и вам не нужно, чтобы данная информация была в поиске, тогда такие папки закрывают от индексации в файле robots.txt.

Если рассмотреть противоположную ситуацию, то поисковый робот обычно заходя на сайт, ищет именно файл robots.txt, по которому быстро ориентируется в структуре сайта. Просто в robots.txt нужно вписать название самого хоста и расположение файла Sitemap, что максимально ускоряет начальную индексацию сайта. И как можно понять с данных примеров файл robots.txt играет очень важную роль и создавать его нужно, а как - можно почитать дальше, где показаны к рассмотрению самые основные моменты в создании данного файла.

Подробно о создании самого файла robots.txt.


Создавать его можно в обычном блокноте, но обязательно должно быть только такое расширение и название. Я возможно повторяюсь, но именно на таких простых ошибках и сайт горит! Как на одном из форумов девушка задавала вопросы о том, что ее сайт не индексируется уже продолжительное время, а после разбора оказалось, что она по неопытности сама запретила индексацию всего сайта вот этим файлом. После исправления ошибки он мгновенно попал в поиск, но уже прошло около шести месяцев нервных ожиданий и расстройств. Так что нужно быть максимально внимательным при создании файла robots.txt. И если не уверен в правильности, тогда лучше его просто сделать пустым, тогда будет индексироваться сайт полностью!

Нужно выделить основные моменты, ошибки в которых также могут привести к неправильной индексации. При составлении файла robots.txt нужно писать его только в нижнем регистре, а также располагать файл в корневой директории сайта, там где находиться файл index.php. А также можно прописать директивы отдельно для робота Яндекса, он это любит. Правда видел моменты, когда прописывают директивы для всех популярных поисковиков, но я считаю это лишним. А вот владельцы некоторых очень популярных блогов вообще прописывают однойзаписью и для всех... Так что большой ошибки не будет.

Его синтаксис сводиться в обращении к поисковым роботам инструкцией User-agent, в поле которой ставиться звездочка, которая означает, что мы обращаемся ко всем роботам, после чего в столбик пишутся запреты инструкцией Disallow: - в поле которой пишутся названия папок и файлов закрытых к индексации. Важно - в одном поле - одно название!

Примеры файла robots.txt:


Файл robots.txt разрешает к индексации все папки и файлы ( для неопытных)
User-agent:*
Disallow:

Файл robots.txt запрещает к индексации ввесь сайт понлностью!!!
User-agent:*
Disallow:/

Обратите внимание на слеш после инструкции Disallow:/, который и запрещает!!!

Закрываем от индексации папку с картинками, которую назовем images.
User-agent:*
Disallow:/images/

Закроем конфигурационный файл, в котором находится пароль доступа к админке: config.php.
User-agent:*
Disallow:/config.php/

И комбинированный пример:
User-agent: *
Disallow: /config.php/
Disallow: /sekta.php/
Disallow: /admin/

В данном примере - звездочка говорит всем поисковикам, что индексировать папку admin и файлы config.php и sekta.php - запрещено, там закрытая информация от пользователей! Таких запретов может быть много и написаны они должны быть в столбик по данному примеру.

Если нужно указать инструкции для определенного поискового робота, например от Яндекса, тогда нужно прописать его так: User-agent:Yandex
Disallow: /config.php/
Disallow: /sekta.php/
Disallow: /admin/

Здесь роботу Yandex разрешено индексировать все, кроме указанных файлов и папок.

Желательно прописывать еще два поля, которые очень важны:

Первая строка указывает путь к карте сайта sitemap.xml, а вторая строка указывает название хоста. Взят общий пример домена, а Вам нужно проставить свои значения.

А общий пример файла для всех роботов и робота яндекса отдельно, будет выглядеть следующим образом:

Но в большинстве случаев, начинающему веб-мастеру запрещать нечего, и в таком случае нужно просто создать пустой файл robots.txt в любом текстовом редакторе и залить на сервер, а роботы сами разберуться что им нужно. Но в это время немного подробнее изучить данную тему, правда приведенных примеров достаточно для того чтобы ответить себе на вопрос - как составить файл robots.txt.

Очень важно запомнить главное - файл robots.txt ничего не разрешает, а только запрещает!!!

по материалам сайта kapon.com.ua 2011 11 19

Поделитесь ссылкой на статью...


Всего комментариев - 3.    Можете оставить свой комментарий.

Dima   2013-02-07 17:33:22   сайт автора -

Спасибо за информацию, но у меня такой вопросик в чем разница при закрытии слеша в конце? Пример: User-agent: * Disallow: /admin Disallow: /admin/ Он же как то по другому должен индексировать?...

Mursatov   2013-03-01 23:40:12   сайт автора - http://o-n.by

Не все йогурты одинаково полезны. Смотря для каких целей новичек делает сайт. Отсюда и важность Robots.txt

Jeka778   2013-04-17 08:09:24   сайт автора -

ну очень полезная информация, огромное спасибо залившему)))


   Login *
   E-mail *
   URL (не обязательно)
- подписаться на сообщения        - я не спамер