небольшой тутор по robots.txt
просьба сильно не пинать, просто заинтересовался этой темой, нарыл инфы, перевёл и написал своими словами.
------------------------
Мини-тутор по файлу robots.txt, используемому поисковыми системами типа Google для индексации ваших сайтов.
Как всё происходит:
Гугл имеет множество роботов, типа GoogleBot, GoogleBot-mobile или GoogleBot-image.
Время от времени они запускаются и обходят сайты, индексируя их содержимое.
В последствии выдавая сохранённую инфу в результатах поиска.
Файл robots.txt, лежащий в корневой директории сайта, позволяет указать ботам что нужно индексировать,
а что лучше скрыть от глаз и не выдавать в результаты чьего-либо поиска.
Но нет никакой гарантии, что он будет работать со всеми роботами, поэтому в особо важных случаях рекомендуется
применять другие методы, типа паролей на доступ.
robots.txt по своей структуре очень прост и состоит всего из двух строк:
User-Agent:
и
Disallow:
Первая строка определяет для какого бота вы хотите запретить индексацию нижеследующих директорий.
http://www.robotstxt.org/wc/active.html - здесь находится большой список имен существующих роботов поисковых
систем.
Вторая строка указывает директорию, либо файл, не подлежащие индексации.
robots.txt должен иметь название в нижнем регистре и являться простым текстовым ASCII-файлом.
Корневая директория сайта, это к примеру http://www.robotstxt.org/
Если вы положите файл в http://www.robotstxt.org/wc/, роботы его не обнаружат.
Итак, вот простой пример, запрещающий всем ботам индексировать директорию private
User-Agent: *
Disallow: /private/
Имя директории должно обрамляться слешами, а все боты обозначаются звёздочкой.
Второй пример показывает как запретить GoogleBotу шариться в файлах admin.php и search.php, а
GoogleBot-image не получит доступа к директории files.
Все боты без исключения не могут войти в папку tree.
User-Agent: *
Disallow: /tree/
User-Agent: GoogleBot
Disallow: /admin.php
Disallow: /search.php
User-Agent: GoogleBot-image
Disallow: /files/
Имя файла должно начинаться со слеша.
Чтобы запретить полный доступ к сайту поисковым роботам, укажите один слеш, означающий корневую директорию:
User-Agent: *
Disallow: /
Имена файлов и директорий чувствительны к регистру.
К примеру, Disallow: /private_file.html заблокирует http://www.example.com/private_file.html,
но не закроет доступ к http://www.example.com/Private_File.html.
Также в файле можно добавлять комментарии.
Комментарием считается любой текст, следующий после решётки #.
# /robots.txt file for http://webcrawler.com/
# mail [email protected] for constructive criticism
Если вы имеете доступа к корневой директории сервера, используйте мета-теги.
Но, к сожалению, не все роботы обращают на них внимание.
Мета-теги располагаются в теге <head> документа.
Пример мета-тега:
<meta name="robots" content="index,follow">
Атрибут content может содержать следующие директивы:
index, noindex, follow и, соответственно, nofollow.
index - разрешает роботу индексировать данную страницу.
follow - разрешает проходить по ссылкам и индексировать последующие страницы.
"no" перед директивой запрещает данное действие.
Нельзя писать в одном атрибуте конфликтующие или повторяющиеся директивы:
<meta name="robots" content="INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW">
Значения ALL и NONE включают и выключают действие директив:
<meta name="robots" content="all=index,follow">
<meta name="robots" content="none=index,follow">
Значения атрибутов name и content чувствительны к регистру.
/ http://www.robotstxt.org/wc/meta-user.html - HTML Author's Guide to the Robots META tag. (на англ.) /
просьба сильно не пинать, просто заинтересовался этой темой, нарыл инфы, перевёл и написал своими словами.
------------------------
Мини-тутор по файлу robots.txt, используемому поисковыми системами типа Google для индексации ваших сайтов.
Как всё происходит:
Гугл имеет множество роботов, типа GoogleBot, GoogleBot-mobile или GoogleBot-image.
Время от времени они запускаются и обходят сайты, индексируя их содержимое.
В последствии выдавая сохранённую инфу в результатах поиска.
Файл robots.txt, лежащий в корневой директории сайта, позволяет указать ботам что нужно индексировать,
а что лучше скрыть от глаз и не выдавать в результаты чьего-либо поиска.
Но нет никакой гарантии, что он будет работать со всеми роботами, поэтому в особо важных случаях рекомендуется
применять другие методы, типа паролей на доступ.
robots.txt по своей структуре очень прост и состоит всего из двух строк:
User-Agent:
и
Disallow:
Первая строка определяет для какого бота вы хотите запретить индексацию нижеследующих директорий.
http://www.robotstxt.org/wc/active.html - здесь находится большой список имен существующих роботов поисковых
систем.
Вторая строка указывает директорию, либо файл, не подлежащие индексации.
robots.txt должен иметь название в нижнем регистре и являться простым текстовым ASCII-файлом.
Корневая директория сайта, это к примеру http://www.robotstxt.org/
Если вы положите файл в http://www.robotstxt.org/wc/, роботы его не обнаружат.
Итак, вот простой пример, запрещающий всем ботам индексировать директорию private
User-Agent: *
Disallow: /private/
Имя директории должно обрамляться слешами, а все боты обозначаются звёздочкой.
Второй пример показывает как запретить GoogleBotу шариться в файлах admin.php и search.php, а
GoogleBot-image не получит доступа к директории files.
Все боты без исключения не могут войти в папку tree.
User-Agent: *
Disallow: /tree/
User-Agent: GoogleBot
Disallow: /admin.php
Disallow: /search.php
User-Agent: GoogleBot-image
Disallow: /files/
Имя файла должно начинаться со слеша.
Чтобы запретить полный доступ к сайту поисковым роботам, укажите один слеш, означающий корневую директорию:
User-Agent: *
Disallow: /
Имена файлов и директорий чувствительны к регистру.
К примеру, Disallow: /private_file.html заблокирует http://www.example.com/private_file.html,
но не закроет доступ к http://www.example.com/Private_File.html.
Также в файле можно добавлять комментарии.
Комментарием считается любой текст, следующий после решётки #.
# /robots.txt file for http://webcrawler.com/
# mail [email protected] for constructive criticism
Если вы имеете доступа к корневой директории сервера, используйте мета-теги.
Но, к сожалению, не все роботы обращают на них внимание.
Мета-теги располагаются в теге <head> документа.
Пример мета-тега:
<meta name="robots" content="index,follow">
Атрибут content может содержать следующие директивы:
index, noindex, follow и, соответственно, nofollow.
index - разрешает роботу индексировать данную страницу.
follow - разрешает проходить по ссылкам и индексировать последующие страницы.
"no" перед директивой запрещает данное действие.
Нельзя писать в одном атрибуте конфликтующие или повторяющиеся директивы:
<meta name="robots" content="INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW">
Значения ALL и NONE включают и выключают действие директив:
<meta name="robots" content="all=index,follow">
<meta name="robots" content="none=index,follow">
Значения атрибутов name и content чувствительны к регистру.
/ http://www.robotstxt.org/wc/meta-user.html - HTML Author's Guide to the Robots META tag. (на англ.) /