Как правильно написать robots.txt

Некоторые из Вас спрашивают: " Как мне запретить ' поисковику №1 ' индексировать страницы, разработанные для ' поисковика №2 '.' Ответ состоит в использовании robots.txt. . Этот файл может сообщить роботу поисковой системы, который индексирует страницы, что ему нельзя индексировать определенные страницы. Таким образом Вы можете формировать страницы для поисковика А и сообщать роботу поисковика Б, чтобы он их игнорировал. Роботы обычно следуют таким указаниям, потому что это предохраняет их от индексации страниц, которые не обращаются к ним. Наиболее важный параметр поисковых систем для способности индексировать защищенный авторским правом материал без разрешения - то, что владелец сайта всегда имеет возможность исключить их индексацию, создавая robots.txt. Поэтому, маловероятно, чтобы поисковые истемы преднамеренно игнорировали бы robots.txt, или что они могли ввязаться в ненужные юридические проблемы. Они могли бы, теоретически говоря, проиндексировать страница и затем, после проверки robots.txt выкинуть страницу из базы. Это может объяснять отчетную документацию, я получал сообщения от некоторых людей, которые утверждают, что паук игнорировал их файл robots.txt, о чем можно судить по логам сервера. Другое объяснение - то, что Webmaster использовал неправильный синтаксис при создании robots.txt. Поэтому дважды проверьте все!

Чтобы создавать robots.txt, откройте Блокнот или любой другой редактора, который может сохранять простой ASCII .txt файл. Используйте следующий синтаксис, чтобы исключить имя файла для определенной поисковой машины:

User-agent: {SpiderNameHere}
Disallow: {FilenameHere}

Например, чтобы сообщить пауку Excite, который называется ArchitextSpider, не индексировать файлы с названиями orderform.html, product1.html, и product2.html, нужно записать в robots.txt следующее:

User-agent: ArchitextSpider
Disallow: /orderform.html
Disallow: /product1.html
Disallow: /product2.html

Согласно спецификации на robots.txt, текст в нем чувствителен к регистру, так что Вы должны записать User-agent, а не User-Agent. Кроме того, убедитесь, что Вы включаете косую черту перед именем файла, если напильник находится в корневом каталоге. Строка User-agent - идентификатор робота поисковой системы, которому вы запрещаете индексировать страницу. Это подобно "кодированному названию" для паука поисковой машины, которыйиндексирует страницы в Интернете. Имя робота может быть похоже на название поисковика, или полностью отличаться.

Как только Вы создали ваш robots.txt, этот текстовый файл нужно загрузить в корневому каталогу вашего сайта. Хотя robots.txt не является обязательным, большинство главных механизмов поиска выполнит его. Если Вы не имеете своего домена, а используете субдомен или директорию внутри домена, то ваш robots.txt может быть не прочитан, так как по стандарту робот проверяет наличие его только в корневом каталоге домена.

Вы можете добавлять дополнительные строки, чтобы исключить страницы из других поисковиков, определяя параметр User-Agent снова в том же самом файле, ставя за ним строки Disallow. Каждое вхождениеDisallow будет применено к последнему User-agent, который был определен. Если Вы хотите исключить целый каталог, используйте синтаксис:

User-agent: ArchitextSpider
Disallow: /mydirectory/

Общая ошибка состоит в том, чтобы поставить * после директивного названия, чтобы указать, что Вы хотите исключить все файлы в этом каталоге. Однако, правильно будет НЕ включать никаких звездочек и символов умолчания в поле Disallow. Согласно технических требований, подразумевается, что запись выше отвергнет все файлы в "mydirectory". Чтобы закрыть от индексирования файл, названный product.htm в "mydirectory" подкаталоге, сделайте так:

User-agent: ArchitextSpider
Disallow: /mydirectory/product.htm

Вы можете исключать страницы для ВСЕХ пауков следующей записью: User-agent: * В строк User-agent Вы МОЖЕТЕ использовать звездочку как групповой символ. Чтобы запретить индексацию всех страниц на сайте, запишите Disallow: / Вы используете только косую черту, чтобы указать, что Вы хотите весь сайт. Не используйте звездочку здесь. Важно, чтобы Вы не допускали ошибок.

Возможно, что некоторые поисковые системы могут обрабатывать общие вариации синтаксиса без проблем. Однако, это не гарантирует, что они будут все допускать расхождения в синтаксисе. Поэтому не устраивайте себе проблем. Если в некоторой точке Вы находите, что ваш синтаксис был неправилен, исправьте проблему, и затем сабмитьте повторно. Поисковая машина повторно проиндексирует ваш сайт и выполнит все указания в robots.txt.

Если Вы желаете включить комментарий в robots.txt , Вы должны перед ним поставить поставить # наподобие следующего: # Here are my comments about this entry.

Каждый набор Disallow должен быть отделен пустой строкой. Например, для исключения различных страниц из различных поисковых систем можно написать следующее:

User-agent: ArchitextSpider
Disallow: /mydirectory/product.htm
Disallow: /mydirectory/product2.htm
 
User-agent: Infoseek
Disallow: /mydirectory/product3.htm
Disallow: /mydirectory/product4.htm

Пустая строка между двумя группами записей необходима. Если, с другой стороны, Вы хотели бы исключить один и тот же набор файлов для более чем одного паука, можно написать следующее:

User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: /mydirectory/product.htm
Disallow: /mydirectory/product2.htm

Нас часто спрашивают относительно правильных имен роботов. Название робота не всегда соответствует названию механизма поиска. Поэтому, Вы не можете просто написать Altavista в User-agent и ожидать, что AltaVista исключит ваши обозначенные страницы. Беспорядок происходит от вебмастеров, просматривающих логи сервера и видящих сложные названия типа Scooter/2.0 G.R.A.B. X2.0, Infoseek Sidewinder/0.9, или Slurp/2.0. Названия роботов, перечисленные в ваших логах - не обязательно то, что Вы, как ожидается, будете использовать в robots.txt. Причина очень проста, стоит только задуматься. Называть робота Infoseek Sidewinder/0.9 в robots.txt не очень полезно, если поисковая система модифицирует его программное обеспечение и решает использовать Infoseek Sidewinder/2.0 как их новое название в следующем месяце. Имело бы смысл, чтобы миллионы людей узнавали это и модифицировали бы robots.txt для нового названия робота? Они ожидали бы, что люди модифицируют напильник, КАЖДЫЙ РАЗ когда любая поисковая система модифицировал бы версию робота и делать это точно, когда изменение названия произошло? Это маловероятно. В действительности, название, которое должно быть в robots.txt - любое название, которое паук поисковой системы запрограммирован искать. Поэтому, лучший источник информации для этого названия - логи, а справочная информация непосредственно от самой поисковой системы. Поэтому, если вы имеете уже установку robots.txt на вашем сайте, проверьте синтаксис и названия роботов против списка ниже. Все названия чувствительны к регистру. Большинство их получено напрямую от поисковых систем или от других уважаемых источников:

Search Engine: User-Agent AltaVista: Scooter Infoseek: Infoseek Hotbot: Slurp AOL: Slurp Excite: ArchitextSpider Google: Googlebot Goto: Slurp: Lycos: Lycos MSN: Slurp Netscape: Googlebot NorthernLight: Gulliver WebCrawler: ArchitextSpider Iwon: Slurp Fast: Fast DirectHit: Grabber Yahoo Web Pages: Googlebot Looksmart Web Pages: Slurp

Обратите внимание, что многие из двигателей используют "Slurp", который является пауком Inktomi, использованным на HotBot и других системах на базе Inktomi. Если все ваши страницы имеют хорошее содержание и довольно уникальны, не волнуйтесь относительно robots.txt. Если Вы работаете только над оптимизацией существующих страниц на вашем сайте, не волнуйтесь относительно robots.txt. Если, однако, Вы решаете, что вам нужно экспериментировать с более чем несколькими страницами, которые являются довольно похожими, используйте robots.txt, особенно с AltaVista. Наконец, после создания вашего robots.txt,

главная