форум Реклама в интернете

Форум eBanners.Ru: Реклама в интернете и раскрутка сайтов - форум по интернет-рекламе 
файл robots.txt и поисковики - стандарт поисковиков robots txt: описание robots txt - исключения для роботов поисковых систем - Поисковая оптимизация сайта и продвижение сайтов в поисковых системах - интернет-реклама
 РегистрацияРегистрация   ВходВход 
У вас есть вопрос по рекламе в интернете и раскрутке сайтов? Задайте его здесь и вам ответят.
Вы уже всё знаете? Помогите тем, кто знает пока не всё. Правила форума| Сделать стартовой|Добавить в избранное.

Реклама SU: продвижение сайта (ОПЛАТА за РЕЗУЛЬТАТ) и контекстная реклама на Яндексе без наценки.

файл robots.txt и поисковики - стандарт поисковиков robots txt: описание robots txt - исключения для роботов поисковых систем

 
   Список форумов Реклама в интернете -> Поисковая оптимизация сайта и продвижение сайтов в поисковых системах
Форум Раскрутка сайтов  
Автор Сообщение
Николай ПопковОффлайн
Admin
Зарегистрирован: 16.11.2004
Всего сообщений: 1052
Откуда: Волгоград
Возраст: 57
Пол: Мужской
11 Дек 2004 Сб 16:34   файл robots.txt и поисковики - стандарт поисковиков robots txt: описание robots txt - исключения для роботов поисковых систем

файл robots.txt и поисковики - стандарт поисковиков robots txt: описание robots txt - исключения для роботов поисковых систем

Стандарт исключений для роботов поисковых систем - Standard for robot exclusion


Этот документ составлен 30 июля 1994 года по материалам обсуждений в телеконференции robots-request @ nexor.co.uk (позднее конференция была перенесена на WebCrawler: Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/, но сейчас там нет документа, смотрите на http://www.robotstxt.org/ ) между большинством производителей поисковиков и другими заинтересованными людьми. Также эта тема открыта для обсуждения в телеконференции Technical World Wide Web www-talk @ info.cern.ch . Этот документ основан на предыдущем рабочем проекте под таким же названием.

Этот документ не является официальным или чьим-либо корпоративным стандартом поисковых систем, и не гарантирует того, что все нынешние и будущие поисковики будут использовать его. В соответствии с ним большинство производителей поисковых систем предлагает возможность защитить Веб-серверы от нежелательного посещения их поисковыми роботами.

Введение

поисковые системы (поисковики, wanderers, spiders) - это программы, которые индексируют веб-страницы в сети Internet.

В 1993 и 1994 годах выяснилось, что индексирование поисковиками серверов порой происходит против желания владельцев этих серверов. В частности, иногда работа поисковых систем затрудняет работу с сервером обычных пользователей, иногда одни и те же файлы индексируются поисковиками несколько раз. В других случаях поисковые системы индексируют не то, что надо, например, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Этот стандарт призван решить подобные проблемы поисковых систем.

Назначение

Для того, чтобы исключить посещение сервера или его частей поисковиками необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt. Содержание этого файла смотрите ниже.

Такое решение было принято для того, чтобы робот поисковика мог найти правила, описывающие требуемые от него действия, всего лишь простым запросом одного файла. Кроме того файл /robots.txt легко создать на любом из существующих Веб-серверов.

Выбор именно такого URL мотивирован несколькими критериями:

Имя файла должно было быть одинаковым для любой операционной системы
Расширение для этого файля не должно было требовать какой-либо переконфигурации сервера
Имя файла должно было быть легко запоминающимся и отражать его назначение
Вероятность совпадения с существующими файлами должна была быть минимальной
Формат

Формат и семантика файла для поисковой системы - /robots.txt следующие:

Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:

"<field>:<optional_space><value><optional_space>".

Поле <field> является регистронезависимым.

Комментарии могут быть включены в файл в обычной для UNIX форме: символ # означает начало комментария, конец строки - конец комментария.

Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

User-Agent

значением <value> этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа.
если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
заглавные или строчные символы роли не играют
если в качестве значения этого поля указан символ "*", то заданные в этой записи права доступа распространяются на роботов любых поисковых систем, запросивших файл /robots.txt
Disallow

значением <value> этого поля должен являться частичный URL, который не должен индексироваться. Это может быть полный путь или частичный; любой URL, начинающийся с такого пути не должен индексироваться. Например, Disallow: /help закрывает поисковой ситеме и /help.html, и /help/index.html, тогда как
Disallow: /help/- только /help/index.html.
если значение Disallow не указано, то это означает, что поисковой системой индексируется все дерево каталогов сервера
Любая запись (record) должна состоять хотя бы из одной строки (line) User-Agent и одной - Disallow

Если файл /robots.txt пуст, или не отвечает заданному формату и семантике, или его не существует, любой робот поисковых систем будет работать по своему алгоритму.

Примеры

Пример 1:

# robots.txt for http://www.reklama.su/



Код:
User-Agent: *
Disallow: /cyberworld/map/ # this is an infinite virtual URL space
Disallow: /tmp/ # these will soon disappear



В примере 1 закрывается от индексации поисковиками содержимое директорий /cyberworld/map/ и /tmp/.

Пример 2:

# robots.txt for http://www.reklama.su/



Код:
User-Agent: *
Disallow: /cyberworld/map/ # this is an infinite virtual URL space

# Cybermapper knows where to go

User-Agent: cybermapper
Disallow:



В примере 2 закрывается от индексации содержимое директории /cyberworld/map/, однако поисковому роботу поисковой системы cybermapper все разрешено.

Пример 3:

# robots.txt for http://www.reklama.su/



Код:
User-Agent: *
Disallow: /



В примере 3 любому поисковому роботу поисковых систем запрещается индексировать сервер.


Примечания переводчика

В настоящее время стандарт несколько изменился, например, можно записывать в строке User-Agent несколько имен роботов, разделенных пробелами или табуляторами.

Автор Martijn Koster
Перевод: Андрей Аликберов
Вернуться к началу
View user's profile Посетить сайт автора 
Показать сообщения:   
Форум Маркетинг и реклама
Бесплатный обмен ссылками
Лучшие партнерские программы
Партнерка по играм и бесплатные игры
Партнерская программа по знакомствам
Сайт знакомств и чат знакомств
Общение: форум и чат волчат
Куплю рекламу на вашем сайте
Программа раскрутки 1ps и Помощь в заполнении форм

Полезные сервисы: Мой ip адрес / My IP Address как узнать свой IP.
Бесплатная виртуальная клавиатура онлайн - русский, английский и другие языки.
Tранслит и перевод транслита.

агентство знакомств
ремонт фотоаппаратов

форум по интернет-рекламе