Компьютерные электронные книги Пятница, 09.01.2009, 16:27
Приветствую Вас Гость | RSS
Меню сайта
Категории каталога
Компьютерные статьи [198]
Вторая молодость Internet Explorer
Сеть [68]
Статьи по локальным сетям, интернет, настройка домена
Графика [17]
Статьи по Photoshop, Corel Draw, Illustrator, 3D Max, Maya
Оперционные Системы [168]
Статьи по Windows, Linux, Unix
Программирование [100]
Статьи по Delphy, C/C++, .NET, PHP, Pascal, Perl, Visual Basic, Ассемблер, Java, Java Script, ASP
Web-Диайн [35]
Статьи про Веб-Дизайн, создание сайтов, раскрутка сайтов, уведичение посещаемости
SOFT Обозрение [7]

Контакты
Мыло email: smtp3@bk.ru

Аська ICQ: 393-364-007

 
Главная » Статьи » Оперционные Системы

Как изменить скорость сканирования сайта роботом «Яндекса»
Пользуясь специальной инструкцией Crawl-delay в файле robots.txt, веб-мастеры могут менять продолжительность перерывов, которые делает поисковый робот "Яндекса" между запросами к серверу. Это может оказаться полезным в том случае, если "паук" создает чрезмерную нагрузку на сайт, и его необходимо как-то "утихомирить".

Crawl-delay позволяет задать поисковому роботу минимальное время (в секундах) между окончанием сканирования одной страницы сайта и началом индексации следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке файла robots.txt , директиву Crawl-delay необходимо добавлять к группе, начинающейся с записи User-agent, непосредственно после строки Disallow (Allow).

Например, для того чтобы заставить робота обходить каждую страницу веб-ресурса с тайм-аутом в три секунды, необходимо прописать в robots.txt следующие инструкции:

User-agent: Yandex
Crawl-delay: 3

или

User-agent: Yandex
Disallow: /administrator
Crawl-delay: 3

В последнем примере яндексовский "паук" будет не только строго выдерживать трёхсекундную паузу перед скачиванием каждой страницы сайта, но и будет игнорировать директорию Administrator.

"Яндекс" поддерживает дробные значения Crawl-delay - например, 0.5 или 4.5. Это значит, что при желании можно управлять настройками поискового робота и регулировать скорость, с которой он индексирует сайты, с точностью до десятых долей секунд.

И последнее. Директиву Crawl-delay можно применить ко всем поисковым роботам, используя в инструкции User-agent символ подстановки "*".


1. О предназначении файла с именем robots.txt и некоторых тонкостях работы с ним вы можете прочитать в этом материале рубрики RTFM.

2. Некоторые системы управления контентом (Joomla, к примеру) используют директорию Administrator для хранения файлов и скриптов, отвечающих работу панели управления сайтом. По этой причине закрытие папки Administrator от "пауков" может быть вполне оправданным решением.

Автор: Андрей Крупин

Категория: Оперционные Системы | Добавил: compbook (01.09.2008)
Просмотров: 50 | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email:
WWW:
Код *:
 
 
Форма входа
Логин:
Пароль:

Поиск
 
Реклама
    Internet MapКликните на эту кнопку чтобы увидеть карту ВСЕГО интрнета

    Статистика
    Rambler's Top100
    Онлайн всего: 1
    Гостей: 1
    Пользователей: 0
     

    Реклама

    Рейтинг TOP100
    Copyright CompBook © 2009