Поисковый робот
- 1 year ago
- 0
- 0
Поиско́вый ро́бот , или веб-кра́улер ( англ. Web crawler ; также встречается название « веб-пау́к »), алгоритмы автоматического интернет-сёрфинга ( англ. Internet surfing , surfing «катание (скольжение) на (по) волнах(-м)») — программа , являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
По принципу действия, «паук» напоминает обычный браузер . Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска . В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые « дятлы » — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования . Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики , принадлежащих поисковым сервисам. Например, таких как Google Analytics , Яндекс.Метрика и Рейтинг@Mail.ru .
Ограничить индексацию сайта можно с помощью файла robots.txt . Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
Это
заготовка статьи
об
Интернете
. Помогите Википедии, дополнив её.
|