Каждый день Web увеличивает свои размеры и расширяет связи. Настоящий объем Web никому не известен и, несомненно, он вырос в размерах, даже с того момента, когда вы начали читать это предложение. В любой произвольно взятый момент времени множество документов добавляется на сайты сети и такое же огромное количество удаляется с них. Сбор сведений обо всех страницах и подчержание их достаточно «свежими» представляется непростой задачей. Пользователи всегда хотят знать, какая поисковая система охватывает максимальную часть всемирной сети. Правда же заключается в том, что даже самые мощные поисковые системы индексируют ежедневно в лучшем случае треть всех размещенных в сети документов, а некоторые не могут успеть сделать это и для одного процента! В будущем ситуация, возможно, изменится, но сейчас даже к лучшему, что не удается проиндексировать все имеющиеся документы. В противном случае получающаяся информационная неразбериха, через которую потребовалось бы «продираться», была бы еще более выражена. В случае с локальными поисковыми системами индекс может не охватывать сайт во всей его полноте и нечасто обновляться.
Большинство поисковых систем используют для сбора и индексирования страниц программы, которые носят название программ-пауков (spider), роботов (bots) или сборщиков. Мы будем применять термин «программа-паук» для обозначения всякой программы, применяемой для сбора Web-страниц. Программы-пауки начинают процесс сбора с определенного количества отправных URL и продолжают его, следуя ссылкам с этих документов. В случае с общедоступными поисковыми системами, отправные URL-адреса для них либо подаются людьми, претендующими на регистрацию, либо формируются из доменных имен, перечисленных в соответствующем реестре. Локальные поисковые системы работают аналогичным образом, но если сайт достаточно связный, они могут располагать очень небольшим количеством отправных точек.
Когда программа-паук посещает разнообразные адреса, перечисленные в списке, она запоминает страницы или фрагменты страниц для дальнейшего анализа, а также ищет ссылки, по которым можно следовать дальше. Например, если программа-паук посетила URL http://freshcss.org/, она видит ссылки, исходящие с этой страницы, и может принять решение проследовать по ним. Не все поисковые системы обязательно индексируют страницы в «глубине» сайта, но большинство из них следует по ссылкам, особенно со страниц, имеющих достаточно много ссылок или большой объем содержимого.
Есть вопросы? Звоните! (495) 312-32-32
Товары магазина
Новые статьи
Заправка картриджей
Сегодня невозможно представить себе современное офисное помещение, в котором отсутствуют компьюте...
Копиры
Предлагаем вам ознакомиться с основными критериями выбора копировальных аппаратов.
Прежде...
Тонер
Тонер – это один из основных видов расходных материалов, которые применяются при заправке лазерны...
1 2 3 4 5 6 7 8
Новые товары
MS Windows 7 Ultimate Rus 32bit OEM GLC-00717
Intel Core 2 Quad Q8300-2.5G/1333/4Mb S775
Предлагаем посетить ресурсы:
Ремонт сантехники и ванной: ремонт сантехники.
Fresh Css: статьи от студии дизайна
Сбор страниц
Категория: Юзабилити /
Версия для печати / trackback
Перейти к статье: « Как работают поисковые системы | Индексирование страниц »
Статья добавлена: 1 февраля 2008 (1572 дня 21 час назад)
Версия для печати / trackback
Перейти к статье: « Как работают поисковые системы | Индексирование страниц »
Статья добавлена: 1 февраля 2008 (1572 дня 21 час назад)
Отопление, водоснабжение: отопление.
Все права защищены © 2007 - 2010: "