3 МАРТ 2009
Н
ачать стоит с того, что
принципов работы
поисковых систем на
сто процентов не знают
даже создатели. Все алго-
ритмы являются ноу-хау владельцев
и держатся в строжайшей тайне.
Каждая компания — Yandex, Rambler,
Google — разрабатывает собственный
алгоритм, собственных поисковых
роботов, собственные принципы
индексации сайтов. Тем не менее
некоторые фазы работы поисковиков
являются общими для всех и потому
не представляют собой коммерческой
тайны.
Когда мы вбиваем в поисковую
строку какое-либо слово или фразу,
к примеру «розовые волнушки», мы
читаем в информационной строке
поисковика: найдено 14000 страниц
за 1,2 секунды. Неужели все эти тыся-
чи страниц были просканированы за
столь малое время? А если страниц
несколько миллионов? Конечно, нет.
Поисковик обладает развернутой
базой данных, в которой содержится
информация обо всех этих страницах,
их образы. Для создания этих образов
поисковики направляют на просторы
Всемирной сети свои «лапы» — поис-
ковых роботов.
Эти программы бывают двух
типов —
спайдеры
(пауки) и
краулеры
(путешествующие пауки). Первые
представляют собой инструменты
сбора информации. Спайдер, получив
задание, посещает какую-либо страни-
цу в Интернете, когда до нее доходит
очередь, и читает ее. Тут включается
такое понятие, как
глубина инде кси -
р о в а н и я .
Дело в том, что некоторые
роботы могут прочесть страницу
целиком, а некоторые ограничива-
ются заглавием и так называемыми
метатегами, то есть вынесенными
в шапку данными о странице. Затем
робот может продолжить индексиро-
вание всего сайта (если он распознает
в сайте ранее не проиндексирован-
ный) или отправится «на следующее
задание». В процессе индексации
спайдер не просто читает страницу,
а запоминает ее, архивирует и упа-
ковывает в базу данных поискового
сервера, в соответствующий сектор.
Естественно, он не видит информа-
ции, поступающей от изображений
и флэш-роликов. Робот собирает толь-
ко текстовую информацию.
После сбора и архивирования
информации происходит ее обработка
в хранилище сервера. Она разбивается
на блоки и непосредственно индек-
сируется. Теперь найденная роботом
страница готова к поиску. Но на этом
работа не прекращается. Дело в том,
что информация в Интернете мно-
гократно дублируется на различных
зеркалах, да и роботы нередко захо-
дят на одну и ту же страницу не раз.
Поисковая система производит сличе-
ние хранящейся в архивах информа-
ции и отсеивает дубликаты и зеркала.
В случае необходимости она может
предоставить информацию о зеркалах
пользователю (вы наверняка видели
фразу «Из результатов поиска исклю-
чены слишком похожие страницы.
Показать все без исключения»).
Но откуда же у слайдера информа-
ция, какую страницу он должен посе-
тить и проиндексировать? Тут в дело
вступает краулер. Робот-краулер
отслеживает появление новых сайтов
и страниц и сообщает слайдеру о необ-
ходимости индексации. Некоторые
краулеры отслеживают сайты, по
которым спайдер «прошелся» слиш-
ком давно и которые могли с тех пор
претерпеть изменения. Иногда один
и тот же робот совмещает в себе фун-
кции как спайдера, так и краулера.
Чаще всего грамотные создатели
сайтов прописывают в метатегах точ-
ный срок, через который поисковый
спайдер обязан снова посетить стра-
ницу. Это упрощает работу слайдерам
и делает индексацию сайтов более
ПОИСКОВИК ИЩЕТ НУЖНЫЕ СЛОВА
В
ЗАРАНЕЕ СОСТАВЛЕННОЙ РАЗВЕРНУТОЙ
БАЗЕ ДАННЫХ, СОДЕРЖАЩЕЙ ИНФОРМАЦИЮ
ОБО ВСЕХ ВЕБ-СТРАНИЦАХ.
____________
НАРОДНЫЙ «ГУГЛ»
В 2006 году Оксфордский словарь английского языка (Oxford English
Dictionary] добавляет на свои страницы новый глагол to google («гуглить»)
в значении «искать в Интернете». Происходит это странное слово от
названия самой популярной в мире поисковой системы Google, основан-
ной в 1998 году аспирантами Стенфордского университета Ларри Пейджем
и Сергеем Брином. Компания Google пыталась воспрепятствовать такому
распространению собственного названия, так как помимо поисковика она
обеспечивала множество других сервисов и услуг. Тем не менее «глас
народа» оказался сильнее: слово «гуглить» перекочевало во многие
языки мира, в том числе и в русский. Помимо компании Google подобным
искажением смысла и написания были возмущены члены семьи Эдварда
Каснера, математика, в 1938 году придумавшего слово «гугол» (число
1
х 10100] вместе со своим племянником Милтоном Сироттой.
оперативной. Если же при последнем
посещении страницы спайдер обнару-
живает на ее месте страницу с «ошиб-
кой 404», он временно исключает
страницу из поиска.
Тем не менее роботы-краулеры не
идеальны, поэтому при создании ново-
го сайта программист-оптимизатор
обязательно посещает все крупные
поисковые системы и дает запрос на
посещение только что созданного
сайта роботом-спайдером. Более того,
в серьезных компаниях, подобных
Google или Yandex, группа сотрудни-
ков ежедневно занимается поиском
новых, еще не проиндексированных
и не найденных краулером сайтов.
предыдущая страница 71 Что нового в науке и технике 2009 3 читать онлайн следующая страница 73 Что нового в науке и технике 2009 3 читать онлайн Домой Выключить/включить текст