Как работают поисковые системы интернета ч.1

Начать стоит с того, что принципов работы поисковых систем на сто процентов не знают даже создатели. Все алгоритмы являются ноу-хау владельцев и держатся в строжайшей тайне. Каждая компания — Yandex, Rambler, Google, Mail — разрабатывает собственный алгоритм, собственных поисковых роботов, собственные принципы индексации сайтов. Тем не менее некоторые фазы работы поисковиков являются общими для всех и потому не представляют собой коммерческой тайны.

Когда мы вбиваем в поисковую строку какое-либо слово или фразу, к примеру «розовые волнушки», мы читаем в информационной строке поисковика: найдено 14000 страниц за 1,2 секунды. Неужели все эти тысячи страниц были просканированы за столь малое время? А если страниц несколько миллионов? Конечно, нет. Поисковик обладает развернутой базой данных, в которой содержится информация обо всех этих страницах, их образы. Для создания этих образов поисковики направляют на просторы Всемирной сети свои «лапы» — поисковых роботов.

Эти программы бывают двух типов — спайдеры (пауки) и краулеры (путешествующие пауки). Первые представляют собой инструменты сбора информации. Спайдер, получив задание, посещает какую-либо страницу в Интернете, когда до нее доходит очередь, и читает ее.

Тут включается такое понятие, как глубина индексирования. Дело в том, что некоторые роботы могут прочесть страницу целиком, а некоторые ограничиваются заглавием и так называемыми метатегами, то есть вынесенными в шапку данными о странице. Затем робот может продолжить индексирование всего сайта (если он распознает в сайте ранее не проиндексированный) или отправится «на следующее задание».

В процессе индексации спайдер не просто читает страницу, а запоминает ее, архивирует и упаковывает в базу данных поискового сервера, в соответствующий сектор. Естественно, он не видит информации, поступающей от изображений и флэш-роликов. Робот собирает только текстовую информацию.

После сбора и архивирования информации происходит ее обработка в хранилище сервера. Она разбивается на блоки и непосредственно индексируется. Теперь найденная роботом страница готова к поиску. Но на этом работа не прекращается. Дело в том, что информация в Интернете многократно дублируется на различных зеркалах, да и роботы нередко заходят на одну и ту же страницу не раз. Поисковая система производит сличение хранящейся в архивах информации и отсеивает дубликаты и зеркала.

В случае необходимости она может предоставить информацию о зеркалах пользователю (вы наверняка видели фразу «Из результатов поиска исключены слишком похожие страницы. Показать все без исключения»).

Но откуда же у спайдера информация, какую страницу он должен посетить и проиндексировать? Тут в дело вступает краулер. Робот-краулер отслеживает появление новых сайтов и страниц и сообщает спайдеру о необходимости индексации. Некоторые краулеры отслеживают сайты, по которым спайдер «прошелся» слишком давно и которые могли с тех пор претерпеть изменения.

Иногда один и тот же робот совмещает в себе функции как спайдера, так и краулера. Чаще всего грамотные создатели сайтов прописывают в метатегах точный срок, через который поисковый спайдер обязан снова посетить страницу. Это упрощает работу слайдерам и делает индексацию сайтов более оперативной. Если же при последнем посещении страницы спайдер обнаруживает на ее месте страницу с «ошибкой 404», он временно исключает страницу из поиска.

Тем не менее роботы-краулеры не идеальны, поэтому при создании нового сайта программист-оптимизатор обязательно посещает все крупные поисковые системы и дает запрос на посещение только что созданного сайта роботом-спайдером. Более того, в серьезных компаниях, подобных Google или Yandex, группа сотрудников ежедневно занимается поиском новых, еще не проиндексированных и не найденных краулером сайтов.

Продолжение следует…

Понравилась статья? Поделитесь с друзьями:


Читайте также по теме...

Оставьте Ваш комментарий

Ваше имя: (обязательно)

E-Mail: (обязательно)

Website: (не обязательно)

Введите код авторизации: (обязательно)


Текст Вашего комментария: (обязательно)

Прокомментировать