Функции
Вся проиндексированная информация записывается в общую базу данных.
Поисковой робот – программа, которая автоматически путешествует по страницам интернета, запрашивая нужные документы и получая структуру сканируемых сайтов. Робот самостоятельно выбирает страницы, которые должны быть просканированы. В большинстве случаев сканируемые сайты выбираются в случайном порядке.
Типы ботов
Неправильно функционирующий робот значительно увеличивает нагрузку на сеть и сервер, что может стать причиной недоступности ресурса.
У каждой поисковой системы существует несколько программ, которые называются роботами. Каждая из них может выполнять определенную функцию. Например, у «Яндекса» некоторые роботы отвечают за сканирование новостных лент RSS, которые будут полезны при индексации блогов. Есть также программы, которые занимаются только поиском картинок. Тем не менее самым главным является индексирующий бот, который формирует базу для проведения любого поиска. Также есть вспомогательный быстрый робот, предназначенный для поиска обновлений по новостным лентам и мероприятиям.
Процедура сканирования
Другим способом запрета на сканирование содержимого является создание доступа к сайту через панель регистрации.
Посещая сайт, программа проводит сканирование файловой системы на предмет наличия файлов инструкции robots.txt. При наличии документа, начинается считывание директив, прописанных в документе. Robots.txt может запрещать или, наоборот, разрешать, сканирование тех или иных страниц и файлов на сайте.
Процесс сканирования зависит от типа программы. Иногда роботы считывают только заголовки страниц и несколько параграфов. В некоторых случаях сканирование проводится по всему документу в зависимости от HTML-разметки, которая также может работать в качестве средства для указания ключевых фраз. Некоторые программы специализируются на скрытых или мета-тегах.
Добавление в список
Каждый веб-мастер может запретить сканирование страниц поисковой системой через robots.txt или тег META. Также создатель сайта может вручную добавить сайт в очередь индексирования, однако добавление вовсе не означает, что робот немедленно просканирует нужную страницу. Чтобы добавить сайт в очередь, поисковики также предоставляют специальные интерфейсы. Добавление сайта значительно ускоряет процесс индексирования. Также для быстрой регистрации в поисковой системе могут быть использованы системы веб-аналитики, каталоги сайтов и т.п.