Инструкция
1
Индексацией интернет-сайта занимаются специальные автоматические программы – поисковые роботы, которые автоматически отслеживают появление новых сайтов во всемирной паутине, проводя постоянное сканирование находящихся в сети интернет-страниц, файлов и ссылок на них на каждом ресурсе.
2
Для сканирования робот переходит в директорию, на которой располагается ресурс на том или ином сервере. При выборе нового сайта робот руководствуется его доступностью. Например, существует мнение, что «Яндекс» выполняет сканирование сначала сайтов, созданных в русскоязычном домене и на русском языке – ru, рф, su или ua, и лишь затем переходит в другие регионы.
3
Робот перемещается на сайт и просматривает его структуру, сначала занимаясь поиском указывающих на дальнейший поиск файлов. Например, сайт сканируется на наличие Sitemap.xml или robots.txt. В этих файлах может быть задано поведение поискового робота при сканировании. При помощи карты сайта (sitemap.xml) робот более точно получает представление о структуре ресурса. Через robots.txt веб-мастер задает файлы, которые он не хотел бы, чтобы они выдавались в результатах поиска. Например, это может быть личная информация или другие нежелательные данные.
4
Просканировав эти два документа и получив нужные инструкции, робот начинает анализировать HTML-код и обрабатывать полученные теги <meta>. По умолчанию, при отсутствии файла robots.txt поисковик начинает обрабатывать все документы, хранящиеся на сервере.
5
Переходя по ссылкам в документах, робот также получает информацию о других сайтах, которые попадают в очередь по сканированию следом за данным ресурсом. Просканированные файлы на сайте сохраняются в качестве текстовой копии и структуры на серверах в дата-центрах «Яндекса».
6
Необходимость повторного сканирования определяется также автоматически роботами. Программа сравнивает имеющийся результат сканирования с обновленной версией сайта при повторном прохождении индексации. Если полученные программой данные различаются, производится обновление копии сайта и на сервере «Яндекса».
Видео по теме
Полезный совет
Возможности использования директив в robots.txt определены в соответствующем разделе для веб-мастеров на сайте «Яндекса».