Поисковые роботы и индексация сайтов
💻 Информатика · 7 класс
Как поисковая система находит сайты
Когда мы вводим запрос, поисковая система за доли секунды выдаёт список подходящих страниц. Она не просматривает весь интернет в этот момент — она использует заранее подготовленный указатель. Поисковый робот — это программа, которая автоматически обходит сайты по ссылкам и собирает их содержимое. Индексация — это построение указателя, по которому затем ведётся быстрый поиск.
Как работает поисковый робот
Робот (его ещё называют «паук») начинает с известных адресов и переходит по ссылкам со страницы на страницу. На каждой странице он считывает текст, заголовки и ссылки на другие страницы. Так робот постепенно обходит всё новые и новые сайты, связанные ссылками между собой.
| Этап | Что происходит |
|---|---|
| Обход | робот переходит по ссылкам и читает страницы |
| Индексация | сведения о словах страниц заносятся в указатель |
| Хранение | указатель сохраняется на серверах |
| Поиск | по запросу из указателя выбираются страницы |
Что такое индекс
Индекс поисковой системы похож на предметный указатель в конце книги: там для каждого слова перечислены страницы, где оно встречается. В поисковом индексе для каждого слова хранится список адресов страниц, на которых это слово есть. Благодаря такому указателю поиск идёт мгновенно — система не читает сайты заново, а заглядывает в готовый список.
Запрос: «вулканы»
Система смотрит в индекс по слову «вулканы»
и мгновенно получает список адресов страниц.
Правило. Поисковая выдача формируется не во время запроса, а заранее — при индексации. В момент запроса система лишь обращается к готовому индексу и упорядочивает найденные страницы по их соответствию запросу.
Почему важна перекрёстная связь ссылок
Робот находит страницу, только если на неё ведёт хотя бы одна ссылка с уже известных страниц. Если на сайт не ссылается никто, робот может его не обнаружить. Поэтому связанность сайтов ссылками напрямую влияет на то, попадут ли они в индекс и найдутся ли по запросу.
Как формируется порядок выдачи
По одному запросу в индексе обычно находятся тысячи страниц. Поисковая система упорядочивает их по соответствию запросу: чем точнее страница отвечает на вопрос, тем выше она в списке. Учитываются совпадение слов, заголовки, авторитетность сайта и многое другое. Этот порядок называют ранжированием.
| Что учитывается | Влияние на место в выдаче |
|---|---|
| Совпадение слов запроса | повышает |
| Заголовки страницы | повышает |
| Число ведущих ссылок | повышает |
| Скорость загрузки | влияет |
Как часто обновляется индекс
Интернет постоянно меняется: появляются новые страницы, старые исчезают. Поэтому роботы обходят сайты не один раз, а регулярно, обновляя индекс. Из-за этого только что созданная страница появляется в поиске не мгновенно, а спустя некоторое время — когда робот до неё доберётся и занесёт её в указатель.
Кратко о главном
- Поисковый робот автоматически обходит сайты по ссылкам.
- Индексация — построение указателя по словам страниц.
- Индекс похож на предметный указатель книги.
- Выдача формируется заранее, а не в момент запроса.
- Без ведущих ссылок страница может не попасть в индекс.