P
pro·school.ru
Каталог школ

Поисковые роботы и индексация сайтов

💻 Информатика · 7 класс

Как поисковая система находит сайты

Когда мы вводим запрос, поисковая система за доли секунды выдаёт список подходящих страниц. Она не просматривает весь интернет в этот момент — она использует заранее подготовленный указатель. Поисковый робот — это программа, которая автоматически обходит сайты по ссылкам и собирает их содержимое. Индексация — это построение указателя, по которому затем ведётся быстрый поиск.

Как работает поисковый робот

Робот (его ещё называют «паук») начинает с известных адресов и переходит по ссылкам со страницы на страницу. На каждой странице он считывает текст, заголовки и ссылки на другие страницы. Так робот постепенно обходит всё новые и новые сайты, связанные ссылками между собой.

ЭтапЧто происходит
Обходробот переходит по ссылкам и читает страницы
Индексациясведения о словах страниц заносятся в указатель
Хранениеуказатель сохраняется на серверах
Поискпо запросу из указателя выбираются страницы

Что такое индекс

Индекс поисковой системы похож на предметный указатель в конце книги: там для каждого слова перечислены страницы, где оно встречается. В поисковом индексе для каждого слова хранится список адресов страниц, на которых это слово есть. Благодаря такому указателю поиск идёт мгновенно — система не читает сайты заново, а заглядывает в готовый список.

Запрос: «вулканы» Система смотрит в индекс по слову «вулканы» и мгновенно получает список адресов страниц.

Правило. Поисковая выдача формируется не во время запроса, а заранее — при индексации. В момент запроса система лишь обращается к готовому индексу и упорядочивает найденные страницы по их соответствию запросу.

Почему важна перекрёстная связь ссылок

Робот находит страницу, только если на неё ведёт хотя бы одна ссылка с уже известных страниц. Если на сайт не ссылается никто, робот может его не обнаружить. Поэтому связанность сайтов ссылками напрямую влияет на то, попадут ли они в индекс и найдутся ли по запросу.

Как формируется порядок выдачи

По одному запросу в индексе обычно находятся тысячи страниц. Поисковая система упорядочивает их по соответствию запросу: чем точнее страница отвечает на вопрос, тем выше она в списке. Учитываются совпадение слов, заголовки, авторитетность сайта и многое другое. Этот порядок называют ранжированием.

Что учитываетсяВлияние на место в выдаче
Совпадение слов запросаповышает
Заголовки страницыповышает
Число ведущих ссылокповышает
Скорость загрузкивлияет

Как часто обновляется индекс

Интернет постоянно меняется: появляются новые страницы, старые исчезают. Поэтому роботы обходят сайты не один раз, а регулярно, обновляя индекс. Из-за этого только что созданная страница появляется в поиске не мгновенно, а спустя некоторое время — когда робот до неё доберётся и занесёт её в указатель.

Кратко о главном

  • Поисковый робот автоматически обходит сайты по ссылкам.
  • Индексация — построение указателя по словам страниц.
  • Индекс похож на предметный указатель книги.
  • Выдача формируется заранее, а не в момент запроса.
  • Без ведущих ссылок страница может не попасть в индекс.