Мэтт Каттс раскрыл основные принципы работы поиска Google

25 апреля 2012 года   |  Google

Мэтт Каттс раскрыл основные принципы работы поиска Google

Один из пользователей попросил Мэтта Каттса, руководителя группы Google Webspam, рассказать, как работает поиск Google. «Это почти то же самое, что расскажите мне все о Google», — пошутил Мэтт, но попытался в общих словах обрисовать процесс.

Если вы хотите стать лучшей поисковой системой в мире, нужно уметь делать хорошо три вещи: сканировать всесторонне и глубоко интернет, индексировать страницы, ранжировать и возвращать наиболее релевантные результаты, говорит Мэтт.

Краулинг гораздо более сложный процесс, чем его себе представляют пользователи. Чем выше у страницы page rank, чем чаще на нее ссылаются авторитетные источники, тем больше вероятности, что поисковик быстрее просканирует сайт. Фактически, краулинг можно представить в строго определенном порядке с учетом page rank. На все про все уходит где-то порядка 30 дней. Еще две недели уходят на индексацию и обработку данных. Причем для постоянного обновления результатов поисковый робот заходит на сайты с высоким PR снова и снова, чтобы посмотреть, не появилось ли что-то новое или важное.

Затем начинается индексация документов. Предположим, вам нужно найти Katy Perry. Google оценивает, в каких документах встречается Katy, в каких появляется слово Perry. Допустим Katy есть в документах 1, 2, 89, 555, 789, Perry — в документах 2, 8, 73, 555, 1000. После обнаружения этих документов Google смотрит на порядок слов и как эти слова встречаются в документе. Если на странице есть Katy, но нет Perry, она отбрасывается поисковиком. Документ номер 2 имеет Katy и Perry, поэтому Google его оставляет.

Отобрав необходимые документы поисковик решает, как их ранжировать дальше. Для этого существует page rank и более 200 факторов ранжирования. Например, есть сайт, где слово Perry встречается только однажды, и где-то на странице еще есть слово Katy. И есть документ, где слова Katy и Perry идут друг за другом. Google пытается найти баланс: обнаружить качественный документ с высокой репутацией и одновременно выдать сайт, который отвечает на запрос пользователя. И так сотни миллионов раз в день, когда пользователь заходит на сайт Google, он вбивает запрос и получает самые релевантные по нашему мнению результаты меньше, чем за полсекунды.

Для тех, кто хочет узнать больше о работе Google, page rank, Мэтт Каттс посоветовал познакомиться с различными статьями и научными работами.

Иллюстрация к статье: Яндекс.Картинки

Читайте также

Статьи