Дмитрий Малин: Поиск по всем направлениям от Rambler

26 февраля 2009 года   |  RamblerПоисковые системы

 

Дмитрий Малин (Руководитель отдела поиска и навигации) рассказывает о том что произошло с поиском от Rambler за последние 6 месяцев.

Прошло около девяти месяцев с момента запуска бета-версии вертикального поиска. Можно сказать, что сейчас сервис окончательно сформировался. Предлагаю Вашему вниманию пост о том, как шла работа над проектом и каких у нас планы по его развитию.

Вертикаль VS горизонталь

Почему вертикальный поиск лучше? Хотя бы потому, что когда вы вбиваете запрос в обычном поиске, вы получаете единой лентой совершенно разноплановую информацию: новости, джинсу, описания, каталоги, сообщения на форуме и пр. В итоге пользование обычным поиском может превратиться в игру «попробуй отыщи в найденном». Когда речь идет о выборе машины, квартиры, турпоездки и т.п., а не о простом серфинге по сети, искать иголку в стогу сена просто ломает. Хочется, чтобы кто-то за тебя проделал хотя бы часть работы, что собственно и предлагает вертикальный поиск: пользователь получает структурированную и выверенную информацию. Последнее особенно важно, поскольку значительная часть Интернета состоит из текстового хлама: спамерских сайтов, джинсы, перепечаток, мусорной, намерено искаженной информации – причем эти ресурсы все труднее отличить от «нормальных» сайтов, особенно с учетом того, что на раскрутку всего этого мусора тратятся большие деньги. В такой ситуации человеку становится все труднее выделить из (в машинном понимании) объективного списка источники авторитетной, достоверной и актуальной информации.
Конечно, вертикалями нельзя охватит все интересы пользователей. Такие тематические поиски имеет смысл делать только по самым востребованным запросам. Именно поэтому несмотря на явные преимущества вертикального поиска, традиционные поисковики никто не отменяет.

Как работают вертикали «Рамблера»

Первоначально мы оттачивали работу вертикального поиска на площадке beta.rambler.ru: собирали мнение пользователей по дизайну, интерфейсам и темам вертикалей, статистику (в том числе для более эффективной работы сервиса).
В основе нашего вертикального поиска разработанная нашими программистами система XAG (eXtended AGgregator). Она обеспечивает получение, анализ и обработку информации, а также поиск по ней. Уникальность системы в том, что ее сравнительно легко адаптировать под новую вертикаль (тематическую область) без особых затрат времени и сил.
Данные для обработки могут поступать к нам тремя способами. Первый – парсинг с четкого круга тематических сайтов, выделение из html-кода нужной информации. Например, в поиске по вакансиям мы выделяем такие параметры как название должности, компании, зарплата, описание с сайтов работной тематики. Второй вариант – поставщики контента сами поставляют информации в строго оговоренном формате, как например, на Price.ru. Возможен также и смешанный вариант. В новом году мы будем стараться меньше парсить, больше дружить (сайты продвигают себя в поисковике, а мы получаем возможность сосредоточиться на удобной выдаче результатов поиска).Третий канал получения информации – web-based поиск по выбранным сайтам, например, по тематике/типу (mp3, видео, программные коды, словари) или по географии (в масштабах страны, региона-области или даже города).
После сбора информации, происходит ее анализ и обобщение, структуризация. Причем тут есть свои «фишки». Например, если у нас есть база большинства работодателей, и если в документе не указана компания, но дан его телефонный номер, то мы можем определить ее название (в том числе вычислять кадровые агентства). Таким образом, например, мы определяем вакансии-повторы, предложения сомнительной тематики, вроде сетевого маркетинга. Из «очищенных» данных строятся поисковые индексы. При этом учитывается синонимичность выражений, например, «мед.страховка» и «медицинская страховка» соответствуют одному термину. Кстати синонимы используются и в названиях компаний, например «ОАО Рамблер Медиа» и «Rambler», мы также планируем задействовать их в наименовании должностей, например, «специалист по интерфейсам» и «юзабилист».
Результаты тестирования вертикального поиска оправдали наши надежды, поэтому часть вертикалей была введена осенью в обновленный «Рамблер», еще несколько появится на нашем портале в новом году, например, вертикаль по отзывам о различных товарах и услугах.

Момент истины

Но всегда и во всем встречаются подводные камни, и разработка вертикального поиска не исключение. Одна из сложностей – конкуренция между вертикалями и существующими нишевыми сайтами, которые аккумулируют больше половины информации по той или иной теме. Например, несмотря на популярности поиска работы, развивать вертикальный поиск по этой теме непросто. К примеру, четыре года назад запустился jobster, затем «100 работ», и, наконец «Улов Умов», которые агрегировали информацию по вакансиям с разных порталов, то есть были своего рода вертикальными поисками по работной тематике. Однако эти сайты даже не смогли войти в десятку лидеров ни по трафику, ни по доходам. Проблема была в том, что ведущие работные сайты специализируются на определенной более узкой нише и собирают у себя до 90-95% объявлений. Вопрос: зачем разбавлять эту информацию небольшим процентом вакансий с непопулярных порталов, когда есть сайты, к которым пользователи привыкли и которым доверяют? Ну, а если выдавать информацию только лидирующих порталов, то поисковик или сайт-агрегатор просто становится лишним звеном. Вот такая дилемма!
Другой подводный камень – конкуренция за бюджеты рекламодателей со стороны сильных оффлайновых изданий по темам, которые очень популярны среди пользователей (например, недвижимость, туризм).
В-третьих, при создании вертикального поиска нужно учитывать особенности структуры данных и способов поиска. Так, для вертикальных поисковиков по структурированным данным, например, вакансиям, необходим расширенный поиск или фильтры. Для вакансий это будут: зарплата, отрасль, график работы и пр. Если же уровень структуризации достигает 100%, т.е. все объявление можно «разнести» на множество полей, как, например, для авто или недвижимости, то смысл в одном поле, куда можно ввести весь запрос, с одной стороны, теряется. С другой — стоит задача распознавания запроса типа «черная беха автомат» и «расщепления» его по полям.
Словом, при создании вертикалей не достаточно учитывать лишь общую привлекательность с точки зрения монетизации и популярность темы у пользователей..

Следующий шаг

Если говорить об общем развитии направления вертикального поиска в Интернете, то можно назвать несколько тенденций.

• Рост популярности в Интернете-проектов, основанных на вертикальном поиске, в ближайший год, в том числе стремление сайтов-держателей основной массы тематического контента стать своего рода вертикальным поиском, куда будет включена информация только дружественных сайтов. Причем, думаю, что большая часть из этих проектов просуществует не больше года.

• Вывод оффлайновых тематических баз данных в Интернет в виде вертикального поиска с платным доступом.

• Сужение тем вертикального поиска. Например, поиск фотографий гостиниц на конкретном курорте.

Мы, конечно, будем учитывать все эти тренды при работе над собственным вертикальным поиском. Что называется, следите за обновлениями на Rambler.ru.

 

Иллюстрация к статье: Яндекс.Картинки

Читайте также

Статьи