КтоТам — информационно-поисковая система

25 декабря 2007 года   |  Поисковые системы

КтоТам — информационно-поисковая система

«КтоТам» — информационно-поисковая система нового типа.

«КтоТам» позволяет извлекать и объединять знания из массивов открытой публичной информации. Знания этой системы — это люди, организации, явления и предметы окружающего нас мира.

Основным отличием от множества других поисковых систем является то, что результат поиска — это весь объем знаний доступный в одном месте, а не множество ссылок на разрозненные сайты.

Не менее важным, а порой и более полезным отличием выступает возможность поиска связей между объектами — связи между людьми, между организациями, между событиями.

Объем информации доступной в Интернете сейчас таков, что в случае поиска чего-либо, большая часть времени уходит на просмотр найденных ссылок. Требуется кардинально новый подход к поиску, который и реализован в поисковой системе «КтоТам»

«КтоТам» автоматически формирует выводы о профессии человека, его хобби, связях с другими людьми и организациями. Все выводы системы, все факты, подтверждаются конкретными источниками — публикациями в СМИ, в лентах новостей, в блогах и т.д.

«КтоТам» автоматически отслеживает упоминания людей и организаций в потоках информации и формирует свой SmartIndex — индекс, позволяющий объединять воедино весь накопившийся багаж знаний.

Возможности

Поиск людей и организаций. «КтоТам» ищет по фамилии или имени. «КтоТам» может найти людей по дополнительным характеристикам — «Иван хоккеист» и «Сидоров кассир».

«КтоТам» позволяет искать только по характеристикам, помогая найти всех олимпийских чемпионов из Санкт-Петербурга или всех политиков Краснодара.

Поисковая система может найти связи между людьми, проверяя на практике распространенную теорию шести рукопожатий.

«КтоТам» может найти человека через организацию, в которой он работал или же его коллег.

«КтоТам»позволяет искать и получать данные даже из бумажных СМИ.

Как это работает

Поисковая машина «КтоТам» обрабатывает официальную информацию из тысяч открытых источников. Это — электронные и печатные СМИ, новостные ленты и аналитика, государственные и корпоративные издания, публично доступная информация из социальных сетей и блогов.

Обработка информации ведется с учетом лингвистической и логической структуры текста, на основе уникальных алгоритмов позволяющих понимать строение текста, сравнивать и классифицировать информацию.

Результатом обработки массива текста является SmartIndex представляющий из себя многоуровневый набор фактов и атрибутов о каком либо явлении. Например, для предложения «глава компании Имярек, Александр Краснов, подписал приказ о назначении Ивана Франко руководителем отдела аналитики» SmartIndex может выглядеть следующим образом:

главаДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Глава>
компании ИмярекКОМПАНИЯ. НАЗВАНИЕ-Имярек>,
Александр КрасновПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Александр. ФАМИЛИЯ-Краснов>,
подписалСОБЫТИЕ. ЗНАЧЕНИЕ-Подписать. ФОРМА-Совершенная>
приказ о назначенииФИЗИЧЕСКИЙ ОБЪЕКТ>
Ивана ФранкоПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Иван. ФАМИЛИЯ-Франко>
руководителемДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Руководитель>
отдела аналитикиКОМПАНИЯ:ПОДРАЗДЕЛЕНИЕ. НАИМЕНОВАНИЕ-отдел аналитики. ТИП-отдел>
<СВЯЗЬ id3-id2 ТИП=РАБОТА. ДОЛЖНОСТЬ=id1>
<СВЯЗЬ id6-id8 ТИП=РАБОТА. ДОЛЖНОСТЬ=id8>
<и так далее>

Кроме того, SmartIndex содержит информацию про источник фактов, атрибуты, дату и множество других дополнительных сведений. Подобные индексы строятся при каждом упоминании компании Имярек или Александра Краснова и Ивана Франко.

SmartIndex удобен не только возможностью унифицировать и объединять информацию, переданную разными словами. Он позволяет в разы сократить объемы хранимых данных.

На основании SmartIndex-а строится мета поиск — позволяющий по конкретному человеку или организации отражать и объединять множество фактов, связей и атрибутов, выделенных из разных источников.

Основное направление усилий команды «КтоТам»:

  • построение качественных SmartIndex-ов для лингвистически сложных предложений;
  • построение качественного метаиндекса для всего объема обработанной структурированной информации;
  • объединение информации про одного и того же человека из разных источников;
  • недопущение объединения информации для разных людей (например однофамильцев или полных тезок).

Источники информации

Любая информация, которой оперирует поисковая система «КтоТам» находится в открытом доступе. Все выводы системы, атрибуты, связи между объектами строятся автоматически на основании обработанных текстов, при этом всегда указывается первоисточник.

Мы обрабатываем несколько тысяч совершенно разных источников информации — это ленты новостей (Регнум, РИА, ИТАР ТАСС и т.д.), новостные сайты (Лента.Ру, Вебпланета┘), аналитические сайты, справочники и т.д. Любой человек может проверить результаты работы системы, прочитав все необходимые материалы на сайтах первоисточниках.

Источники совершенно разные и это позволяет системе делать достаточно точные выводы.

У нас в базе содержатся SmartIndex-ы множества публикаций из архивов недоступных в Интернете — в таком случае мы можем только процитировать и указать место, из которого выделен факт. А для проверки всегда можно сходить в библиотеку или связаться с редакцией.

Статьи