Перейти к содержимому

Lexxe

Lexxe -- поисковик, умеющий обрабатывать вопросы на естесвенном языке (NLP), в дополнение к уже стандартному поиску по ключевым словам и фразам. В данный момент доступна альфа-версия поискового движка, демонстрирующая принципы работы. Эта версия поддерживает английский язык, поддержка для мандаринского диалекта китайского находится в разработке.

Изюминкой Lexxe являются ответы на общие вопросы на естественном языке, например,

what is the best gym in palo alto
who is the president of guatemala
when is the best time to visit rome

В ответ на такие запросы Lexxe дает один или несколько ответов, а также дополняет их ссылками на наиболее релевантные страницы.

Конечно система еще далека от совершенства, например, на вопрос "how old is Barak Obama" она дает ответ "Six Years Old".

Технологии Lexxe

Техники NLP также используются и для улучшения ответов на обычные поисковые запросы (с использованием ключевых слов), в частности, автоматическое распознавание фраз и семантическая кластеризация.

Автоматическое распознавание фраз помогает поисковому движку группировать слова поискового запроса во фразу, когда поиск по этой фразе даст более релевантную выдачу. Например, все обычные поисковые машины по запросу

author "lord of the rings"

дадут лучший результат нежели для такого же запроса без кавычек, однако большинство пользователей поисковиков не используют кавычки для выделения устойчивых фраз в своих запросах. Для Lexxe кавычки в таком случае ставить не обязательно, поисковый движок сделает это автоматически.

При поиске по ключевым словам Lexxe кластерезует результаты по различным областям налету, позволяя пользователю уточнить наиболее релевантную область одним кликом. Кластеризация результатов полезна при ответе на неоднозначные запросы, когда одно или несколько его слов имеют несколько различных по смыслу значений.

В основу Lexxe заложены NLP алгоритмы, разработанные доктором Хоном Ксяо (Dr Hong Qiao) и ориентированные на решение следующих задач:

  • определение является ли запрос вопросом;
  • анализ вопроса;
  • определение вероятной формы ответа;
  • индентификация возможных ответов на веб-страницах;
  • выделение наиболее подходящего ответа или ответов;
  • извлечение наиболее точной формы наиболее подходящего ответа(-ов);
  • определение фраз и устойчивых сочетаний в запросе;
  • группировка результатов поиска в семетические кластеры.

Важным аспектом Lexxe является то, что NLP-функциональность реализована в виде отдельных модулей пре- и постпроцессинга, навешиваемых к обычному поисковому движку.

Обработка вопросов

Первая задача, которую решает Lexxe при обработке запроса - является ли запрос вопросом или нет. Если он не является вопросом, осуществляется обычный поиск по ключевым словам. В данный момент Lexxe может идентифицировать и отвечать на следующие типы вопросов:

  • Вопросительные (who, what, which, when, where, why, how);
  • Утвердительные - вопросы, требущие ответа "да" или "нет".

Наилучшие ответы получаются для коротких вопросов, для которых существует короткий обстоятельный ответ.

Обычные поисковые машины могут давать ответы на некоторые типы вопросов, особенно, если подобные вопросы собраны в отдельную базу вопросов и ответов, собираемых при помощью экспертов и/или публики. Lexxe также имеет подобную базу, поскольку этот подход позволяет давать корректные ответы на простые, но широко известные вопросы.

Если вопроса нет в базе, Lexxe пытается определяить возможную форму ответа на него, а затем осуществляет поиск по индексу веб-страниц, содержащих фразы, соответсвующие этой возможной форме, извлекает их, отождествляет логически эквивалентные ответы, затем определяет наиболее подходящий ответ и подбирает наиболее точную форму этого ответа, и затем выдает страницу результатов пользователю.

Разработка Lexxe ведется одновременно в Сиднее (Австралия) и Шанхае (Китай).

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *