Лингвистическая онтология WordNet
8.3. WordNet: применение в вопросно-ответных системах
Вопросно-ответная система представляет собой вид информационно-поисковых систем. Она должна предоставить не набор документов, которые наиболее релевантны поставленному вопросу, а выдать точный ответ на данный вопрос.
Разработки вопросно-ответных систем были начаты в 1960-е годы. В то время предполагалась, что ответ на вопрос должен отыскиваться в специально подготовленных базах знаний.
Второе рождение вопросно-ответные системы начали переживать с 90-х годов XX века. Тогда возникла необходимость искать ответы в больших текстовых коллекциях.
С 1999 года проводится соревнование по вопросно-ответным системам в рамках конференции TREC, с 2003 года соревнования вопросно-ответных систем в многоязычном контексте начаты на конференции CLEF.
Соревнование систем в рамках этих конференций проводится следующим образом.
Участникам рассылается большой текстовый массив (более нескольких гигабайт) и порядка 200 вопросов. Нужно прислать текстовые фрагменты (50, 250 байт), содержащие ответы на вопрос. Ответы должны быть упорядочены, при этом засчитываются первые три ответа.
Оценка производится следующим образом: за правильный ответ на первом месте система получает 1 балл, на втором месте - 0,5 балла, на третьем месте - 0,25 балла. Общая оценка системы получается путем вычисления среднего балла по всем вопросам.
Основные этапы поиска ответа на вопрос в современных вопросно-ответных системах таковы.
- Прежде всего, производится подробный анализ вопроса, в результате которого определяется тип вопроса (вопрос времени, места, количества и др.) и соответствующий тип ответа, а также формируется запрос к информационно-поисковый системе.
- На втором этапе производится поиск релевантных документов или абзацев информационно-поисковой системой, формируется упорядоченный список наиболее релевантных документов (абзацев), из которого выбирается первых n (например, n=100 ) документов (абзацев) для дальнейшей обработки.
- На третьем этапе производится подробный анализ полученных абзацев: содержит ли абзац требуемый тип ответа, близость слов ответа и вопроса и т.п.
Вопросы как особый тип запросов к информационно-поисковой системе
Как известно, запросы в глобальных информационно-поисковых системах обычно очень короткие - 2-3 слова, и по ним находятся сотни и тысячи документов. Запросы в форме вопросов обычно значительно длиннее, поэтому если требовать присутствия в документе сразу всех слов запроса, то чаще всего не будет найдено ни одного документа.
Классическая векторная модель на основе сравнения векторов запроса и документа позволяет найти наиболее релевантные документы и по части слов запроса. При этом во многих современных исследованиях по вопросно-ответным системам начали использовать не векторные модели поиска, а выполнять булевский поиск, поскольку считается, что при выполнении данной задачи необходимо осуществлять дополнительный контроль за тем, какие слова из формулировки вопроса обязательно должны присутствовать в тексте ответа, а какие могут пропасть в тексте ответа с минимальным ущербом для релевантности ответа.
Булевское выражение обычно формируется как конъюнкция всех значимых слов формулировки вопроса. Если проводится морфологический анализ запроса или добавляются синонимы, то они объединяются в дизъюнкцию.
Например, если задан вопрос " When did Shapour Bakhtiar die?", то может быть образовано следующее булевское выражение:
Shapour AND Bakhtiar AND (die OR dies OR died OR dying OR death OR deaths)
Стандартной является ситуация, когда не находится документов, которые содержат все значимые слова вопроса, поэтому при обработке вопроса часто необходимо определить, какие именно слова формулировки вопроса можно отбросить, не включить в поисковый запрос без потери сути вопроса.
Например, следующему вопросу " Кто из великих целителей прошлого написал трактат "О медицине"?" могут частично соответствовать два предложения:
- ЦЕЛЬС (Celsus) Авл Корнелий (I в. до н. э.), древнеримский автор энциклопедических трудов "Artes" (сохранился трактат "О медицине", книги 1-8, с ценными сведениями по гигиене, хирургии, дерматологии);
- А.Е. Ферсман приводит отрывок из трактата "Сокровищница лекарств", написанного арабским целителем около тысячи лет назад: "Ношение бирюзы:
Первое из предложений содержит правильный ответ ЦЕЛЬС, во втором предложении кандидатом на ответ является А.Е. Ферсман, что неверно.
Таким образом, часто булевский вопрос к информационно-поисковой системе, составленный по формулировке вопроса, не находит ни одного документа. Поэтому обычно предлагается система модификаций, упрощающих исходное булевское выражение, после каждой из которых опять происходит обращение к поисковой системе для проверки, не появились ли релевантные документы.
Используются обычно два основных способа упрощения булевского выражения.
Во-первых, можно часть конъюнкций переводить в дизъюнкции.
Вторым способом является поочередное исключение членов конъюнкции на основе некоторого множества эвристик, определяющих значимость членов конъюнкции.
Значимость членов конъюнкции может определяться на основе их грамматических характеристик в формулировке вопроса. Так, наиболее значимыми обычно считаются имена, фразы в кавычках, а наименее значимыми - глаголы.
Процесс исключения элементов из конъюнкции прекращается, когда количество документов (абзацев) в выдаче достигает заданного числа (например, 50) или когда остается заданный процент слов исходной формулировки вопроса.
В связи с длинной формулировкой естественно-языкового вопроса и частым отсутствием в самых больших текстовых коллекциях ответов, содержащих все или большинство слов формулировки вопроса, значимой становится роль лексических ресурсов, позволяющих найти ответы в тех предложениях, в которых часть слов заменена на близкие по смыслу слова.
Так, например, ответ на вопрос " Почему электрические батареи быстрее разряжаются на холоде?" может быть следующим: " Батарейки быстрее садятся на морозе, потому что...".
В этом ответе практически каждое слово вопроса имеет соответствующее слово в данном ответе, при этом сделано 3 лексические замены. Пример не придуман, а реально найден в поисковой коллекции. Более лексически точного ответа в текстовой коллекции не нашлось.
WordNet в вопросно-ответной системе Южного Методистского университета США
Одной из самых эффективных систем в вопросно-ответной секции конференции TREC стала вопросно-ответная система Южного Методистского университета США, которая на нескольких этапах обработки вопроса и поиска ответа обращается к информации, хранимой в тезаурусе WordNet. В разработанной системе WordNet используется для:
- распознавания типа вопроса;
- классификации типов ответов;
- реализации лексических и семантических замен.
Лексические и семантические замены осуществляются в момент сопоставления формальной структуры вопроса и ответа. Поиск в системе организован на основе обработки булевских запросов.
Реальные вопросы
Стоит отметить, что вопросы, на которые могла бы искать ответ вопросно-ответная система, очень востребованы в таких случаях, когда, например, люди обращаются в какие-либо компьютерные форумы с просьбой помочь им в решении некоей проблемы (например, при поломке компьютера или в какой-то юридической ситуации). В этих случаях часто оказывается, что такие ситуации уже обсуждались и достаточно просто было бы найти соответствующие ответы: однако имеющиеся ответы были сформулированы несколько иначе, поэтому в простом пословном поиске найти предшествующие аналогии очень трудно.
Конечно, такие просьбы о помощи редко формулируются как простой, правильно построенный вопрос. Чаще они включают несколько предложений с описанием проблемы и, возможно, более одного вопроса. Например, вопрос может выглядеть таким образом:
Ноутбук Compaq nx9010, месяц от роду, лицензионная русская XP Home SP1, каждые 3-4 дня загадочно исчезают точки восстановления: просто стираются соответствующие папки. Похоже, что при перезагрузке. Но не уверен. В календаре мастера восстановления - тоже исчезают. На диске свободно 27 Гб, движок стоит на все 12%. На десктопе со времен установки XP ничего подобного никогда не наблюдалось (там без сервиспака). Принятые меры: выключение и снова включение восстановления - ноль внимания. Снесение системы, установка заново - аналогично. Где копать? Машина хорошая, претензий нет. К виндам во всем остальном - тоже. Железо? Винды? Хитрые дрова? Что?
Обработка таких вопросов значительно более сложна, чем обработка правильно сформированных вопросительных формулировок фактографического характера, которыми является, например, большинство вопросов конференции TREC:
- фокус вопросов в форумах выражен неявно;
- используется множество лишних для поиска слов, точный список которых достаточно трудно определить;
- возможно, в вопросе имеются несколько подвопросов, на которые отвечают разные документы.