Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1337 / 258 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 8:

Лингвистическая онтология WordNet

< Лекция 7 || Лекция 8: 123456 || Лекция 9 >

8.4. WordNet: проблемы использования в автоматической обработке текстов

Смешение типов и ролей

Одной из серьезных проблем, приводящих к неправильным путям иерархии, является проблема установления таких отношений, когда вышестоящее понятие частично характеризует нижестоящее. Часто это связано с проблемой смешения понятий-типов и понятий-ролей.

Так, например, Никола Гуарино критикует отношения в WordNet: "Человек всегда живое существо, но он (она) начинает играть роль каузального агента только в некоторых ситуациях. Та же проблема возникает для яблока, которое всегда плод растения, а в некоторых ситуациях может быть пищей. Проблема в том, что человек и яблоко - это типы сущностей, в то время как каузальный агент и пища - это роли".

Один из аргументов в пользу различения типов и ролей в лингвистических онтологиях - это то, что они различаются в способах наследования свойств. WordNet не различает эти два типа понятий и помещает их в одни и те же иерархии.

В соответствии с онтологическими подходами понятия-типы не должны находиться в иерархиях ниже понятий-ролей. Более радикальный подход заключается в том, чтобы разделить иерархии типов и ролей.

Одна из авторов WordNet, Кристиан Фелбаум, отвечая на эту критику Н. Гуарино, заявляет, что в таких ресурсах, как WordNet, неоднородные классификации имеют право на существование, поскольку такие ресурсы рассматриваются в настоящее время прежде всего как инструменты для компьютерной обработки текстов, а не только как совершенные онтологии, которые должны соответствовать строгим онтологическим принципам.

Вместе с тем важно подчеркнуть, что описание понятий-типов ниже понятий-ролей, то есть установление связей между понятиями, которые выполняются не в любых контекстах, а лишь при некоторых условиях, приводит к ложному срабатыванию этих связей, к неправильному выводу как раз при автоматической обработке текстов.

Многозначность в WordNet

Во многих работах признается, что различия значений в WordNet слишком тонки для таких компьютерных приложений, как машинный перевод, информационный поиск, классификация текстов, вопросно-ответные системы и др. Среднее количество значений в WordNet больше, чем в традиционных лексикографических словарях.

Поэтому выполнен ряд исследований, чтобы разобраться, нельзя ли автоматически, на основе каких-либо разумных принципов собрать некоторые значения многозначных слов в кластеры и далее не различать эти значения.

Проблема лексической многозначности и информационный поиск

В частности, исследовался вопрос, какая группировка значений была бы полезной для задач информационного поиска. Предполагается, что некоторые значения могут быть кластеризованы для разных приложений; в то же время существуют примеры пар значений, кластеризация которых была бы полезна в информационно-поисковых приложениях, при этом в других приложениях было бы полезно их различать.

Отмечается, что исследования регулярной многозначности не приводят к выделению полезных кластеров для информационно-поисковых задач, поскольку, как представляется авторам, некоторые образцы регулярной полисемии хорошо бы не различать для задач информационного поиска, в то время как другие хорошо бы сохранить отдельно. Так, например, полезно было бы кластеризовать такие пары регулярной полисемии, как container / quantity и music / dance. Однако такие образцы, как animal / food, plant / food, animal / skin, language / people хорошо бы различать, поскольку, как представляется, они употребляются в разных типах текстов.

Поэтому нужны дополнительные исследования критериев кластеризации значений для информационно-поисковых задач.

Далее сравниваются два дополнительных критерия группировки значений. Первый критерий заключается в том, чтобы группировать значения, которые встречаются в одних и тех же текстах. Для этого используется семантически размеченный корпус SemCor. Второй критерий группирует значения, которые получают одни и те же переводы в нескольких разных языках. Пересечение кластеров, построенных на основе этих двух критериев, составляет 55-60%, что показывает некоторую корреляцию между кластерами, но оставляет сомнения в полезности каждого из критериев.

Проведенные эксперименты по кластеризации значений привели к выводу, что типология отношения между разными значениями многозначных слов является более полезной, чем формирование кластеров значений, поскольку близость значений зависит от приложения.

Например, указание, что одно из значений является метафорой исходного значения, является важным для приложений информационного поиска и вопросно-ответных систем, поскольку относится к разным семантическим полям. Однако для приложений машинного перевода это различие может быть несущественно, поскольку метафорический перенос может быть сходным в разных языках. В ворднетах нужно в явном виде описать отношения между значениями для того, чтобы ворднеты стали стандартом лексических ресурсов для компьютерных приложений.

Современные версии WordNet содержат для каждого многозначного слова указание на самое частотное значение по корпусу SemCor, что дает возможность, в случае проблем при процедуре автоматического разрешения многозначности, выбирать это самое частотное значение.

Теннисная проблема

Одной из серьезных проблем WordNet, препятствующей его использованию в приложениях, является так называемая "теннисная проблема": синсеты, принадлежащие одной предметной области, сфере деятельности или ситуации - оказываются очень далеко друг от друга в структуре WordNet.

Предлагалось решать данную проблему введением в WordNet информации о принадлежности синсетов определенным доменам. Домены, такие как "теннис", "политика" или "образование", группируют синсеты в сценарии или схемы. Так, домен "теннис" включает такие синсеты, как "гейм", "теннисный мяч", "теннисная ракетка", "тайм-брейк" и т.д.

Предполагается, что введение доменов должно быть особенно полезно для информационно-поисковых задач.

Разработка иерархической системы доменов началась с 250 рубрик, собранных по различным словарям, и затем была дополнена и уточнена на базе Десятичной классификации Дьюи. Была получена иерархия из 115 доменов, организованных по 4 уровням иерархии, которая включала, например, такие домены, как "сельское хозяйство", "археология", "астрология", "биология", "ветеринария" и др.

Авторы подчеркивают, что в WordNet имеются синсеты, которые не принадлежат никаким доменам, поскольку могут употребляться в текстах многих предметных областей. Для таких синсетов была введена специальная предметная область, называемая FACTOTUM.

Для того чтобы разметить все множество синсетов WordNet, была реализована автоматизированная процедура, состоящая из следующих шагов:

  1. вручную размечается относительно небольшое количество синсетов верхнего уровня;
  2. автоматически по связям (гипонимия, тропонимия, меронимия, антонимия) пометки распространяются на другие синсеты;
  3. можно задать исключения, например, для синсета " кресло парикмахера " (" barber_chair "), которое хотя и является частью парикмахерской (" barbershop "), не должно быть отнесено к домену КОММЕРЦИЯ ( COMMERCE ).

Эксперименты с доменами в ворднетах были продолжены и в следующем европейском проекте, связанном с ворднетами, - Meaning, в котором 165 иерархически организованных доменов были автоматизированно приписаны всем синсетам WordNet.

Авторы также подчеркивают полезность разметки синсетов доменами для автоматического разрешения лексической многозначности.

Вместе с тем остаются вопросы по отношению к введению в систему, построенную на основе одних единиц, набора других единиц с неопределенным относительно исходных единиц статусом, среди которых:

  • вариативность возможного набора областей;
  • небольшая наполненность некоторых доменов, и большое количество синсетов в других доменах:
  • необходимость разных систем доменов для разных задач;
  • отсутствие полностью выверенного набора доменов (выверять вручную очень трудоемко, а если выверять в процессе решения различных задач, то далеко не все проблемы (неточности, ошибки, приписки) удастся быстро обнаружить).

Представление толкований WordNet в виде логических выражений: проект eXtended WordNet

Многие исследователи отмечают нехватку информации, описанной в WordNet, для различения значений, в нем перечисленных.

В рамках проекта eXtended WordNet разработчики предполагают, что важным источником дополнительной информации могут стать толкования, приписанные к синсетам WordNet. Для того чтобы эти толкования можно было использовать в автоматических режимах компьютерных приложений, необходимо каждому знаменательному слову толкований сопоставить его значение-синсет и представить это толкование в виде формализованного выражения.

Разрешение лексической многозначности

Поскольку стало ясно, что применению таких ресурсов, как WordNet, препятствует такая проблема, как недостаточная эффективность разрешения лексической многозначности, эта проблема получила отдельную значимость.

Была организована специальная конференция, посвященная проблеме разрешения лексической многозначности - Конференция SENSEVAL.

Первая конференция по оценке методов разрешения лексической многозначности SENSEVAL состоялась в 1998 году, охватывала три языка, в ней приняли участие 25 исследовательских групп. Вторая состоялась в 2001 году, имела задания на 12 языках; в ней участвовали 35 исследовательских групп и более 90 систем.

Контрольные вопросы

  1. Каковы проблемы, возникающие при использовании WordNet для автоматической обработки текста?
  2. Опишите проблему лексической многозначности.
  3. Как в WordNet происходит разрешение многозначности?
< Лекция 7 || Лекция 8: 123456 || Лекция 9 >