Опубликован: 05.11.2008 | Уровень: специалист | Доступ: платный | ВУЗ: Московский государственный университет имени М.В.Ломоносова
Лекция 1:

Введение. Основные определения

Лекция 1: 12 || Лекция 2 >

Цели создания онтологий

В последние годы разработка онтологий - явное формальное описание терминов предметной области и отношений между ними - переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине WWW онтологии стали обычным явлением. Онтологии в сети варьируются от больших таксономий, категоризирующих веб-сайты (как на сайте Yahoo!), до категоризаций продаваемых товаров и их характеристик (как на сайте Amazon.com). Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования и аннотирования информации в своей области.

Например, в области медицины созданы большие стандартные, структурированные словари, такие как SNOMED и семантическая сеть Системы Унифицированного Медицинского Языка (Unified Medical Language System, UMLS). Также появляются обширные общецелевые онтологии. Например, Программа ООН по развитию (the United Nations Development Program) и компания Dun & Bradstreet объединили усилия для разработки онтологии UNSPSC, которая предоставляет терминологию товаров и услуг (unspsc.org).

Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними.

Почему возникает потребность в разработке онтологии? Вот некоторые причины, которые ниже будут рассмотрены подробнее:

  • для совместного использования людьми или программными агентами общего понимания структуры информации;
  • для возможности повторного использования знаний в предметной области;
  • для того чтобы сделать допущения в предметной области явными;
  • для отделения знаний в предметной области от оперативных знаний;
  • для анализа знаний в предметной области.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий. К примеру, пусть несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений.

Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т.д. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам нужно создать большую онтологию, мы можем интегрировать несколько существующих онтологий, описывающих части большой предметной области. Мы также можем повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области.

Создание явных допущений в предметной области, лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, особенно непрограммисту. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области.

Отделение знаний предметной области от оперативных знаний - это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов. После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта.

Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении.

Часто онтология предметной области сама по себе не является целью. Разработка онтологии сродни определению набора данных и их структуры для использования другими программами. Методы решения задач, доменно-независимые приложения и программные агенты используют в качестве данных онтологии и базы знаний, построенные на основе этих онтологий.

Основные темы курса

В данном курсе будут рассмотрены следующие вопросы:

  1. существующие классификации онтологий по различным критериям;
  2. способы сопоставления понятий, содержащихся в онтологиях, и языковых (лексических) выражений;
  3. существующие лингвистические (лексические) онтологии;
  4. применение онтологий в решении различных задач, в частности:
    • онтологии в концепции Semantic Web,
    • онтологии для решения задач информационного поиска,
    • онтологии для интеграции разнородных источников данных;
  5. структура конкретных онтологий, таких как:
    • онтологии верхнего уровня,
    • онтология вина и пищи,
    • онтология в сфере культурного наследия CIDOC CRM;
  6. структура, проблемы и применение наиболее известной лингвистической онтологии WordNet;
  7. традиции использования ресурсов для информационного поиска, таких как информационно-поисковые тезаурусы (ИПТ), которые рассматриваются как вид онтологических ресурсов;
  8. методы использования ИПТ в современных условиях, характеризующиеся значительным преобладанием автоматических режимов обработки текста;
  9. принципы разработки специальных тезаурусов как ресурсов для автоматической обработки текстов, которые соединяют в себе существующие традиции в трех областях создания ресурсов онтологического типа:
    • формальные онтологии,
    • лингвистические онтологии,
    • традиционные информационно-поисковые тезаурусы;
  10. использование тезауруса для автоматической обработки текстов в различных приложениях в области информационного поиска.
Лекция 1: 12 || Лекция 2 >
Алина 2
Алина 2
Россия, г. Москва
Александр Вицентий
Александр Вицентий
Россия