Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
Другие стандарты Data Mining
Как уже отмечалось, описанные стандарты являются методологиями Data Mining, т.е. рассматривают организацию процесса и разработку систем Data Mining. Помимо этой группы, в последние годы появился ряд стандартов, цель которых - согласовать достижения в Data Mining, упростить управление моделированием процессов и дальнейшее использование созданных моделей. Эти стандарты условно можно поделить на две категории:
- Стандарты, относящиеся к выработке единого соглашения по хранению и передаче моделей Data Mining.
- Стандарты, относящиеся к унификации интерфейсов.
Стандарт PMML
В предыдущих лекциях мы уже упоминали о стандарте PMML (Predictive Modeling mark-up Language) - языке описания предикторных (или прогнозных) моделей или языке разметки для прогнозного моделирования.
PMML относится к группе стандартов по хранению и передаче моделей Data Mining.
Разработка и внедрение этого стандарта ведется IT-консорциумом DMG (Data Mining Group). DMG [103] - группа, в которую входят все лидирующие компании, разрабатывающие программное обеспечение в области анализа данных.
Основа этого стандарта - язык XML. Примером другого стандарта, также основанного на языке XML, является стандарт обмена статистическими данными и метаданными. Стандарт PMML используется для описания моделей Data Mining и статистических моделей.
Основная цель стандарта PMML - обеспечение возможности обмена моделями данных между программным обеспечением разных разработчиков.
При помощи стандарта PMML -совместимые приложения могут легко обмениваться моделями данных с другими PMML -инструментами. Таким образом, модель, созданная в одном программном продукте, может использоваться для прогнозного моделирования в другом.
По словам сторонников PMML, этот стандарт "делает Data Mining более демократичным", позволяет все большому количеству пользователей пользоваться продуктами Data Mining. Это достигается за счет возможности использования ранее созданных моделей данных. PMML позволяет использовать модели данных сколь угодно часто и существенно помогает в практической работе с ними.
- описание анализируемых данных (структура и типы данных);
- описание схемы анализа (используемые поля данных);
- описание трансформаций данных (например, преобразования типов данных);
- описание статистик, прогнозируемых полей и самих прогнозных моделей.
Стандарт PMML обеспечивает поддержку наиболее распространенных прогнозных моделей, созданных при помощи алгоритмов и методов анализа данных, в частности - нейронных сетей, деревьев решений, алгоритмов ассоциативных правил, кластерного анализа, логических правил и др.
Стандарты, относящиеся к унификации интерфейсов
С помощью стандартов этой группы любое приложение может получить доступ к функциональности Data Mining. Здесь можно выделить стандарты, направленные на стандартизацию интерфейсов для объектных языков программирования, и стандарты, направленные на разработку надстройки над языком SQL.
К стандартам, направленным на стандартизацию интерфейсов для объектных языков программирования, можно отнести: CWM Data Mining, JDM.
В 2000 году организации MDC (MetaData Coalition, www.mdcinfo.com) и OMG (Object Management Group, www.omg.org), разрабатывающие два конкурирующих стандарта - в области интеллектуальных технологий для бизнеса - OIM (Open Information Model) и CWM (Common Warehouse Metamodel) - общую метамодель хранилищ данных решили объединить свои достижения и усилия под управлением OMG. Стандарт CWM включает описание базовых элементов объектной модели, реляционных отношений, языка XML, структуры семантики предметной области, архитектуры OLAP, добычи данных, технологии перегрузки данных и некоторых расширений.
JDM (The Java Data Mining standard - Java Specification Request 73, JSR-73). Стандарт, разработанный группой JSR 73, Java Data Mining API (JDM) - это первая попытка создать стандартный Java API (программный интерфейс приложения) для получения доступа к инструментам Data Mining из Java-приложений.
Вторая группа стандартов направлена на разработку надстройки над языком SQL, которая позволяла бы обращаться к инструментарию Data Mining, встроенному непосредственно в реляционную базу данных. К этой группе можно отнести следующие стандарты: SQL/MM, OLE DB for Data Mining.
Стандарт SQL/MM представляет собой набор определенных пользователем SQL процедур для возможностей вычислений и использований моделей Data Mining.
The OLE DB for Data Mining standard of Microsoft. Этот стандарт позволяет, подобно SQL/MM, применять методы Data Mining в структуре реляционных баз данных. Этот стандарт является расширением OLE DB.
Стандарты, имеющие прямое или опосредованное отношение к Data Mining, можно объединить в группы:
- стандарты, базирующиеся на услугах Data Mining (услуги создания модели управления, скоринговые услуги, услуги анализа данных, услуги исследования данных, статистические услуги моделирования);
- стандарты web-службы (SOAP/XML, WSRF, и т.д), Grid-Услуги (OGSA, OGSA/DAI, и т.д.), Семантические Стандарты Web (RDF, OWL, и т.д.);
- стандарты, которые должны появиться в ближайшее время: стандарты для технологического процесса, стандарты для преобразований данных, стандарты для оперативного (real time) Data Mining, стандарты для сетей данных (data webs).
Как мы видим, стандарты Data Mining развиваются, появляются также новые, имеющие как прямое, так и опосредованное отношение к этой технологии. Это свидетельствует о достаточной "зрелости" Data Mining и вступлении ее в новый этап развития.