Рынок инструментов Data Mining
Программное обеспечение Data Mining для поиска ассоциативных правил
- Azmy SuperQuery (http://www.azmy.com/), поисковик ассоциативных правил;
- Clementine, набор от SPSS, включающий анализ рыночной корзины;
- IBM Intelligent Miner for Data (http://www.software.ibm.com/data/intelli-mine/);
- IREX (http://www.giwebb.com), сегментирование данных с целью оптимизации числовых результатов, например, прибыли;
- The LPA Data Mining Toolkit (http://www.lpa.co.uk/dtm.htm) поддерживает поиск ассоциативных правил в реляционных базах данных.
- Magnum Opus (http://www.rulequest.com/MagnumOpus-info.html) является быстрым инструментом поиска ассоциативных правил в данных, поддерживается операционными системами Windows, Linux и Solaris;
- Nuggets (http://www.data-mine.com/) - это набор, включающий поиск ассоциативных правил и другие алгоритмы;
- Megaputer Polyanalyst Suite (http://www.megaputer.com/), включает машину поиска ассоциативных правил;
- Purple Insight MineSet является набором визуального Data Mining, включающим визуализатор ассоциативных правил;
- Wizsoft модуль WizRule: нахождение ассоциативных правил и потенциальных ошибок данных; модуль WizWhy: использует ассоциативные правила для Data Mining;
- Xpertrule Miner 4.0 (http://www.attar.com/);
- XAffinity(TM), используется для идентификации сходств или шаблонов в транзакциях.
Свободно распространяемые инструменты:
- Apriori, инструмент для нахождения ассоциативных правил при помощи алгоритма Аpriori;
- Apriori, FP-growth, Eclat and DIC implementations (http://www.adrem.ua.ac.be/) by Bart Goethals;
- ARtool (http://www.cs.umb.edu/), инструмент содержит набор алгоритмов для поиска ассоциативных правил в бинарных базах данных (binary databases);
- DM-II system (http://www.comp.nus.edu.sg/), инструмент включает алгоритм CBA для выполнения классификации на основе ассоциативных правил и некоторых других характеристик;
- FIMI, Frequent Itemset Mining Implementations (http://fimi.cs.helsinki.fi/) - является репозиторием, включающим программное обеспечение и базы данных.
Программное обеспечение для решения задач кластеризации и сегментации
- ClustanGraphics3, (http://www.clustan.com/) иерархический кластерный анализ "сверху вниз", поддерживаются мощные графические возможности, www.clustan.com;
- CViz Cluster Visualization, (http://www.alphaworks.ibm.com/tech/cviz)-продукт для анализа наборов данных с большой размерностью, обеспечивает визуализацию наполнения кластеров объектами;
- IBM Intelligent Miner for Data, (http://www-4.ibm.com/software/data/iminer/), включает два кластерных алгоритма;
- Neusciences aXi.Kohonen, (http://www.neusciences.com/), ActiveX Control для кластеризации алгоритмом Кохонена, включает Delphi-интерфейс;
- PolyAnalyst, (http://www.megaputer.com/), предлагает кластеризацию, основанную на алгоритме локализации аномалий (Localization of Anomalies, LA);
- StarProbe, (http://www.roselladb.com/starprobe.htm) основан на Web кросс-платформенной системе, включает методы кластеризации, нейронные сети, деревья решений, визуализацию и т.д.;
- Visipoint (http://www.visipoint.fi/). Кластеризация методом Самоорганизующихся Карт Кохонена (Self-Organizing Map clustering) и визуализация.
Свободно распространяемые инструменты:
- Autoclass C (http://ic.arc.nasa.gov/projects/bayes-group/autoclass/autoclass-c-program.html, http://ic.arc.nasa.gov), "обучение без учителя" при помощи Байесовских сетей от NASA, работает из-под операционных систем Unix и Windows;
- CLUTO (http://www.cs.umn.edu/~karypis/cluto, http://www.cs.umn.edu/~karypis/cluto). В инструменте реализован набор алгоритмов кластеризации, основанных на разделении данных;
- Databionic ESOM Tools (http://databionic-esom.sourceforge.net/). Инструмент представлен набором программ для кластеризации, визуализации и классификации, реализован алгоритм ESOM - выходящие самоорганизующиеся карты;
- MCLUST/EMCLUST (http://www.stat.washington.edu/fraley/mclust_home.html). В инструменте реализовано создание кластеров при помощи модельного подхода (model-based) и дискриминантного анализа, иерархическая кластеризация. Программная реализация инструмента - на Фортране с интерфейсом к S-PLUS;
- PermutMatrix (http://www.lirmm.fr/). Программное обеспечение для кластерного анализа, с хорошими графическими возможностями, здесь реализовано несколько методов иерархического кластерного анализа;
- PROXIMUS (http://www.cs.purdue.edu/homes/koyuturk/proximus/). Инструмент для сжатия размерности, кластеризации и обнаружения образцов в дискретных наборах данных;
- ReCkless (http://cde.iiit.net/RNNs/) является набором кластерных алгоритмов, основанных на концепции k-ближайших соседей. Инструмент перед проведением кластеризации выполняет поиск и идентификацию шумов и выбросов для уменьшения их влияния на результаты кластеризации;
- Snob (http://www.csse.monash.edu.au/), программа кластеризации на основе MML (Minimum Message Length - Минимальная Длина Сообщения);
- SOM in Excel (http://www.geocities.com/adotsaha/NN/SOMinExcel.html), реализация метода самоорганизующихся карт Кохонена в Microsoft Excel от Angshuman Saha.
Как видим из описания, многие программные продукты совмещают в себе реализацию нескольких методов, в частности, очень часто вместе с кластерными методами также реализованы и методы визуализации. Некоторые инструменты ориентированы на работу только с дискретными данными. Это следует учитывать при выборе программного обеспечения.
Программное обеспечение для решения задач классификации
Существует множество инструментов для решения задач классификации. Инструменты этой группы строят модели, которые делят исходный набор данных на 2 или более дискретных класса. Инструменты классификации, в соответствии с используемыми методами, делятся на следующие категории: правила, деревья решений, нейронные сети, Байесовские сети, метод опорных векторов и другие. Этот список практически соответствует тому набору методов классификации, который был рассмотрен во втором разделе курса лекций.
Программное обеспечение Data Mining для решения задач оценивания и прогнозирования
Примером коммерческого программного обеспечения этой группы является инструмент Alyuda Forecaster XL (http://www.alyuda.com/forecasting-tool-for-excel.htm).
Инструмент реализован в виде Excel-надстройки и предназначен для решения задач прогнозирования и оценивания с использованием нейронных сетей.
Подобный инструмент от российских разработчиков - фирмы НейрОК - Excel-надстройка ExcelNeuralPackage (http://www.neurok.ru/demo/enp/demo_enp.htm).
В инструменте реализованы две базовые парадигмы нейронных сетей - многослойный персептрон и сети Кохонена. С указанной страницы можно загрузить free-версию и подробное руководство пользователя.
Выводы
Как мы видим, рынок программного обеспечения Data Mining представлен множеством инструментов, на нем идет постоянная конкурентная борьба за потребителя. Такая конкуренция порождает новые качественные решения. Все большее число поставщиков стремятся объединить в своих инструментах как можно большее число современных методов и технологий. Data Mining-инструменты чаще всего рассматриваются как составная часть рынка Business Intelligence, который, несмотря на некоторый общий спад в индустрии информационных технологий, уверенно и постоянно развивается.
В то же время некоторые специалисты отмечают отставание существующего программного обеспечения от теоретических разработок в связи со сложностью программной реализации некоторых новых теоретических разработок методов и алгоритмов Data Mining.
В целом, можно резюмировать, что рынок Business Intelligence, в том числе рынок инструментов Data Mining, настолько широк и разнообразен, что любая компания может выбрать для себя инструмент, который подойдет ей по функциональности и по возможностям бюджета.