Процесс Data Mining. Построение и использование модели
Этап 4. Построение модели
После этого отступления займемся снова этапами процесса Data Mining. После окончания этапа подготовки данных можно переходить к построению модели.
Вернемся к задаче, приведенной в лекции № 6 для более подробного изучения процесса моделирования. Напомним, что в примере рассматривалась задача классификации клиентов туристического агентства на два класса: класс 1 (клиенты, предпочитающие более дорогой, семейный отдых) и класс 2 (клиенты, ориентированные на более дешевый, молодежный отдых).
Задача классификации была выбрана для иллюстрации процесса моделирования, поскольку именно этот тип задач предусматривает обязательное деление процесса моделирования на два отдельных этапа: конструирование (построение) модели и ее использование.
На этапе построения модели при помощи некоего классификационного метода или алгоритма была создана модель (классификатор клиентов). В результате построения модели одно из правил, которые мы получили, гласит: "Если ДОХОД>20 и СЕМЕЙНОЕ ПОЛОЖЕНИЕ = "married", то класс "1".
С одной стороны, можно говорить, что построенная модель выделила наиболее существенные (или значимые) факторы с точки зрения решаемой задачи. Для решения задачи классификации наиболее значимыми оказались переменные "доход" и "семейное положение", остальные факторы (т.е. остальные показатели исследуемой базы данных), сколько бы их ни было, оказались маловажными и не были включены в модель.
С другой стороны, данная модель, как и любая другая, может обладать свойством неполноты. Примером неучтенного фактора могут быть, скажем, природные катаклизмы, которые повлияли на желание клиента пользоваться услугами туристического агентства.
Для построения моделей используются различные методы и алгоритмы Data Mining. Некоторые задачи могут быть решены при помощи моделей, построенных на основе различных методов. Идеальной модели, которая бы позволила решать разнообразные задачи, не существует. Поэтому многие разработчики включают в инструменты Data Mining возможность построения различных моделей, многие также обеспечивают возможность расширяемости моделей. Некоторые инструменты Data Mining создаются специально для конкретных областей применения.
Не так давно рабочей группой Data Mining Group был предложен стандарт PMML (Predictive Model Markup Language), который позволяет осуществлять обмен моделями, созданными в приложениях различных поставщиков программного обеспечения Data Mining. Этот стандарт будет подробно рассмотрен в одной из следующих лекций Курса.
Среди большого разнообразия методов Data Mining должен быть выбран метод или же комбинация методов, при использовании которых построенная модель будет наилучшим образом описывать исследуемый объект.
Иногда для выявления искомых закономерностей требуется использование нескольких методов и алгоритмов. В таком случае одни методы используются в начале моделирования, другие - на дальнейших этапах. Пример: для определения однотипных групп клиентов применялся один из методов кластеризации, в результате клиенты были разбиты на группы, каждой из которых, присвоен код; далее мы пользовались методом деревьев решений. Код группы (результат работы предыдущего метода) использовался для интерпретации полученных закономерностей.
Выбор метода, на основе которого будет построена модель, должен осуществляться с учетом постановки задачи, особенностей набора исходных данных, специфики решаемой задачи, результатов, которые должны быть получены на выходе.
Постановка задачи формализует суть задачи, так, наличие входных и выходных переменных при решении задачи классификации определяет выбор одного из методов "обучение с учителем". Наличие лишь входных переменных определяет выбор другого - метода "обучение без учителя".
Среди особенностей исходного набора данных, например, могут быть следующие его характеристики:
- количество записей в наборе;
- соотношение количества записей в наборе данных и количества входных переменных;
- наличие выбросов, ибо некоторые методы особенно чувствительны к наличию выбросов в данных. Этот факт следует учитывать при построении модели на подобных данных.
Как уже упоминалось выше, Data Mining является итеративным процессом.
Итерация - это циклическая управляющая структура, она содержит выбор между альтернативами и следование избранной.
Выбор между альтернативами в нашем случае - это этап оценки модели.
Если модель приемлема, возможно ее использование.
Этапы подготовки данных, построения модели, оценки модели и выбора лучшей представляют собой цикл.
Если по каким-либо причинам построенная модель оказалось неприемлемой, цикл повторяется и следует один из следующих этапов:
- подготовка данных (если причина некорректности модели - в данных);
- построение модели (если причина некорректности - во внутренних параметрах самой модели ).
Для определения специфических свойств исследуемых данных иногда требуется несколько итераций.
Цикл № t-1. Подготовка данных -> построение модели № t-1-> оценка и выбор модели.
Цикл № t. Подготовка данных -> построение модели № t -> оценка и выбор модели.
Цикл № t+1. Подготовка данных -> построение модели № t+1 -> оценка и выбор модели.
Иногда имеет смысл использовать несколько методов параллельно для возможности сравнения и анализа данных с различных точек зрения.