Задачи Data Mining. Прогнозирование и визуализация
Задача визуализации
Визуализация - это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения [25].
С задачей визуализации можно подробно ознакомиться по материалам конференций, среди которых, например, CHI и ACM-SIGGraph, а также в периодической литературе, в частности, по материалам журнала "IEEE Trans. visualization and computer graphics".
В результате использования визуализации создается графический образ данных. Применение визуализации помогает в процессе анализа данных увидеть аномалии, структуры, тренды. При рассмотрении задачи прогнозирования мы использовали графическое представление временного ряда и увидели, что в нем присутствует сезонная компонента. В предыдущей лекции мы рассматривали задачи классификации и кластеризации, и для иллюстрации распределения объектов в двухмерном пространстве также использовали визуализацию.
Можно говорить о том, что применение визуализации является более экономичным: линия тренда или скопления точек на диаграмме рассеивания позволяет аналитику намного быстрее определить закономерности и прийти к нужному решению. Таким образом, здесь идет речь об использовании в Data Mining не символов, а образов.
Главное преимущество визуализации - практически полное отсутствие необходимости в специальной подготовке пользователя. При помощи визуализации ознакомиться с информацией очень легко, достаточно всего лишь бросить на нее взгляд.
Хотя простейшие виды визуализации появились достаточно давно, ее использование сейчас только набирает силу. Визуализация не направлена исключительно на совершенствование техники анализа - по словам Скотта Лейбса, в некоторых случаях визуализация может даже заменить её.
Визуализации данных может быть представлена в виде: графиков, схем, гистограмм, диаграмм и т.д.
Кратко роль визуализации можно описать такими ее возможностями:
- поддержка интерактивного и согласованного исследования;
- помощь в представлении результатов;
- использование глаз (зрения), чтобы создавать зрительные образы и осмысливать их.
Плохая визуализация
Результаты визуализации иногда могут вводить пользователя в заблуждение. Приведем простой пример плохой визуализации. Допустим, мы имеем базу "Прибыль компании А" за период с 2000 по 2005 года, она представлена в табличном виде в таблице 6.1.
год | прибыль |
2000 | 1100 |
2001 | 1101 |
2002 | 1104 |
2003 | 1105 |
2004 | 1106 |
2005 | 1107 |
Построим гистограмму в Excel по этим данным.
Гистограмма представляет собой визуальное изображение распределения данных.
Эта информация отображается при помощи серии прямоугольников или полос одинаковой ширины, высота которых указывает количество данных в каждом классе.
Используя все значения построения графика, принятые по умолчанию, получаем гистограмму, приведенную на рис. 6.4.
Данный рисунок демонстрирует значительный рост прибыли компании А за период с 2000 по 2005 года. Однако, если мы обратим внимание на ось y, показывающую величину прибыли, то увидим, что эта ось пересекает ось x в значении, равном 1096. Фактически, ось y со значениями от 1096 до 1108 вводит пользователя в заблуждение. Изменив значения параметров, отвечающих за формат оси y, получаем график, приведенный на рис. 6.5.
Ось у со значениями от 0 до 2000 дает пользователю правильную информацию о незначительном изменении прибыли компании.
Если речь идет о большой размерности и сложности исходных данных, средства визуализации обеспечивают их резкое уменьшение, конденсируя, быть может, миллионы записей данных в простые, легкие для понимания и манипулирования представления [26]. Такие представления называют визуальным или графическим способом представления информации. Визуализацию можно считать ключевым фактором в исследовании данных, полученных при помощи инструментов Data Mining. В таких случаях говорят о визуальном Data Mining.
Методы визуализации, среди которых представления информации в одно-, двух-, трехмерном и более измерениях, а также другие способы отображения информации, например, параллельные координаты, "лица Чернова", будут рассмотрены в следующем разделе курса.