Данные
Измерения
Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.
В процессе подготовки данных измеряется не сам объект, а его характеристики.
Шкала - правило, в соответствии с которым объектам присваиваются числа.
Многие инструменты Data Mining при импорте данных из других источников предлагают выбрать тип шкалы для каждой переменной и/или выбрать тип данных для входных и выходных переменных (символьные, числовые, дискретные и непрерывные). Пользователю такого инструмента необходимо владеть этими понятиями.
Переменные могут являться числовыми данными либо символьными.
Числовые данные, в свою очередь, могут быть дискретными и непрерывными.
Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности.
Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин.
Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность.
Пример непрерывных данных: температура, высота, вес, длина и т.д.
Шкалы
Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая.
Номинальная шкала (nominal scale) - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия.
Номинальная шкала состоит из названий, категорий, имен для классификации и сортировки объектов или наблюдений по некоторому признаку.
Пример такой шкалы: профессии, город проживания, семейное положение.
Для этой шкалы применимы только такие операции: равно (=), не равно ( ).
Порядковая шкала (ordinal scale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними.
Шкала измерений дает возможность ранжировать значения переменных. Измерения же в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой".
Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге.
Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<).
Интервальная шкала (interval scale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла.
Эта шкала позволяет находить разницу между двумя величинами, обладает свойствами номинальной и порядковой шкал, а также позволяет определить количественное изменение признака.
Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше.
Номинальная и порядковая шкалы являются дискретными, а интервальная шкала - непрерывной, она позволяет осуществлять точные измерения признака и производить арифметические операции сложения, вычитания, умножения, деления.
Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-).
Относительная шкала (ratio scale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы.
Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее.
Цена на картофель в супермаркете выше в 1,2 раза, чем цена на базаре.
Относительные и интервальные шкалы являются числовыми.
Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-), умножения (*) и деления (/).
Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории.
Пример такой шкалы: пол (мужской и женский).
Пример использования разных шкал для измерений свойств различных объектов, приведен в таблице данных, изображенной в таблице 2.2.
Номер объекта | Профессия (номинальная шкала) | Средний балл (интервальная шкала) | Образование (порядковая шкала) |
1 | слесарь | 22 | среднее |
2 | ученый | 55 | высшее |
3 | учитель | 47 | высшее |
Пример использования различных шкал для измерений свойств одной системы, в данном случае температурных условий, приведен в таблице данных, изображенной в таблице 2.3.
Дата измерения | Облачность (номинальная шкала) | Температура в 8 часов утра (интервальная шкала) | Сила ветра (порядковая шкала) |
1 сентября | облачно | 22 С | Ветер сильный |
2 сентября | пасмурно | 17 С | Ветер слабый |
3 сентября | ясно | 23 С | Ветер очень сильный |
Выводы. В этой части лекции мы рассмотрели понятие данных, объекта и атрибута, их характеристики.
Также мы обсудили типы шкал. Номинальная шкала описывает объекты или наблюдения в терминах качественных признаков. На один шаг далее идут порядковые шкалы, позволяющие упорядочивать наблюдения или объекты по определенной характеристике. Интервальные и относительные шкалы более сложны, в них возможно определение количественного значения признака.