Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистика нечисловых данных
11.3. Теория люсианов
Асимптотика растущей размерности и проверяемые гипотезы. Продолжим изучение модели порождения данных (6) - (7) предыдущего параграфа. Будем использовать асимптотику . При этом число неизвестных параметров растет пропорционально объему данных.
В последние десятилетия (с начала 1970-х годов) в прикладной статистике все большее распространение получают постановки, в которых число неизвестных параметров растет вместе с объемом выборки. Результаты, полученные в подобных постановках, называют найденными "в асимптотике растущей размерности" или "в асимптотике А.Н.Колмогорова" [ [ 5.15 ] ], перенося терминологию исследований по дискриминантному анализу на общий случай. Как известно, в задаче дискриминации в две совокупности академик АН СССР А.Н. Колмогоров (1903 - 1987) предложил рассматривать асимптотику





Пусть - независимые (между собой) люсианы с векторами параметров
соответственно. Гипотезой согласованности будем называть гипотезу
![]() |
( 1) |
Для ранжировок и разбиений под согласованностью понимают более частную гипотезу, предполагающую отрицание равномерности распределений (т.е. одинаковой вероятности появления каждой возможной ранжировки или разбиения), что соответствует замене проверки гипотезы (1) на проверку гипотезы
![]() |
( 2) |
Как разъяснено в [ [ 1.15 ] , [ 11.21 ] ], гипотеза (1) более адекватна конкретным задачам обработки реальных данных, например, экспертных оценок, чем (2). Поэтому полученные от экспертов данные, содержащие противоречия, целесообразно рассматривать как люсианы и проверять гипотезу (1), а не подбирать ближайшие ранжировки или разбиения, после чего проверять согласованность методами теории случайных ранжировок или разбиений, как иногда рекомендуется.
Пусть и
- независимые в совокупности люсианы длины
, одинаково распределенные в каждой группе с параметрами
и
соответственно. Гипотезой однородности называется гипотеза

В асимптотике растущей размерности принимаем, что и
постоянны, а
.
Пусть - последовательность (фиксированной длины) пар люсианов. Пары предполагаются независимыми между собой. Требуется проверить гипотезу независимости
и
, т.е. внутри пар. В ранее введенных обозначениях гипотеза независимости - это гипотеза


В настоящем параграфе излагается метод проверки гипотез о люсианах в асимптотике растущей размерности на примере гипотезы согласованности. Эти результаты получены в [ [ 1.15 ] , [ 5.13 ] , [ 5.15 ] ]. Дальнейшее изучение проведено нашими учениками Г.В. Рыдановой, Т.Н. Дылько, Г.В. Раушенбахом, О.В. Филипповым, А.М. Никифоровым и др. Гипотеза однородности рассмотрена, например, в [ [ 5.13 ] ]. Методы проверки гипотезы однородности люсианов развиты и изучены Г.В. Рыдановой [ [ 11.34 ] ] на основе описанного ниже подхода. Она, помимо доказательства предельных теорем, подробно изучила скорость сходимости методом статистических испытаний.
Методы проверки согласованности люсианов нашли практическое применение, в частности, в медицине. Они были использованы в кардиологии при анализе данных кинетотопографии [ [ 11.1 ] , [ 5.13 ] , [ 11.32 ] ]. Эти методы включены в методические рекомендации Академии медицинских наук СССР и Ученого медицинского совета Минздрава СССР по управлению научными медицинскими исследованиями [ [ 11.18 ] ].
. Будем использовать дальнейшее развитие метода, описанного в 7.4. Почему нельзя использовать иные подходы, имеющиеся в математической статистике? Поскольку число неизвестных параметров растет вместе с объемом выборки и пропорционально ему, эти параметры не являются мешающими. Отметим, что согласно [
[
11.13
]
] равномерно наиболее мощных критериев не существует, поскольку параметров много. Не останавливаясь на других подходах математической статистики, констатируем необходимость применения метода проверки гипотез по совокупности малых выборок.
Пусть имеются выборок, независимых между собой. Пусть при справедливости нулевой гипотезы по каждой из выборок можно построить несмещенную оценку
векторного нуля
, где
. Другими словами, пусть распределение
-ой выборки описывается параметром
, лежащим в произвольном пространстве, а нулевая гипотеза, очевидно, состоит в том, что
, где
- собственное подмножество множества
. Предполагается, что можно по
-ой выборке вычислить статистику
такую, что
![]() |
( 3) |




![]() |
( 4) |
В теории математической статистики иногда используют понятие полноты параметрического семейства распределений. Если рассматриваемое семейство является полным - а так и есть для люсианов, - то не существует достаточной статистики, удовлетворяющей одновременно условиям (3) и (4) (см., например, [
[
11.4
]
,
2.12-2.14]). Поэтому будем использовать статистики, не являющиеся достаточными.
Следующее предположение - ковариационные матрицы статистик , т.е.
, также допускают несмещенные оценки
по тем же выборкам:
![]() |
( 5) |

Рассматриваемый метод основан на том, что поскольку случайные векторы определяются по независимым между собой выборкам, то
независимы в совокупности, а потому случайный вектор
![]() |
( 6) |

При справедливости многомерной центральной предельной теоремы (простейшее условие справедливости этой теоремы для в случае люсианов - отделенность от 0 и 1 всех элементов матриц
, равномерная по
и
) вектор
является асимптотически нормальным, т.е. при
распределение
сближается (в смысле, раскрытом в
"Теоретическая база прикладной статистики"
) с многомерным нормальным распределением
).
Однако эту сходимость нельзя непосредственно использовать для проверки исходной гипотезы, поскольку матрица неизвестна статистику. Необходимо оценить эту матрицу по статистическим данным. В силу (5) в качестве оценки
естественно использовать

Простейшая формулировка условий справедливости такой замены - предположение о том, что к последовательности можно применить закон больших чисел. А именно, пусть существует неотрицательно определенная матрица
такая, что при
![]() |
( 7) |
В силу результатов
"Теоретическая база прикладной статистики"
из асимптотической нормальности и соотношений (7) следует, что распределение статистики












Отклонения от нулевой гипотезы приводят, как правило, к нарушению равенств (3) и (4). Случайный вектор ? при этом обычно остается асимптотически нормальным, но с другими параметрами, что может быть обычным образом использовано для построения оптимального решающего правила, соответствующего заданной альтернативе (например, согласно лемме Неймана-Пирсона). Поведение при альтернативах для некоторых гипотез изучено в [ ,
], здесь его не будем рассматривать, поскольку вычисление мощности не требует новых идей.
Несмещенные оценки параметров асимптотического распределения вектора попарных расстояний. Применим описанный выше метод для проверки гипотезы согласованности люсианов. Исходные данные - люсианы

В качестве -й выборки возьмем совокупность испытаний Бернулли, стоящих на
-м месте в рассматриваемых люсианах:
![]() |
( 8) |
При справедливости нулевой гипотезы в (8) стоят независимые испытания Бернулли с одной и той же вероятностью успеха ; при нарушении нулевой гипотезы согласованности независимость испытаний Бернулли сохраняется, но вероятности успеха могут различаться.
В качестве вектора , на основе которого строятся статистики для проверки согласованности, будем использовать вектор попарных расстояний между люсианами
![]() |
( 9) |

![]() |
( 10) |
В
"Различные виды статистических данных"
это расстояние выведено из некоторой системы аксиом (напомним, что совокупность векторов из 0 и 1 размерности находится во взаимнооднозначном соответствии с совокупностью подмножеств множества из
элементов; при этом 1 соответствует тому, что элемент входит в подмножество, а 0 - что не входит).
Из вида расстояния в формуле (10) следует, что введенный в (9) вектор имеет вид (6) с
![]() |
( 11) |
Следовательно, для применения описанного выше метода проверки гипотез о люсианах в асимптотике растущей размерности достаточно построить на основе вектора из (11) несмещенную оценку 0 и найти несмещенную оценку ковариационной матрицы этой оценки.
Чтобы применить общую схему, необходимо начать с построения статистики такой, чтобы при всех
имело место равенство

Элементарный расчет дает:

Как известно [ [ 11.14 ] , с.56-57], несмещенная оценка многочлена



![]() |
( 12) |


![n^{[h]} = n(n - 1)...(n - h + 1).](/sites/default/files/tex_cache/4511e6e65c66201b187b3de409c1f3c8.png)
Ясно, что многочлены степени и более высокой невозможно несмещенно оценить по результатам
испытаний.
В случае в соответствии с (12) получаем несмещенную оценку
![]() |
( 13) |
Таким образом, можно применять общий метод проверки гипотез о люсианах в асимптотике растущей размерности с








Для использования статистики типа , распределение которой приближается с помощью нормального распределения




Вычисление матрицы хотя и трудоемко, но не содержит каких-либо принципиальных трудностей. В [
[
5.13
]
] вычислены диагональные элементы рассматриваемой матрицы. Вычисление занимает около 2,5 страниц (с.299-301), Поэтому здесь приведен только окончательный итог.
Обозначим для краткости . В [
[
5.13
]
] показано, что

Если двухэлементные множества и
не имеют ни одного общего элемента, то


С помощью формулы (12) получаем несмещенные оценки для и
как многочленов от
:

С помощью трех чисел выписывается несмещенная оценка матрицы ковариаций вектора
, которую обозначим
. Тогда асимптотически нормальный вектор
имеет нулевое математическое ожидание и ковариационную матрицу, несмещенно и состоятельно (в смысле соотношений (7)) оцениваемую с помощью
![]() |
( 14) |
Асимптотическая нормальность доказывается, естественно, в схеме серий. Достаточным условием является существование положительной константы такой, что
![]() |
( 15) |


Поскольку и
являются многочленами четвертой степени от
, то несмещенные оценки для них существуют при
. Если же
, то несмещенных оценок не существует. Поэтому указанным методом проверять согласованность можно лишь при числе люсианов
.