Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Многомерный статистический анализ
9.2. Восстановление линейной зависимости между двумя переменными
Начнем с задачи точечного и доверительного оценивания линейной функции одной переменной.
Исходные данные - набор пар чисел
, где
- независимая переменная (например, время), а
- зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью
![x_k=a(t_k-t_{cp})+b+e_k, k=1,2,...,n,](/sites/default/files/tex_cache/5a77e27b1e49f0a16ac2775f2c376dde.png)
![a](/sites/default/files/tex_cache/0cc175b9c0f1b6a831c399e269772661.png)
![b](/sites/default/files/tex_cache/92eb5ffee6ae2fec3ad71c777531578f.png)
![e_k](/sites/default/files/tex_cache/311d95a59af6dd43031e7f9eef946c4f.png)
![t_{cp}=(t_1+t_2+...+t_n)/n](/sites/default/files/tex_cache/b2eb4926fab88d4325f594d5f46308f8.png)
Обычно оценивают параметры и
линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют, например, для точечного и интервального прогнозирования.
Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость от
, следует рассмотреть функцию двух переменных
![f(x,b)=\sum_{i=1}^n(x_i-a(t_i-t_{cp})-b)^2.](/sites/default/files/tex_cache/5df31d026be94ca82ca705bfa01d2c0b.png)
Оценки метода наименьших квадратов - это такие значения и
, при которых функция
достигает минимума по всем значениям аргументов.
Чтобы найти эти оценки, надо вычислить частные производные от функции по аргументам
и
, приравнять их 0, затем из полученных уравнений найти оценки. Имеем:
![\begin{gathered}
\frac{\partial f(a,b)}{\partial a}=\sum_{i=1}^n 2(x_i-a(t_i-t_{cp})-b)(-(t_i-t_{cp})), \\
\frac{\partial f(a,b)}{\partial b}=\sum_{i=1}^n 2(x_i-a(t_i-t_{cp})-b)(-1).
\end{gathered}](/sites/default/files/tex_cache/87e8ea29a70971f1a4bff51c24bafd01.png)
Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:
![\begin{gathered}
\frac{\partial f(a,b)}{\partial a}=(-2)(\sum_{i=1}^n x_i(t_i-t_{cp})
-a\sum_{i=1}^n(t_i-t_{cp})^2-b\sum_{i=1}^n(t_i-t_{cp})), \\
\frac{\partial f(a,b)}{\partial b}=(-2)(\sum_{i=1}^n x_i
-a\sum_{i=1}^n(t_i-t_{cp})-bn).
\end{gathered}](/sites/default/files/tex_cache/5a842d243240e98ea7c171c89eb0d9b7.png)
Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку
![]() |
( 1) |
![\sum_{i=1}^n x_i(t_i-t_{cp})-a\sum_{i=1}^n (t_i-t_{cp})^2=0,\;
\sum_{i=1}^n x_i-bn=0.](/sites/default/files/tex_cache/5e7012e53654e3f2e765e51146528654.png)
Следовательно, оценки метода наименьших квадратов имеют вид
![]() |
( 2) |
В силу соотношения (1) оценку можно записать в более симметричном виде:
![]() |
( 3) |
Эту оценку нетрудно преобразовать и к виду
![]() |
( 4) |
Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид
![x^*(t)=a^*(t-t_{cp})+b*.](/sites/default/files/tex_cache/a27e8464d79fae6b0424cad60d936e93.png)
Обратим внимание на то, что использование в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида
![x_k=ct_k+d+e_k, k=1,2,...,n.](/sites/default/files/tex_cache/7bd2f6fa0e90c095a3229f3ac993c533.png)
Ясно, что
![c=a, d=b-at_{cp}.](/sites/default/files/tex_cache/49acc68530f3d72b810e4e3c70818e2f.png)
Аналогичным образом связаны оценки параметров:
![c^*=a^*, d^*=b^*-a^*t_cp.](/sites/default/files/tex_cache/fe9a983106d275e92ff461a98d214e7c.png)
Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для и
, подобная модель необходима.
Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности , - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией
неизвестной статистику.
В дальнейшем неоднократно будем использовать Центральную предельную теорему (ЦПТ) теории вероятностей для величин (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности
, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.
Асимптотические распределения оценок параметров. Из формулы (2) следует, что
![]() |
( 5) |
Согласно ЦПТ оценка имеет асимптотически нормальное распределение с математическим ожиданием
и дисперсией
оценка которой приводится ниже.
Из формул (2) и (5) вытекает, что
![\begin{aligned}
&x_i-x_{cp}=a(t_i-t_{cp})+b+e_i-b=\frac{1}{n}\sum_{i=1}^n e_i, \\
&(x_i-x_{cp})(t_i-t_{cp})=a(t_i-t_{cp})^2+e_i(t_i-t_{cp})-\frac{(t_i-t_{cp})}{n}\sum_{i=1}^n e_i.
\end{aligned}](/sites/default/files/tex_cache/15baedbc9d3c039f6952993ee492c433.png)
Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что
![]() |
( 6) |
Формула (6) показывает, что оценка является асимптотически нормальной с математическим ожиданием и дисперсией
![D(a^*)=\sum_{i=1}^n c_i^2 D(e_i)=\frac{\sigma^2}{\sum\limits_{i=1}^n(t_i-t_{cp})^2}.](/sites/default/files/tex_cache/a4a64b926131615ca11a111572937681.png)
Отметим, что многомерная нормальность имеет место, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.
![\lim_{n\rightarrow\infty}\max_{1\le i\le n}|t_i-t_{cp}|/
\left\{
\sum_{i=1}^n(t_i-t_{cp})^2
\right\}^{1/2}.](/sites/default/files/tex_cache/43003544b4786eadef210753c7041628.png)
Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.
Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в "Статистический анализ числовых величин" ) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.
Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что
![M(x^*(t))=M\{a^*(t-t_{cp})+b^*\}=M(a^*)(t-t_{cp})+M(b^*)=a(t-t_{cp})+b=x(t),](/sites/default/files/tex_cache/8968952d02b8da486a15e0678b490a05.png)
![D(x^*(t))=D(a^*)(t-t_{cp})^2+2M\{(a^*-a)(b^*-b)(t-t_{cp})\}+D(b^*).](/sites/default/files/tex_cache/795b74dab2f01b6cbaf43a3a6e2fcac2.png)
При этом, поскольку погрешности независимы в совокупности и , то
![M\{(a^*-a)(b^*-b)(t-t_{cp})\}=frac{1}{n}\sum_{i=1}^n c_i(t-t_{cp})M(e_i^2)=
\frac{1}{n}(t-t_{cp})\sigma^2\sum_{i=1}^n c_i=0.](/sites/default/files/tex_cache/9d4618969a53d74ea693e441f4264468.png)
Таким образом,
![D(x^*(t))=\sigma^2
\left\{
\frac{1}{n}+\frac{(t-t_{cp})^2}{\sum\limits_{i=1}^n(t_i-t_{cp})^2}
\right\}.](/sites/default/files/tex_cache/e6c78fb1104101ca6f5c935597248128.png)
Итак, оценка является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию
.