Тема 6. Статистическая проверка гипотез

1.    Проверка статической гипотезы

2.    Критерий  Пирсона

Наиболее часто возникающей задачей при исследовании данных некоторой случайной величины  заключается в определении ее функции распределения .

По некоторым предварительным соображениям пусть можно сделать предположение (гипотезу) о неизвестной функции распределения . Например, что она имеет вполне определенный вид  или ,  - неизвестные параметры, которые обычно приходится заранее оценить. Задачей математической статистики является проверка согласованности имеющихся выборочных данных  с выдвигаемой гипотезой.

Для проверки этой цели необходимо разрабатывать специальные критерии.

В общем виде процедуру проверки статистической гипотезы можно сформулировать следующим образом.

Итак, имеется выборка

                                  (1)

1. По этой выборке вычисляем выборочные характеристики , , моду, медиану, эмпирическую функцию распределения  и другие параметры выборки по необходимости.

2. Строится неотрицательная функция, которая, представляет собой некоторую меру отличия между эмпирической функцией  и предполагаемой теоретической (гипотетической) функцией : . Эта функция есть случайная величина. В предположении того, что выдвинутая гипотеза верна, можно найти распределение случайной величины . Функция  называется критерием. Меру отличия  можно, вообще говоря, выбирать разными способами. Таким образом, для проверки выдвинутой гипотезы могут существовать различные критерии.

3. Задается малое число , настолько малое, что появление события  с вероятностью  можно считать практически невозможным:  - называется уровнем значимости;  - определяется из равенства  в соответствии с вероятностным распределением критерия  и называется критическим значением или пределом значимости. Область, определяемая неравенством , называется критической областью.

4. По выборке (1) вычисляется так называемое наблюдаемое значение  критерия  и сравнивают с критическим значением .

Если окажется, что , то это означает, что происходит событие с малой вероятностью , т. е. практически невозможное событие. Таким образом, наша гипотеза о равенстве  приводит к противоречивому результату – происходит невозможное событие и, поэтому, гипотезу опровергают.

Если , то считают, что нет оснований опровергнуть выдвинутую гипотезу и ее принимают. Гипотезу обозначают: .

Отметим следующее: событие  может произойти, в принципе, и в случае, когда наша гипотеза неверна, а событие  может произойти когда гипотеза  верна. Поэтому не принятие гипотезы () вовсе не означает логического доказательства ее неверности, также, как ее принятие – логического доказательства ее верности.

Однако при малом значении  событие  является практически невозможным в единичном опыте и, как правило, при этом гипотезу опровергают, в случае же  - гипотезу принимают, но она проверятся также с помощью других критериев.

Критерий  Пирсона.

Рассмотрим пример проверки гипотезы , когда функция  вполне определена,  - не содержит неизвестные параметры.

Введем сначала понятие -распределения.

Распределение  («хи-квадрат»).

Пусть  независимы и распределены , т. е. .

Образуем случайную величину

.

Параметр  - называется числом степеней свободы.

Плотность распределения этой случайной величины

,                                (2)

где - -функция:

, .

,

.

Случайная величина ,  имеет математическое ожидание равное 0 и дисперсию =1.

 - асимптотически нормальна .

В критерии Пирсона меру отклонения эмпирической функции  от теоретической (гипотетической) строится следующим образом.

Множество значений  случайной величины  разделим на  непересекающихся подмножеств  с помощью чисел  так, чтобы правый конец -го интервала включался в множество ,

Подсчитываются числа  - количество выборочных значений (1), попавших в -й интервал, ; .

Пусть  - вероятность попадания случайной величины  в -ый интервал: , где  и  - концы -го интервала, .

Отношение  - частота попадания величин  в -ый интервал при  наблюдениях, .

Вспомним, что  где . Отсюда имеем, что  - это приращение эмпирической функции  на -ом отрезке. В то же время  - это приращение теоретической функции  на этом отрезке.

Поэтому имеет смысл сравнивать эти две величины:  и .

В качестве меры отклонения берут неотрицательную величину

                      (3)

Пирсоном было доказано, что случайная величина (3) в пределе при  имеет  (хи-квадрат) распределение с плотностью распределения (2) при числе степеней свободы . Составлены таблицы распределения  при различных значениях . При достаточно большом  можно полагать, что величина (3) имеет приближенно -распределение. Тогда при заданном  можно найти критическое значение  из условия

.

Далее по формуле (3) вычисляют наблюдаемое значение  и, если  гипотезу  отвергают, в противном случае принимают.

Пример. Используя критерий Пирсона, при уровне значимости 0,05 проверить, согласуется ли гипотеза о нормальной совокупности  с эмпирическим распределением выборки объема :

5

7

9

11

13

15

17

19

21

15

26

25

30

26

21

24

20

13

Решение. 1. Найдем выборочную среднюю

и выборочное среднее квадратическое отклонение

.

2.    Вычислим вероятности , учитывая, что ,  (шаг), , по формуле

.

Составим таблицу

1

5

-1,62

0,1074

9,1

2

7

-1,2

0,1942

16,5

3

9

-0,77

0,2966

25,3

4

11

-0,35

0,3752

32

5

13

0,08

0,3977

33,9

6

15

0,51

0,3502

29,8

7

17

0,93

0,2589

22

8

19

1,36

0,1582

13,5

9

21

1,78

0,0818

7

 

3.    Сравним эмпирические и теоретические частоты.

Для этого составим таблицу,

1

15

9,1

5,9

34,81

3,8

2

26

16,5

9,5

90,25

5,5

3

25

25,3

-0,3

0,09

0

4

30

32

-2

4

0,1

5

26

33,9

-7,9

62,41

1,8

6

21

29,8

-8,8

77,44

2,6

7

24

22

2

4

0,2

8

20

13,5

6,5

42,25

3,1

9

13

7

6

36

2,1

из которой найдем наблюдаемое значение критерия . По таблице критических точек распределения, по уровню значимости  и числе степеней свободы  находим критическую точку правосторонней критической области

.

Так как  - гипотезу о нормальном распределении генеральной совокупности отвергаем. Т.е. эмпирические и теоретические частоты различаются значимо.