Тема
6.
Статистическая
проверка
гипотез
1.   
Проверка
статической
гипотезы
Наиболее
часто
возникающей
задачей при исследовании
данных
некоторой
случайной величины
 заключается
в
определении
ее функции
распределения
.
По
некоторым
предварительным
соображениям
пусть можно
сделать
предположение
(гипотезу) о
неизвестной
функции
распределения
.
Например, что
она имеет
вполне
определенный
вид 
 или 
, 
 -
неизвестные
параметры,
которые обычно
приходится
заранее
оценить.
Задачей математической
статистики
является проверка
согласованности
имеющихся
выборочных
данных 
 с
выдвигаемой
гипотезой.
Для
проверки
этой цели
необходимо
разрабатывать
специальные
критерии.
В
общем виде процедуру
проверки
статистической
гипотезы
можно сформулировать
следующим
образом.
Итак,
имеется
выборка
                                  (1)
1.
По этой
выборке
вычисляем
выборочные
характеристики
,
,
моду,
медиану,
эмпирическую
функцию
распределения
 и
другие
параметры
выборки по
необходимости.
2.
Строится
неотрицательная
функция,
которая,
представляет
собой
некоторую
меру отличия
между
эмпирической
функцией 
 и
предполагаемой
теоретической
(гипотетической)
функцией 
: 
. Эта
функция есть
случайная
величина. В
предположении
того, что выдвинутая
гипотеза
верна, можно
найти распределение
случайной величины
.
Функция 
 называется
критерием.
Меру отличия 
 можно,
вообще
говоря,
выбирать
разными
способами.
Таким
образом, для
проверки выдвинутой
гипотезы
могут существовать
различные
критерии.
3.
Задается
малое число 
,
настолько
малое, что
появление
события 
 с
вероятностью
 можно
считать
практически
невозможным: 
 -
называется уровнем
значимости;
 -
определяется
из равенства 
 в
соответствии
с
вероятностным
распределением
критерия 
 и
называется критическим
значением
или пределом
значимости.
Область,
определяемая
неравенством
,
называется критической
областью.
4.
По выборке (1)
вычисляется
так
называемое наблюдаемое
значение 
 критерия
 и
сравнивают с
критическим
значением 
.
Если
окажется, что
,
то это
означает, что
происходит
событие с малой
вероятностью
,
т. е.
практически
невозможное
событие. Таким
образом, наша
гипотеза о
равенстве 
 приводит
к
противоречивому
результату –
происходит
невозможное
событие и, поэтому,
гипотезу
опровергают.
Если
,
то считают,
что нет
оснований
опровергнуть
выдвинутую
гипотезу и ее
принимают.
Гипотезу
обозначают: 
.
Отметим
следующее:
событие 
 может
произойти, в
принципе, и в
случае, когда
наша
гипотеза
неверна, а
событие 
 может
произойти
когда
гипотеза 
 верна.
Поэтому не
принятие
гипотезы (
)
вовсе не
означает
логического
доказательства
ее
неверности,
также, как ее
принятие –
логического
доказательства
ее верности.
Однако
при малом
значении 
 событие
 является
практически
невозможным
в единичном
опыте и, как
правило, при этом
гипотезу
опровергают,
в случае же 
 -
гипотезу
принимают, но
она проверятся
также с
помощью
других
критериев.
Критерий
 Пирсона.
Рассмотрим
пример
проверки
гипотезы 
, когда
функция 
 вполне
определена, 
 -
не содержит
неизвестные
параметры.
Введем
сначала
понятие 
-распределения.
Распределение
 («хи-квадрат»).
Пусть
 независимы
и
распределены
, т. е. 
.
Образуем
случайную
величину
.
Параметр
 -
называется
числом
степеней
свободы.
Плотность
распределения
этой
случайной
величины
,                                (2)
где 
- 
-функция:
,
.
,
.
Случайная
величина 
,
 имеет
математическое
ожидание равное
0 и дисперсию =1.
 -
асимптотически
нормальна 
.
В
критерии
Пирсона меру
отклонения
эмпирической
функции 
 от
теоретической
(гипотетической)
строится
следующим
образом.
Множество
значений 
 случайной
величины 
 разделим
на 
 непересекающихся
подмножеств 
 с
помощью
чисел 
 так,
чтобы правый
конец 
-го
интервала
включался в
множество 
,
![]()
Подсчитываются
числа 
 -
количество
выборочных
значений (1), попавших
в 
-й
интервал, 
;
.
Пусть
 -
вероятность
попадания
случайной
величины 
 в 
-ый
интервал: 
,
где 
 и 
 - концы 
-го
интервала, 
.
Отношение
 - частота
попадания
величин 
 в 
-ый
интервал при 
 наблюдениях,
.
Вспомним,
что 
 где 
. Отсюда
имеем, что 
 -
это
приращение
эмпирической
функции 
 на 
-ом
отрезке. В то
же время 
 - это
приращение
теоретической
функции  на
этом отрезке.
Поэтому
имеет смысл
сравнивать
эти две величины:
 и 
.
В
качестве
меры
отклонения
берут
неотрицательную
величину
                      (3)
Пирсоном
было
доказано, что
случайная
величина (3) в
пределе при 
 имеет 
 (хи-квадрат)
распределение
с плотностью
распределения
(2) при числе
степеней
свободы 
.
Составлены
таблицы
распределения
 при
различных
значениях 
.
При
достаточно
большом 
 можно
полагать, что
величина (3)
имеет
приближенно 
-распределение.
Тогда при
заданном 
 можно
найти
критическое
значение 
 из
условия
.
Далее
по формуле (3)
вычисляют
наблюдаемое
значение 
 и,
если 
 гипотезу
 отвергают,
в противном
случае принимают.
Пример.
Используя критерий
Пирсона, при
уровне
значимости 0,05 проверить,
согласуется
ли гипотеза о
нормальной
совокупности
 с
эмпирическим
распределением
выборки
объема 
:
| 
   
  | 
  
   5  | 
  
   7  | 
  
   9  | 
  
   11  | 
  
   13  | 
  
   15  | 
  
   17  | 
  
   19  | 
  
   21  | 
 
| 
   
  | 
  
   15  | 
  
   26  | 
  
   25  | 
  
   30  | 
  
   26  | 
  
   21  | 
  
   24  | 
  
   20  | 
  
   13  | 
 
Решение. 1.
Найдем
выборочную
среднюю
![]()
и
выборочное
среднее
квадратическое
отклонение
.
2.   
Вычислим
вероятности 
,
учитывая, что
, 
 (шаг), 
, по
формуле
.
Составим
таблицу
| 
   
  | 
  
   
  | 
  
   
  | 
  
   
  | 
  
   
  | 
 
| 
   1  | 
  
   5  | 
  
   -1,62  | 
  
   0,1074  | 
  
   9,1  | 
 
| 
   2  | 
  
   7  | 
  
   -1,2  | 
  
   0,1942  | 
  
   16,5  | 
 
| 
   3  | 
  
   9  | 
  
   -0,77  | 
  
   0,2966  | 
  
   25,3  | 
 
| 
   4  | 
  
   11  | 
  
   -0,35  | 
  
   0,3752  | 
  
   32  | 
 
| 
   5  | 
  
   13  | 
  
   0,08  | 
  
   0,3977  | 
  
   33,9  | 
 
| 
   6  | 
  
   15  | 
  
   0,51  | 
  
   0,3502  | 
  
   29,8  | 
 
| 
   7  | 
  
   17  | 
  
   0,93  | 
  
   0,2589  | 
  
   22  | 
 
| 
   8  | 
  
   19  | 
  
   1,36  | 
  
   0,1582  | 
  
   13,5  | 
 
| 
   9  | 
  
   21  | 
  
   1,78  | 
  
   0,0818  | 
  
   7  | 
 
3.   
Сравним
эмпирические
и
теоретические
частоты.
Для
этого
составим
таблицу, 
| 
   
  | 
  
   
  | 
  
   
  | 
  
   
  | 
  
   
  | 
  
   
  | 
 
| 
   1  | 
  
   15  | 
  
   9,1  | 
  
   5,9  | 
  
   34,81  | 
  
   3,8  | 
 
| 
   2  | 
  
   26  | 
  
   16,5  | 
  
   9,5  | 
  
   90,25  | 
  
   5,5  | 
 
| 
   3  | 
  
   25  | 
  
   25,3  | 
  
   -0,3  | 
  
   0,09  | 
  
   0  | 
 
| 
   4  | 
  
   30  | 
  
   32  | 
  
   -2  | 
  
   4  | 
  
   0,1  | 
 
| 
   5  | 
  
   26  | 
  
   33,9  | 
  
   -7,9  | 
  
   62,41  | 
  
   1,8  | 
 
| 
   6  | 
  
   21  | 
  
   29,8  | 
  
   -8,8  | 
  
   77,44  | 
  
   2,6  | 
 
| 
   7  | 
  
   24  | 
  
   22  | 
  
   2  | 
  
   4  | 
  
   0,2  | 
 
| 
   8  | 
  
   20  | 
  
   13,5  | 
  
   6,5  | 
  
   42,25  | 
  
   3,1  | 
 
| 
   9  | 
  
   13  | 
  
   7  | 
  
   6  | 
  
   36  | 
  
   2,1  | 
 
из
которой
найдем
наблюдаемое
значение критерия
. По
таблице
критических
точек
распределения,
по уровню
значимости 
 и
числе
степеней
свободы 
 находим
критическую
точку правосторонней
критической
области 
.
Так
как 
 -
гипотезу о
нормальном
распределении
генеральной
совокупности
отвергаем. Т.е.
эмпирические
и
теоретические
частоты различаются
значимо.