Лабораторная работа №2.

Вычисление выборочных характеристик в Excel

Цель работы:

Овладение различными способами отбора статистических данных. Нахождение точечных характеристик вариационного ряда. Овладение методами установления связи между случайными величинами. Приобретение навыка работы со  встроенными функциями для расчета точечныx статистических оценок в Excel.

Задание.

1.Все приведенные  точечные оценки рассчитать для статистических измерений своего варианта;

2. Вычислить описательные статистики, используя пакет Анализ данных.

3.  Сравнить значения точечных оценок, полученных с помощью пакета  Анализ данных, со значениями аналогичных характеристик, вычисленных  с помощью встроенных функций.

 

Теоретическая часть

Большинство случайных величин, рассмотренных в курсе теории вероятностей, имели распределения, зависящие от одного или нескольких параметров. Так, биномиальное распределение зависит от параметров  и , нормальное – от параметров  и , распределение Пуассона – от параметра  и т.п. Одной из основных задач математической статистики  является оценивание этих параметров по наблюдаемым данным, т.е. по выборочной совокупности. Выборочные среднее и дисперсия интерпретируются как приближенные значения неизвестных значений математического ожидания и дисперсии изучаемой случайной величины , т.е. являются оценками этих неизвестных характеристик.

Выборочная характеристика, используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется точечной оценкой этого параметра. В этом определении слово "точечная" означает, что значение оценки представляет собой число или точку на числовой оси.

Обозначим через  некоторый неизвестный параметр генеральной совокупности, а через – точечную оценку этого параметра. Оценка  есть функция  от независимых экземпляров  генеральной совокупности, где – объем выборки (см. п. 2.1). Поэтому оценка , как функция случайных величин, также является случайной, и свойства  можно исследовать с использованием понятий теории вероятностей.

В общем случае точечная оценка  не связана с оцениваемым параметром . Поэтому естественно потребовать, чтобы  была близка к . Это требование формулируется в терминах несмещенности, состоятельности и эффективности.

Оценка  параметра  называется несмещенной, если для любого фиксированного объема выборки  математическое ожидание оценки равно оцениваемому параметру, т.е.  . 

      Оценка  называется состоятельной, если , т.е. для любого  при    .       Несмещенная оценка  параметра  называется несмещенной эффективной, если она среди всех других несмещенных оценок того же параметра обладает наименьшей дисперсией. Как же выяснить, является ли несмещенная оценка эффективной? Очевидно, для этого необходимо сравнить дисперсию этой оценки с минимальной дисперсией.

Генеральной средней  дискретной случайной величины назы­вают среднее арифметическое всей генеральной совокупности.

Если генеральную совокупность образует непрерывная случайная величина, то генеральная средняя определяется как ее математическое ожидание a:        =M(X)= a

Для   изучения генеральной совокупности обычно извлекается выборка объема n. Анализируя эту выборку, можно сформировать некоторое представление о свойствах генеральной совокупности, например,  о числовых характеристиках ее закона распределения.

Выборочной средней  называют среднее арифметическое  значений элементов выборки.

Если все  значения  x1,x2,…,xk  элементов выборки различны, то

 

      (1)

Если же   значения x1,x2,…,xk  элементов выборки  имеют частоты n1,n2,…,nk,  причем  , то  (2)
В качестве оценки математического  ожидания генеральной совокупности (генерального среднего) принимается среднее арифметическое  полученных элементов выборки (выборочных значений), то есть выборочную среднюю (1) или (2). Таким образом, в общем случае   M(X) = a.

Теорема. Выборочное среднее  есть состоятельная и несмещенная оценка генеральной средней.

Теорема. Выборочное среднее  является эффективной несмещенной оценкой для .

Дисперсией случайной величины x называют математическое ожидание квадрата отклонения случайной величины от её математического ожидания:

D(x) = M[x - M(x)]2.

Дисперсию удобно вычислять по формуле:

D(x)=M(x 2) - [М(x)]2.

Средним квадратическим отклонением случайной величины называют квадратный корень из дисперсии:

.

Выборочной дисперсией  Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их значений :

Если значения признака x1, …, xn имеют соответственно частоты n1, …, nk, причём n1+…+nk=n, то выборочную дисперсию можно найти по формуле:    ,

т.е. выборочная дисперсия есть среднее взвешенное квадратов отклонений с весами, равными соответствующим частотам.

Теорема. Выборочная дисперсия Dв равна среднему квадратов значений признака минус квадрат общей средней:

.

 Выборочная дисперсия     в роли случайной величины является смещённой оценкой дисперсии:

 Легко «исправить» выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии D(x). Достаточно для этого умножить на дробь n/(n-1). Сделав это, получим исправленную выборочную дисперсию:

Исправленная дисперсия является несмещённой оценкой генеральной дисперсии:

Итак, в качестве несмещённой оценки генеральной дисперсии принимают исправленную дисперсию:

Теорема. Исправленная дисперсия  является состоятельной и несмещенной оценкой для генеральной дисперсии .

 

Вычисление выборочных характеристик в Excel

Вычисление исправленной дисперсии. Ранее было показано, что оценка

            (3)

является несмещенной точечной оценкой для дисперсии случайной величины, и такую оценку называют исправленной дисперсией.

Для вычисления выборочного значения этой оценки можно использовать статистическую функцию Excel ДИСП, обращение к которой имеет вид:    =ДИСП(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих числовые величины.

Пример 1. При изменении диаметра изделия после корректировки  на производстве была получена следующая выборка (объемом ):

20.3

15.4

17.2

19.2

23.3

18.1

21.9

15.3

16.8

13.2

20.4

16.5

19.7

20.5

14.3

20.1

16.8

14.7

20.8

19.5

15.3

19.3

17.8

16.2

15.7

22.8

21.9

12.5

10.1

21.1

18.3

14.7

14.5

18.1

18.4

13.9

19.8

18.5

20.2

23.8

16.7

20.4

19.5

17.2

19.6

17.8

21.3

17.5

19.4

17.8

13.5

17.8

11.8

18.6

19.1

 

 

 вычислить оценку (3).

Решение. Первоначально,  введем в ячейки A3:A57  55 элементов выборки (рис. 7). Затем, используя функции КВАДРОТКЛ, ДИСП (как показано на рис. 7), вычислим оценку (3). Видно ожидаемое совпадение двух вычисленных значений. (Сделать вывод).

Рис. 7. Фрагмент вычисления исправленной дисперсии

 

Функции Excel для вычисления других точечных оценок:

 

Для вычисления среднеквадратичных отклонений можно использовать следующие функции Excel.

 

Функция СТАНДОТКЛОН  вычисляет

.

Обращение к ней имеет вид:

=СТАНДОТКЛОН(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

 

Функция СТАНДОТКЛОНП вычисляет

.

Обращение к ней имеет вид:

=СТАНДОТКЛОНП(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

 

Функция ЭКСЦЕСС вычисляет оценку

для характеристики эксцесс , которая определяет островершинность или плосковершинность плотности распределения.

Обращение к функции имеет вид:

=ЭКСЦЕСС(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

 

Функция МОДА вычисляет наиболее часто встречающееся значение в заданных аргументах функции, т.е. значение, встречающееся в выборке с максимальной частотой.

Обращение к функции имеет вид:

=МОДА(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Если в заданных значениях аргументов нет повторяющихся значений, то функция возвращает признак ошибки #Н/Д.

 

Функция МЕДИАНА вычисляет значение выборки, приходящееся на середину упорядоченной выборочной совокупности. Если выборка имеет четное число элементов, то значение функции будет равно среднему двух значений, находящихся по середине упорядоченной выборочной совокупности. Например, медиана выборки (200, 236, 250, 305, 337, 220) будет равна (236 + 250) / 2 = 243.

Обращение к функции имеет вид:

=МЕДИАНА(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

 

Функция СКОС вычисляет оценку

для характеристики асимметрии , которая для симметричной плотности распределения равна 0.

Обращение к функции имеет вид:

=СКОС(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

 

Вычисление описательных статистик. Описательные статистики можно разделить на следующие группы:

·     характеристики положения описывают положение данных на числовой оси (среднее, минимальное и максимальное значения, медиана и др.);

·     характеристики разброса описывают степень разброса данных относительно своего центра (дисперсия, размах выборки, эксцесс, среднеквадратическое отклонение и др.);

·     характеристики асимметрии определяют симметрию распределения данных относительно своего центра (коэффициент асимметрии, положение медианы относительно среднего и др.);

·     характеристики, описывающие закон распределения (частоты, относительные частоты, гистограммы и др.).

Основные характеристики положения, разброса и асимметрии можно вычислить, используя режим Описательная статистика команды Пакет анализа.

Для вызова режима Описательная статистика необходимо обратиться к вкладке Данные, выбрать опцию Пакет анализа, выбрать в списке режимов Описательная статистика и щелкнуть на кнопке ОК. В появившемся диалоговом окне Описательная статистика задать следующие параметры (рис. 8):

Входной интервал: – адреса ячеек, содержащих элементы выборки.

Группирование: – задает способ расположения (по столбцам или по строкам) элементов выборки.

Метки в первой строке – включается, если первая строка (столбец) во входном интервале содержит заголовки.

 

 

Рис. 8. Параметры режима Описательная статистика

 

Выходной интервал: / Новый рабочий лист: / Новая рабочая книга – определяет место вывода результатов вычислений. При включении Выходной интервал: в поле вводится адрес ячейки, начиная с которой будут выводиться результаты.

Итоговая статистика: – включается, если необходимо вывести по одному полю для каждой из вычисленных характеристик.

Уровень надежности: – включается, если необходимо вычислить доверительный интервал для математического ожидания с задаваемым () уровнем надежности .

К-й наименьший: – включается,  если необходимо вычислить к-й наименьший (начиная с ) элемент выборки. При к = 1 вычисляется наименьшее значение.

К-й наибольший: – включается, если необходимо вычислить к-й наибольший (начиная с ) элемент выборки. При к = 1 вычисляется наибольшее значение.

Пример задания параметров приведен на рис. 8.

Результаты работы режима Описательная статистика выводятся в виде таблицы, в левом столбце которой приводится название вычисленной характеристики (рис. 3.7), позволяющее однозначно трактовать характеристику. Тем не менее, поясним следующие названия характеристик:

·     Интервал – определяет размах выборки ;

·     Сумма – определяет сумму всех элементов выборки;

·     Счет – определяет число обработанных элементов выборки;

·     Уровень надежности – определяет величину , от которой зависит доверительный интервал для математического ожидания, имеющий вид

,

где  – выборочное среднее.

 

Пример 2. По выборке Примера 1 вычислить описательные статистики, используя режим Описательная статистика.

Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки. Последовательно обратимся к командам Данные-Пакет анализа. В списке режимов выберем Описательная статистика. В появившемся диалоговом окне включим параметры, показанные на рис. 8, и щелкнем ОК. Вычисленные характеристики приведены на рис. 9.

 

Рис. 9. Результаты работы Описательная статистика

 

Сравните значения полученных характеристик (см. рис.9) со значениями аналогичных характеристик, вычисленных в предыдущих примерах.


Варианты заданий для самостоятельного решения:

Результаты статистических измерений

1

11,7

5,49

7,43

9,92

3,41

6,83

8,22

8,30

8,14

9,29

9,27

7,43

7,41

7,72

12,1

6,06

10,6

6,76

8,21

9,86

8,13

9,04

4,75

9,33

2

4,49

7,94

9,10

6,27

6,77

3,47

8,84

6,48

4,92

6,98

10,1

6,32

6,36

7,92

12,0

7,46

7,01

13,0

7,34

6,71

5,48

9,95

11,9

8,89

3

6,13

9,77

9,17

8,89

6,19

7,70

6,96

6,72

6,08

4,41

5,52

9,59

9,02

4,86

6,33

6,28

8,60

7,38

7,84

7,24

6,85

6,50

8,28

4,98

4

6,52

7,91

5,77

8,02

3,07

2,22

5,76

11,67

6,62

7,07

12,5

1,65

10,5

7,62

4,94

5,39

3,64

4,62

8,88

6,75

5,77

6,38

10,3

5,74

5

8,18

6,06

5,85

6,78

5,60

10,8

7,70

6,44

8,64

6,95

5,66

4,84

4,96

5,57

6,47

5,97

8,02

3,66

9,24

4,13

6,58

7,51

5,67

7,89

6

10,2

8,77

10,48

9,44

9,09

6,30

9,42

6,12

9,69

8,59

8,68

7,97

8,64

5,29

5,00

8,42

8,84

8,26

6,66

6,96

6,51

6,72

6,00

5,36

7

7,13

9,77

9,17

8,89

6,19

7,71

6,96

6,72

6,08

4,41

5,52

9,59

8,06

4,86

6,33

6,28

8,60

7,38

7,84

7,24

6,85

6,50

8,28

4,98

8

3,53

7,03

9,18

7,45

5,59

6,85

11,3

7,90

6,00

6,68

5,66

8,64

8,87

11,34

5,02

4,33

9,31

10,3

5,99

6,98

5,23

8,75

7,73

9,16

9

3,38

4,04

8,21

4,08

3,46

4,37

6,66

1,46

5,59

3,78

8,73

5,57

8,22

3,38

4,20

2,49

6,11

4,54

6,53

5,20

3,84

5,35

9,72

4,63

10

4,21

3,45

6,79

3,39

2,99

3,88

3,77

1,43

5,96

4,94

6,55

5,92

4,20

5,64

5,58

5,87

5,05

3,55

7,95

4,45

5,85

6,68

1,24

7,09

11

9,38

7,61

7,52

8,42

8,96

9,07

6,98

8,07

10,89

9,95

9,95

9,04

11,5

8,95

8,52

6,47

6,52

5,89

6,15

8,67

10,15

9,77

8,65

5,87

12

8,31

9,39

8,47

8,79

9,78

9,42

10,6

10,92

10,17

6,57

7,26

6,16

8,09

9,81

12,53

10,2

8,65

9,22

9,26

7,98

10,08

10,7

12,6

6,36

13

6,44

5,30

4,43

5,32

7,03

5,14

3,49

3,97

8,77

7,92

8,59

4,99

6,87

6,78

7,54

5,33

9,13

4,91

2,56

7,62

3,61

5,40

2,21

4,46

14

9,90

8,77

4,57

11,2

8,53

8,57

9,74

12,01

6,24

7,81

8,81

10,9

9,89

9,32

8,10

9,80

8,68

8,40

9,29

10,93

9,02

9,33

11,8

9,94

15

11,0

6,73

10,90

11,6

13,3

10,7

10,3

11,38

12,04

10,1

8,89

9,05

12,4

9,64

10,28

7,29

9,39

11,4

9,68

10,13

11,34

11,3

10,4

8,43

 

 

Контрольные вопросы для самопроверки .

1.    Генеральные среднее, дисперсия, моменты высших порядков (симметрия, эксцесс).

2.    Повторные и бесповторные выборки.

3.    Математическое ожидание и дисперсия выборочного среднего.

4.    Несмещенность, состоятельность и эффективность точечных оценок.

5.    Точечные оценки для математического ожидания и дисперсии.

6.    Назначение пакета Анализ данных в Excel

7.    Встроенные функции для вычисления точечных характеристик в Excel.