МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

Федеральное государственное бюджетное образовательное учреждение  высшего образования

«ДАГЕСТАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Факультет Управления

 

 

 

 

ЛАБОРАТОРНЫЙ ПРАКТИКУМ

 

по дисциплине

 

ЭКОНОМЕТРИКА

 

Кафедра Математического моделирования, эконометрики и статистики

 

 

 

 

Разработчик: ст.преп.  кафедры Османова М.М.


 

Оглавление

Лабораторная работа №1. Парная регрессия и корреляция. 2

1.1. Методические указания. 2

1.2 Реализация типовых задач на компьютере. 5

Лабораторная работа №2. Множественная регрессия и корреляция. 17

2.1. Методические указания. 17

2.2.Технология решения задач корреляционного и регрессионного анализа с помощью пакета анализа. 26

Лабораторная работа № 3. «Анализ и прогнозирование временных рядов в среде Excel». 45

1. Основные понятия и определения. 45

2. Анализ временных рядов с помощью инструмента Excel-Мастер Диаграмм    47

Приложения.. 57

Литература.. 58

 

 


Лабораторная работа №1. Парная регрессия и корреляция.

1.1. Методические указания

Парная регрессия - уравнение связи двух переменных у и х:

где y - зависимая переменная (результативный признак);

x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия: y=a+b×x+ε.

Нелинейные регрессии делятся на два класса: регрессии, нели­нейные относительно включенных в анализ объясняющих перемен­ных, но линейные по оцениваемым параметрам, и регрессии, нели­нейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

·        полиномы разных степеней y=a+b1×x+b2×x2+b3× x3+ε

·        равносторонняя гипербола

 Регрессии, нелинейные по оцениваемым параметрам:

·        степенная y=a× xb×ε

·        показательная y=a× bx×ε

·        экспоненциальная y=ea+b×x×ε

Построение уравнения регрессии сводится к оценке ее парамет­ров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических  минимальна, т.е.

Для линейных и нелинейных уравнений, приводимых к линей­ным, решается следующая система относительно а и Ь:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффи­циент парной корреляции rxy, для линейной регрессии (-1£ rxy£1):

и индекс корреляции ρxy для нелинейной регрессии (0£ ρxy£1):

Оценку качества построенной модели даст коэффициент (ин­декс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Допустимый предел значений  - не более 8 - 10%.

Средний коэффициент эластичности  показывает, на сколько процентов в среднем по совокупности изменится результат у от сво­ей средней величины при изменении фактора х на 1% от своего среднего значения:

Задача дисперсионного анализа состоит в анализе дисперсии за­висимой переменной:

где   - общая сумма квадратов отклонений;

     - сумма квадратов отклонений, обусловленная регрессией

                            («объясненная» или «факторная»);

       - остаточная сумма квадратов отклонений.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R2:

.

Коэффициент детерминации - квадрат коэффициента или индек­са корреляции.

F-mecm - оценивание качества уравнения регрессии - состоит в проверке гипотезы  Но статистической не значимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакг и критического (табличного) Fтабл зна­чений F-критерия Фишера. Fфакт определяется из соотношения зна­чений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где п число единиц совокупности;

m - число параметров при переменных x..

Fтабл - это максимально возможное значение критерия под влия­нием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а - вероятность отвергнуть пра­вильную гипотезу при условии, что она верна. Обычно а принимает­ся равной 0,05 или 0,01.

Если Fтабл < Fфакг, то Hо - гипотеза о случайной природе оцени­ваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакг, то гипотеза Hо не от­клоняется и признается статистическая не значимость, ненадежность y уравнения регрессии.

Для оценки статистической значимости коэффициентов рег­рессии и корреляции рассчитываются t-критерий Стьюдента и до­верительные интервалы каждого из показателей. Выдвигается гипо­теза Но о случайной природе показателей, т.е. о незначимом их от­личии от нуля. Оценка значимости коэффициентов регрессии и кор­реляции с помощью меритерия Стьюдента проводится путем сопос­тавления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффици­ента корреляции определяются по формулам:

Сравнивая фактическое и критическое (табличное) значения t-статистики t-табл и tфакг - принимаем или отвергаем гипотезу Hо

Связь между F-критерием Фишера и f-статистикой Стьюдента выражается равенством

Если tтабл < tфакг,  то Но отклоняется, т.е. a, b и rxy не случайно от­личаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт. то гипотеза Но не откло­няется и признается случайная природа формирования а, b или rxy

Для расчета доверительного интервала определяем предельную ошибку Δ для каждого показателя:

Δa=tтаблmа,              Δb=tтаблmb,

Формулы для расчета доверительных интервалов имеют сле­дующий вид:

                                               

                                               

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцени­ваемый параметр принимается нулевым, так как он не может одно­временно принимать и положительное, и отрицательное значения.

Прогнозное значение yp определяется путем подстановки в урав­нение регрессии соответствующего (прогнозного) зна­чения Хр. Вычисляется средняя стандартная ошибка прогноза

 

где

и строится доверительный интервал прогноза:

                    

где 

 

1.2 Реализация типовых задач на компьютере.

Решение с помощью ППП Excel

1. Встроенная статистическая функция ЛИНЕЙН определяет пара­метры линейной регрессии y=a+b×x. Порядок вычисления сле­дующий:

1.     введите исходные данные или откройте существующий файл, содержащий анализируемые данные;

2.     выделите область пустых ячеек 5х2 (5 строк, 2 столбца) для вы­вода результатов регрессионной статистики или область 1х2 - для получения только оценок коэффициентов регрессии;

3.     активизируйте Мастер функций любым из способов:

а) в главном меню выберите Вставка/Функция;

 б) на панели инструментов Стандартная щелкните по кнопке

     Вставка/Функция;

4.     окне Категория (рис. 1.1) выберите Статистические, в окне- ЛИНЕЙН. Щелкните по кнопке ОК;

5.     заполните аргументы функции (рис. 1.2):


 

Рис. 1.1. Диалоговое окно «Мастер функций»


Известные_значения_у - диапазон, содержащий данные резуль­тативного признака;

Рис. 1.2. Диалоговое окно ввода аргументов функции ЛИНЕЙН

 

Известные_значения_х - диапазон, содержащий данные факто­ров независимого признака;

Константа - логическое значение, которое указывает на нали­чие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным обра­зом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выво­дить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щелкните по кнопке ОК;

6.     в левой верхней ячейке выделенной области появится пер­вый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, наж­мите на клавишу <F2>, а затем - на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b

Значение коэффициента а

Среднеквадратическое отклонение b

Среднеквадратическое отклонение а

Коэффициент детерминации R2

Среднеквадратическое отклонение у

F-статистика

Число степеней свободы

Регрессионная сумма квадратов

Остаточная сумма квадратов

 

 

Для  вычисления  параметров  экспоненциальной  кривой y=α×βx в MS Excel применяется встроенная статистическая функция ЛГРФПРИБЛ. Порядок вычисления аналогичен примене­нию функции ЛИНЕЙН.

Для данных из примера 2 результат вычисления функции ЛИНЕЙН представлен на рис. 1.3, функции ЛГРФПРИБЛ - на рис.1.4.


 

Рис. 1.3. Результат вычисления функции  ЛИНЕЙН

 

Рис. 1.4. Результат вычисления функции  ЛГФПРИБЛ

2.С помощью инструмента анализа данных Регрессия, помимо ре­зультатов регрессионной статистики, дисперсионного анализа и до­верительных интервалов, можно получить остатки и графики подбо­ра линии регрессии, остатков и нормальной вероятности. Порядок действий следующий:

1)   

проверьте доступ к пакету анализа. В главном меню последо­вательно выберите Сервис /Надстройки. Установите флажок Пакет анализа (рис. 1.5);

 

Рис. 1.5. Подключение надстройки Пакет анализа.

 2) в главном меню выберите Сервис/Анализ данных/Регрессия. Щелкните по кнопке ОК;

3)   заполните диалоговое окно ввода данных и параметров выво­да (рис. 1.6):

Входной интервал Y - диапазон, содержащий данные результа­тивного признака;

Входной интервал Х - диапазон, содержащий данные факторов независимого признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или от­сутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа.

Если необходимо получить информацию и графики остатков, установите соответствующие флажки в диалоговом окне. Щелкните по  кнопке OK.


Рис. 1.6. Диалоговое окно ввода параметров инструмента Регрессия.

 

 

 

Рис. 1.7. Результат применения инструмента Регрессия.

В задачах 1-8 выполните:

Задание

1.     Постройте  поле корреляции и сформулируйте гипотезу о форме связи

2.     Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической  регрессии.

3.     Оцените  тесноту связи с помощью показателей корреляции и детерминации

4.     "Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5.     Оцените с помощью средней ошибки аппроксимации качество уравнений.

6.     Оцените с помощью F-критерия Фишера статистическую надеж­ность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выберите лучшее уравнение регрессии и дайте его обоснование.

7.     Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Опре­делите доверительный интервал прогноза для уровня значимости =0,05.

8. Оцените полученные результаты, выводы оформите в аналитиче­ской записке.

 

 

 

 

Задача 1. По территориям Центрального района известны данные за 1995 г. (табл. 1.1).

Таблица 1.1

Район

Доля денежных доходов, направленных на прирост сбережений во вкладах. займах. сертификатах и на покупку валюты, в общей сумме среднедушевого денежного дохода, %, у

Среднемесячная на­численная заработная плата, тыс. руб., х

Брянская обл.

6,9

289

Владимирская обл.

8,7

334

Ивановская обл.

6,4

300

Калужская обл.

8,4

343

Костромская обл.

6,1

356

Орловская обл.

9,4

289

Рязанская  обл.

11,0

341

Смоленская обл.

6,4

327

Тверская  обл.

9,3

357

Тульская обл.

8,2

352

Ярославская обл.

8,6

381

 

 

Задача 2.

По территориям Центрального района известны данные за 1995 г. (табл. 1.2).

Таблица 1.2

Район

Средний размер назначенных ежемесячных пенсий, тыс. руб., у

Прожиточный минимум в среднем на одного пенсионера в месяц, тыс. руб., х

Брянская обл.

240

178

Владимирская обл.

226

202

Ивановская обл.

221

197

Калужская обл.

226

201

Костромская обл.

220

189

г. Москва

250

302

Московская обл.

237

215

Орловская обл.

232

166

Рязанская обл.

215

199

Смоленская обл.

220

180

Тверская обл.

222

181

Тульская обл.

231

186

Ярославская обл.

229

250

 

Задача 3.

По  территориям Центрального и Волго-Вятского районов из­вестны данные за ноябрь 1997 г. (табл. 1.3).

Таблица 1.3

Район

Средняя заработная плата и выплаты социального характера, тыс. руб., у

Прожиточный минимум в среднем на душу населения, тыс. руб., х

Центральный

 

 

Брянская обл.

615

289

Владимирская обл.

727

338

Ивановская обл.

584

287

Калужская обл.

753

324

Костромская обл.

707

307

Орловская обл.

653

304

Рязанская обл.

654

307

Смоленская обл.

693

290

Тверская обл.

704

314

Тульская обл.

780

304

Ярославская обл.

830

341

Волго-Вятский район

 

 

Респ. Марий Эл

554

364

Респ. Мордовия

560

342

Чувашская Респ.

545

310

Кировская обл.

672

411

Нижегородская обл.

796

304

 

Задача 4.

По территориям Волго-Вятского, Центрально-Черноземного и Поволжского районов известны данные за ноябрь 1997 г. (табл. 1.19).

Таблица 1.4

Район

Потребительские расходы в расчете на душу населения, тыс. руб., у

Средняя заработная плата и выплаты социального харак­тера, тыс. руб., х

Волго-Вятский

 

 

Респ. Марий Эл

302

554

Респ. Мордовия

360

560

Чувашская Респ.

310

545

Кировская обл.

415

672

Нижегородская обл. -

452

796

Центрально-Черноземный

 

 

Белгородская обл.

502

777

Воронежская обл.

355

632

Курская обл.

416

688

Липецкая обл.

501

833

Тамбовская  обл.

403

577

Поволжский

 

 

Респ.   Калмыкия

208

584

Респ.   Татарстан

462

949

Астраханская  обл.

368

888

Волгоградская обл.

399

831

Пензенская обл.

342

562

Саратовская обл.

354

665

Ульяновская обл.

558

705

 

 

 

Задача 5.

По территориям Северного, Северо-западного и Центрального районов известны данные за ноябрь 1997 г. (табл. 1.5).

Таблица 1.5

Район

Потребительские расходы на душу населения, тыс. руб., у

Денежные доходы на душу населения, тыс. руб., х

Северный

 

 

Респ. Карелия

596

913

Респ. Коми

417

1095

Архангельская обл.

354

606

Вологодски обл.

526

876

Мурманская обл.

934

1314

Сеаеро-Западный

 

 

Ленинградская обл.

412

593

Новгородская обл.

525

754

Псковская обл.

367

528

Центральный

 

 

Брянская обл.

364

520

Владимирская обл.

336

539

Ивановская обл.

409

540

Калужская обл.

452

682

Костромская обл.

367

537

Московская обл.

328

589

Орловская обл.

460

626

Рязанская обл.

380

521

Смоленская обл.

439

626

Тверская обл.

344

521

Тульская обл.

401

658

Ярославская обл.

514

746

 

Задача 6.

По территориям Восточно-Сибирского и Дальневосточного районов известны данные за ноябрь 1997 г. (табл. 1.6).

                                                                  Таблица 1.6

Район

Потребительские расходы на душу населения, тыс. руб., у

Денежные дохо­ды на душу населения, тыс. руб., х

Восточно-Сибирский

 

 

"Респ. Бурятия

408

524

Рссп. Тыва

249

371

Респ.  Хакасия

253

453

Красноярский край

580

1006

Иркутская обл.

651

997

Усть-Ордынский Бурятский  авт. округ.

139

217

Читинская обл.

322

486

Респ. Саха (Якутия)

899

1989

Еврейская  авт. обл.

330

595

Чукотский  авт. округ

446

1550

Приморский край

642

937

Хабаровский край

542

761

Амурская  обл.

504

767

Камчатская  обл.

861

1720

Магаданская  обл.

707

1735

Сахалинская  обл.

557

1052

 

Задача 7

По территориям Уральского и Западно-Сибирского районов из­вестны данные за ноябрь 1997 г. (табл. 1.7).

Таблица 1.7

Район

Потребительские расходы на душу населения, тыс. руб., у

Денежные доходы на душу населения, тыс. руб., х

Уральский

 

 

Респ. Башкортостан

461

632

Удмуртская Респ.

524

738

Курганская обл.

298

515

Оренбургская обл.

351

640

Пермская обл.

624

942

Свердловская обл.

584

888

Челябинская обл.

425

704

Западносибирский район

 

 

Респ. Алтай

277

603

Алтайский край

321

439

Кемеровская обл.

573

985

Новосибирская обл.

576

737

Омская обл.

588

760

Томская обл.

497

830

Тюменская обл.

863

2093

 

 

Задача 8.

По территориям Уральского и Западно-Сибирского районов из­вестны данные за ноябрь 1997 г. (табл. 1.8).

Таблица 1.8

Район

 

Потребительские расходы на душу населения, тыс. руб., у

Средняя заработная плата и выплаты со­циального характера, тыс. руб., х

Уральский

 

 

Респ. Башкортостан

461

912

Удмуртская Респ.

524

809

Курганская обл.

298

748

Оренбургская обл.

351

847

Пермская обл.

624

1087

Свердловская обл.

584

1074

Челябинская обл.

425

1008

Западно-Сибирский

 

 

Респ. Алтай

277

682

Алтайский край

321

697

Кемеровская обл.

573

1251

Новосибирская обл.

576

967

Омская обл.

588

898

Томская обл.

497

1263

Тюменская обл.

863

3027

 

Задача 9.

По 20 регионам страны изучается зависимость уровня безрабо­тицы у (%) от индекса потребительских цен x (% к предыдущему году). Информация о логарифмах исходных показателей представ­лена в табл. 1.9.

Таблица 1.9

Показатель

In x;

In у

Среднее значение

0,6

1,0

Среднее квадратическое отклонение

0,4

0,2

Известно также, что коэффициент корреляции между логариф­мами исходных показателей составил rlnx lny = 0,8.

Задание

1. Постройте уравнение регрессии зависимости уровня безработицы от индекса потребительских цен в степенной форме.

2. Дайте интерпретацию коэффициента эластичности данной модели регрессии.

3. Определите значение коэффициента детерминации и поясните его смысл.

Задача 10.

Изучается зависимость материалоемкости продукции от размера предприятия по 10 однородным заводам (табл. 1.10).

Таблица 1.10

Показатель

Материалоемкость продукции по заводам

1

2

3

4

5

6

7

8

9

10

Потребле­но мате­риалов на единицу продукции, кг

9

6

5

4

3,7

3,6

3,5

6

7

3,5

Выпуск продукции, тыс. ед.

100

200

300

400

500

600

700

150

120

250

 

Задание

1.     Найдите параметры уравнения

2.     Оцените  тесноту связи с помощью индекса корреляции.

3.     Охарактеризуйте  эластичность изменения материалоемкости продукции.

4.     Сделайте  вывод о значимости уравнения регрессии.

 

Оцените полученные результаты, выводы оформите в аналитиче­ской записке.

 

Лабораторная работа №2. Множественная регрессия и корреляция.

2.1. Методические указания

Множественная регрессия – уравнение связи с несколькими независимыми переменными:

Y=f(x1, x2,…..,xp),

где у                - зависимая переменная (результативный признак);

x1, x2,…..,xp),  - независимые переменные (факторы).

Основными этапами построения модели множественной регрессии являются:

1.     Построение системы показателей (факторов). Сбор и предвари­тельный анализ исходных данных. Построение матрицы коэф­фициентов парной корреляции.

2.     Выбор вида модели и численная оценка ее параметров.

3.     Проверка качества модели.

4.     Оценка влияния отдельных факторов на основе модели.

5.     Прогнозирование на основе модели регрессии.

Построение системы показателей (факторов). Анализ матрицы коэффициентов парной корреляции

Выбор факторов, влияющих на исследуемый показатель, произво­дится, прежде всего, исходя из содержательного экономического анали­за. Для получения надежных оценок в модель не следует включать слишком много факторов. Их число не должно превышать одной трети объема имеющихся данных (т.е. m ≤n/3)* . Для определения наиболее существенных факторов могут быть использованы коэффициенты ли­нейной и множественной корреляции, детерминации частных коэффи­циентов корреляции.

Отбор факторов для построения многофакторных моделей произ­водится на основе качественного и количественного анализа социально-экономических явлений с использованием статистических и математиче­ских критериев.

Формирование базы исходных данных. Сначала на основании со­держательного анализа составляется перечень показателей, которые предполагается включить в модель. Затем производится сбор статисти­ческой информации и предварительный анализ данных.

Значения переменных Y и X, содержащиеся в наблюдаемой сово­купности, записываются в таблицу исходных данных (табл. 4.1.1).

На второй стадии производятся сравнительная оценка и отсев части факторов. Это достигается анализом парных коэффициентов корреляции и оценкой (4.1.1) их значимости (4.1.2). Для этого составляется матрица парных коэффициентов корреляции, измеряющих тесноту связи каждого из факторов-признаков с результативным фактором и между собой (табл. 4.1.2).

Таблица 2.1

п/п

Y

X1

X2

…..

Xm

1

Y

X11

X21

…..

Xm1

…..

…..

…..

…..

n

Yn

X1n

X2n

…..

Xmn

 

Определение значения коэффициента корреляции. Коэффициент корреляции определяется по формуле:

где

 

факторы

Y

X1

X2

……..

Xm

Y

1

Xyx1

Xyx2

……..

Xyxm

X1

Xyx1

1

Xx1x2

……..

Xx1xm

X2

Xyx2

Xx1x2

1

……..

Xx2xm

……..

……..

……..

……..

……..

……..

Xm

Xyx

Xx1xm

Xx2xm

……..

1

 

Интерпретация полученной оценки коэффициента корреляции. Значение коэффициентов парной корреляции лежит в интервале от -1 до +1. Его положительное значение свидетельствует о прямой связи, отрица­тельное - об обратной, т.е. когда растет одна переменная, другая умень­шается. Чем ближе его значение к 1, тем теснее связь. Связь считается достаточно сильной, если коэффициент корреляции по абсолютной ве­личине превышает 0.7. и слабой, если меньше 0.4. При равенстве его нулю связь полностью отсутствует. Этот коэффициент дает объективную оценку тесноты связи лишь при линейной зависимости переменных.

Диаграмма, на которой изображается совокупность значений двух признаков, называется корреляционным полем. Каждая точка этой диа­граммы имеет координаты X, и У,. По мере того, как возрастает сила ли­нейной связи, точки на графике будут лежать более близко к прямой ли­нии, а величина г будет ближе к

Проверка значимости линейного коэффициента корреляции. Для оценки значимости коэффициента корреляции применяется t- критерий Стьюдента. При этом фактическое значение этого критерия определяет­ся по формуле:

                   (2.1.2)

Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости (а = 0,05) и числа степеней свободы (n-2).

Если tнабл >t кр, то  полученное значение коэффициента корреляции

признается значимым (т.е. нулевая гипотеза, утверждающая равенство

нулю коэффициента корреляции, отвергается). Таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

В модель включают те факторы, связь которых с зависимой пере­менной наиболее сильная.

В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

Если приведенные неравенства (или хотя бы одно из них) не вы­полняются, то в модель включают тот фактор, который наиболее тесно связан с Y.

Мулътиколлинеарность. Одним из условий регрессионной модели является предположение о линейной независимости объясняющих пере­менных, т.е. решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономиче­ских показателей это условие выполняется не всегда. Линейная или близкая к ней связь между факторами называется мультиколлинеарностью и приводит к линейной зависимости нормальных уравнений, что делает вычисление параметров либо невозможным, либо затрудняет содержательную интерпретацию параметров модели. Мультиколлинеар-ность может возникать в силу разных причин. Например, несколько не­зависимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0.8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из линейно свя­занных между собой факторов, причем тот, который в большей степени связан с зависимой переменной.

На третьей, заключительной стадии производят окончательный отбор факторов путем анализа значимости вектора оценок параметров уравнении множественной регрессии с использованием критерия Стьюдента (k - количество факторов, включенных в модель после исключения незначимых факторов, k = т, если включены все анализируемые факторы).

 

 

Выбор вида модели и оценка ее параметров

Для отображения зависимости переменных могут использоваться показательная, параболическая и многие другие функции. Однако в практической работе наибольшее распространение получили модели линейной взаимосвязи, т.е. когда факторы входят в модель линейно.

Линейная модель множественной регрессии имеет вид:

Yi= а0 + a1xi1 + а2хiа + ... + аmхim + εi .         (2.1.3)

Анализ уравнения (4.1.3) и методика определения параметров стано­вятся более наглядными, а расчетные процедуры существенно упрощают­ся, если воспользоваться матричной формой записи уравнения (2.1.4):

Y=+ε.                      (2.1.4)

Здесь У - вектор зависимой переменной размерности nx1, представляющий собой n наблюдений значений уi, Х - матрица независимых переменных, элементы которой суть n х m наблюдения значений т неза­висимых переменных Х1 X2, Х3, ..., Хm размерность матрицы Х равна m х 1;  - α - подлежащий оцениванию вектор неизвестных параметров размерности т х 1; ε - вектор случайных отклонений (возмущений) раз­мерности n х 1. Таким образом,

Уравнение (4.1.4) содержит значения неизвестных параметров α1, α 2, α m .  Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид

Y=X α +e=+e,                     (2.1.5)

где α - вектор оценок параметров; е - вектор «оцененных» отклонений регрессии, остатки регрессии е = y - Х α;  - оценка значений Y равная Х α.

Для оценивания неизвестного вектора параметров к воспользуемся методом наименьших квадратов (МНК). Формула для вычисления параметров регрессионного уравнения имеет вид:

Α=(XTX)-1XTY.                   (2.1.6)

Рассмотрим случай зависимости переменной Y от одного фактора X. Мы хотим подобрать уравнения.

 

Используя (4.1.6), можно получить следующие выражения для вычисления α1  и α0:

                      (2.1.8)

Проверка качества модели

Качество модели оценивается стандартным для математических моделей образом: по адекватности и точности на основе анализа остат­ков регрессии е. Расчетные значения получаются путем подстановки в модель фактических значений всех включенных факторов.

Анализ остатков. Анализ остатков позволяет получить представле­ние, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположени­ям регрессионного анализа, остатки должны вести себя как независимые (в действительности почти независимые), одинаково распределенные случайные величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения остатков.

Независимость остатков проверяется с помощью критерия Дарбина- Уотсона [2].

Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости между Y и X график остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

Выбросы. График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения - выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие может грубо искажать значения оценок. Устранение эффектов выбросов может проводиться либо с помощью удаления этих точек из анализируемых данных (эта процедура называется цензурированием), либо с помощью применения методов оценивания пара­метров, устойчивых к подобным грубым отклонениям.

Кроме рассмотренных выше характеристик, целесообразно использовать коэффициент множественной корреляции (индекс корреляции) R, а также характеристики существенности модели в целом и отдельных ее коэффициентов:

             (2.1.9)

 

где - сумма квадратов уравнений остаточной компоненты;

       - сумма квадратов отклонений исходного ряда от его среднего значения.

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при лю­бой форме связи переменных. При построении однофакторной корреля­ционной модели коэффициент множественной корреляции равен коэф­фициенту парной корреляции.

Коэффициент множественной корреляции (индекс корреляции), возведенный в квадрат (R2), называется коэффициентом детерминации.

              (2.1.10)

Он показывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

В многофакторной регрессии добавление дополнительных объяс­няющих переменных увеличивает коэффициент детерминации. Следова­тельно, коэффициент детерминации должен быть скорректирован с уче­том числа независимых переменных. Скорректированный R2, или , рассчитывается так:

где n - число наблюдения; k - число независимых переменных.

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n-k- 1), где k - количество факторов, включенных в модель. Квадратный корень из этой величины (Se) называется стандартной ошибкой оценки.

Для проверки значимости модели регрессии используется F-значение, вычисляемое как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с Vi = (n - 1) и v2 = (n - k - 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой:

                       (2.1.11)

Если существует k независимых переменных, то будет k + 1 коэффициентов регрессии (включая постоянную), отсюда число степеней свободы составит n - (k + 1) или n - k - 1.

Целесообразно проанализировать также значимость отдельных коэффициентов регрессии. Это осуществляется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

                                      (2.1.12)

где Sαj, - это стандартное (среднее квадратическое) отклонение коэффи­циента уравнения регрессии αj.

Величина Sαj представляет собой квадратный корень из произведе­ния несмещенной оценки дисперсии Se и j-го диагонального элемента матрицы, обратной матрице системы нормальных уравнений.

                                   (2.1.13)

где     bjj – диагональный элемент матрицы (XTX)-1.

Если расчетное значение г-критерия с (n- k - 1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из мо­дели (при этом ее качество не ухудшится).

 

 

Оценка влияния отдельных факторов на основе модели на зависимую переменную (коэффициенты эластичности и

β-коэффициенты)

Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности Э(j) и β оэффициенты β(t), которые рассчитываются соответственно по формулам:

Э(j)=α(j)×Xср/Yср                           (2.1.14)

β (j)=α(j)×Sij/Sy                                  (2.1.15)

где Sij - среднее квадратическое отклонение фактора j.

Коэффициент эластичности показывает, на сколько процентов из­меняется зависимая переменная при изменении фактора. j  на 1%. Однако он не учитывает степень колеблемости факторов.

Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy, изменится зависимая переменная Y с изменением соответствующей независимой переменной Xj на величину своего среднего квадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных.

Указанные коэффициенты позволяют проранжировать факторы по степени влияния факторов на зависимую переменную.

Долю влияния фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Δ(j):

Δ(j)=ryj β(j)/R2,

где ryj  - коэффициент парной корреляции между фактором j (j = 1, .... m) и зависимой переменной.

Использование многофакторных моделей для анализа и прогнозирования развития экономических систем

Одна из важнейших целей моделирования заключается в прогнозировании поведения исследуемого объекта. Обычно термин «прогнозирование» используется в тех ситуациях, когда требуется предсказать состояние системы в будущем. Для регрессионных моделей он имеет, однако, более широкое значение. Как уже отмечалось, данные могут не иметь временной структуры, но и в этих случаях вполне может возникнуть задача оценить значение зависимой переменной для некоторого набора независимых, объясняющих переменных, которых нет в исходных наблюдениях. Именно в этом смысле - как построение оценки зависимой переменной - и следует понимать прогнозирование в эконометрике.

Проблема прогнозирования имеет много различных аспектов. Можно различать точечное и интервальное прогнозирование. В первом случае оценка - это конкретное число, во втором - интервал, в котором истинное значение переменной находится с заданным уровнем доверия. Кроме того, для временных рядов при нахождении прогноза существенно наличие или отсутствие корреляции по времени между ошибками.

При использовании построенной модели для прогнозирования де­лается предположение о сохранении в период прогнозирования сущест­вовавших ранее взаимосвязей переменных.

Для прогнозирования зависимой переменной на l шагов вперед необходимо знать прогнозные значения всех входящих в нее факторов. Их оценки могут быть получены на основе временных экстраполяционных моделей или заданы пользователем. Эти оценки подставляются в модель, и получаются прогнозные оценки.

Построение точечных и интервальных прогнозов на основе регрессионной модели. Какие факторы влияют на ширину доверительного интервала? Для того, чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной . Ошибки второго рода обусловлены фиксацией численного

значения коэффициентов регрессии, в то время как они в действительно­сти являются случайными, нормально распределенными.

Для линейной модели доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения от линии регрессии (обозначим ее буквой U):

                              (2.1.16)

                    (2.1.17)

Для модели парной регрессии формула (4.1.16) принимает вид:

 

                           (2.1.18)

Коэффициент tα является табличным значением t-статистики Стьюдента при заданном уровне значимости а и числа наблюдений, l - период прогнозирования. Если исследователь задает вероятность попадания прогнозируемой величины внутрь доверительного интервала, равную 70%, то tα = 1.05. Если вероятность составляет 95%, то tα = 1.96, а при 99% tα =2.65.

Как видно из формулы (4.1.18). величина U прямо пропорциональ­но зависит от точности модели ( ), коэффициента доверительной веро­ятности (tα), степени удаления прогнозной оценки фактора Х от среднего значения и обратно пропорциональна объему наблюдений.

В свою очередь

.                            (2.1.19)

В результате получаем следующий интервал прогноза для шага прогнозирования l:

-         верхняя граница прогноза равна Y(n + l) + U(l),

-         нижняя граница прогноза равна  Y(n + l) + U(l).

Если построенная регрессионная модель адекватна и прогнозные оценки факторов достаточно надежны, то с выбранной пользователем вероятностью можно утверждать, что при сохранении сложившихся за­кономерностей развития прогнозируемая величина попадет в интервал, образованный нижней и верхней границами.

 

2.2.Технология решения задач корреляционного и регрессионного анализа с помощью пакета анализа.

Пакет анализа - это надстройка, которая представляет широкие возможности для проведения статистического анализа.

Установка средств Пакет анализа.

В стандартной конфигурации программы EXCEL вы не найдете средства Пакет анализа. Даже если установить их с компакт-диска EXCEL'97 (или Office'97), они не появятся в меню до тех пор, пока вы не установите их в качестве надстройки Excel. Для этого выполните следующие действия:

1. Выберите команду Сервис=>Надстройки.

2. В диалоговом окне Надстройки установите флажок Пакет анализа.

3. Щелкните на кнопке ОК.

После этого в нижней части меню Сервис появится новая команда Анализ данных. Эта команда предоставляет доступ к средствам анализа, которые есть в EXCEL.

Пример 2.2.1. Задача состоит в построении модели для предсказа­ния объема реализации одного из продуктов фирмы.

Объем реализации - это зависимая переменная Y. В качестве независимых, объясняющих переменных выбраны: время Х1, расходы на рекламу Х2, цена товара Х3, средняя цена конкурентов X4, индекс потребительских расходовX5.

1. Построение системы показателей (факторов). Анализ матрицы коэффициентов парной корреляции

Статистические данные по всем переменным приведены в табл. 2.2.1. В этом примере n = 16, m = 5.

Таблица 2.2.1

Y

XI

XI

X3

Х4

Х5

объем реализации

время

реклама

цена

цена конкурента

индекс потребительских расходов

126

 

4

15

17

100

137

1

4,8

14.8

17.3

98.4

148

2

3.8

15.2

16.8

101.2

191

3

8.7

15.5

16.2

103.5

274

4

8.2

15.5

16

104.1

370

5

9.7

16

18

107

432

6

14.7

18.1

20.2

107.4

445

7

18.7

13

15.8

108.5

367

8

19.8

15.8

18.2

108.3

367

9

10.6

16.9

16.8

109.2

321

10

8.6

16.3

17

110.1

307

11

6.5

16.1

18.3

110.7

331

12

12.6

15.4

16.4

110.3

345

13

6.5

15.7

16.2

111.8

364

14

5.8

16

17.7

112.3

384

15

5.7

15.1

16.2

112.9

 

Использование инструмента Корреляция. Для проведения корреляционного анализа выполните следующие действия:

1) данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек;

2) выберите команду Сервис =>Анализ данных;

3) в диалоговом окне Анализ данных выберите инструмент Корреляция (рис. 4.2.1). а затем щелкните на кнопке ОК;

4) в диалоговом окне Корреляция в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если выделены и заголовки столбцов, то установить флажок «Метки в первой строке» (рис. 4.2.2);

5) выберите параметры вывода. В данном примере - установите переключатель «Новый рабочий лист»;

6) ОК.

В табл. 2.2.2 приведены промежуточные результаты при вычисле­нии коэффициента корреляции по формуле (2.1.1)

Таблица 2.2.2

t

Y

 X2

)

)2

)

)2

)×)

1

2

126

137

4

4.8

-180.813

-169.813

32693.16 28836.29

-5.29375

-4.49375

28.02379 20.19379

957.1762

763.0949

3

148

3.8

-158.813

25221.41

-5.49375

30.18129

872.4762

4

191

8.7

-115.813

13412.54

-0.59375

0.352539

68.76367

5

274

8.2

-32.8125

1076.66

-1.09375

1.196289

35.88867

6

370

9.7

63.1875

3992.66

0.40625

0.165039

25.66992

7

432

14.7

125.1875

15671.91

5.40625

29.22754

676.7949

8

445

18.7

138.1875

19095.79

9.40625

88.47754

1299.826

9

367

19.8

60.1875

3622.535

10.50625

110.3813

632.3449

10

367

10.6

60.1875

3622.535

1.30625

1.706289

78.61992

11

321

8.6

14.1875

201.2852

-0.69375

0.481289

-9.84258

12

307

6.5

0.1875

0.035156

-2.79375

7.805039

-0.52383

13

331

12.6

24.1875

585.0352

3.30625

10.93129

79.96992

14

345

6.5

38.1875

1458.285

-2.79375

7.805039

-106.686

15

364

5.8

57.1875

3270.41

-3.49375

12.20629

-199.799

16

384

5.7

77.1875

5957.91

-3.59375

12.91504

-277.393

Сумма

4909

148.7

0

158718.4

0

362.0494

4896.381

 Среднее значение

306.8125

9.29375

0

 

 

 

 

 

 

 

 

 

 

Таблица 2.2.3

 

 

 

Объем реализации

Время

Реклама

Цена

Цена

конкурента

Индекс потребительских расходов

Столбец 1

Столбец 2

Столбец З

Столбец 4

Столбец 5

Столбец 6

Объем реализации

1

 

 

 

 

 

 

 

 

 

 

Время Реклама

0.678 0.646

1 0.106

1

 

 

 

 

 

 

Цена

0.233

0.174

-0.003

1

 

 

Цена конкурента

0.226

-0.051

0.204

0.698

1

 

 

 Индекс отребительских расходов

0.816

0.960

0.273

0.235

0.030

1

 

Анализ матрицы коэффициентов парной корреляции (табл. 2.2.3) показывает, что зависимая переменная, т.е. объем реализации, имеет тесную связь с индексом потребительских расходов (ryx5 = 0.816), с расходами на рекламу (ryx5=0.646) и со временем (ryx1 =0.678). Однако факторы X2; и X5 тесно связаны между собой (ryx5= 0.96), что свидетельствует о наличии мультиколлинеарности. Из этих двух переменных ос­тавим в модели X5 - индекс потребительских расходов. В этом примере n= 16, m = 5, после исключения незначимых факторов п = 16, k = 2.

2. Выбор вида модели и оценка ее параметров

Оценка параметров регрессии осуществляется по методу наимень­ших квадратов по формуле (2.1.6), с использованием данных, приведен­ных в табл. 2.2.4.

Таблица 2.2.4

y

X0

X1

X2

объем реализации

 

реклама

индекс потребительских расходов

126

1

4

100

137

1

4.8

98.4

148

1

3.8

101.2

191

1

8.7

103.5

274

1

8.2

104.1

370

1

9.7

107

432

1

14.7

107.4

445

1

18.7

108.5

367

1

19.8

108.3

367

1

10.6

109.2

321

1

8.6

110.1

307

1

6.5

110.7

331

1

12.6

110.3

345

1

6.5

111.8

364

1

5.8

112.3

384

1

5.7

112.9

 

 

 

 

 

Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в сле­дующем виде:

Y= -1471.314 + 9.568Х1 + 15.754Х2.

Расчетные значения Y определяются путем последовательной подстановки в эту модель значений факторов, взятых для каждого момента времени t.

Применение инструмента Регрессия. Для проведения регрессионного анализа выполните следующие действия:

1) выберите команду Сервис  ÞАнализ данных;

2) в диалоговом окне Анализ данных выберите инструмент Регрессия, а затем щелкните на кнопке ОК;

3) в диалоговом окне Регрессия в поле «Входной интервал Y» вве­дите адрес одного диапазона ячеек, который представляет зависимую переменную. В поле «Входной интервал введите адреса одного или нескольких диапазонов, которые содержат значения независимых пере­менных;

4) если выделены и заголовки столбцов, то установить флажок Метки в первой строке;

5) выберите параметры вывода. В данном примере - установите пе­реключатель «Новая рабочая книга»',

6) в поле «Остатки» поставьте необходимые флажки;

7) ОК.

Таблица 2.2.5

Регрессионная статистика

Множественный R

R- квадрат

Нормированный R-квадрат Стандартная ошибка

Наблюдения

0.927

0.859

0.837

41.473

16.000

Пояснения к табл. 2.2.5.

Регрессионная статистика

Наименование в отчете EXCEL

Принятые наименования

Формула

1

Множественный R

Коэффициент множественной корреляции, индекс корреляции

2

R-квадрат

Коэффициент детерминации, R2

3

Нормированный R-квадрат

Скорректированный R2

4

Стандартная ошибка

Стандартная

ошибка оценки

5

Наблюдения

Количество наблюдений, n

n

 

Таблица 2.2.6

Дисперсионный анализ

 

 

Df

SS

MS

F

Регрессия Остаток Итого

2

13

15

136358.334 22360.104 158718.438

68179.167 1720.008

39.639

 

 

Пояснения к табл. 2.2.6.

 

 

Df- число степеней свободы

SS - сумма квадратов

MS

F - критерий

Фишера

Регрессия

k=2

/k

Остаток

n-k-1=l3

/(n-k-1)

 

 

Итого

n-1 =15

 

 

 

 

 

Таблица 2.2.7

 

 

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение Реклама Индекс потребительских расходов

-1471.3143

9.5684

15,7529

• 259.7660

2.2659

2.4669

-5.6640

4.2227 6.3858

 

Во втором столбце табл. 2.2.7 содержатся коэффициенты уравнения регрессии a0, a1, a2. В третьем столбце содержатся стандартные ошибки ко­эффициентов уравнения регрессии (2.1.12), а в четвертом - г-статистика (2.1.11), используемая для проверки значимости коэффициентов уравне­ния регрессии.

Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов, полученное с помощью EXCEL, как было указано ранее, имеет вид:

Y =-1471.314+9.568Х1.+15.754Х2.

Таблица 2.2.8

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

142.247

-16.247

2

124.697

12.303

3

159.237

-11.237

4

242.353

-51.353

5

247.021

26.979

6

307.057

62.943

7

361.200

70.800

8

416.802

28.198

9

424.177

-57.177

10

350.325

16.675

11

345.365

-24.365

12

334.724

-27.724

13

386.790

-55.790

14

352.052

-7.052

15

353.230

10.770

16

361.725