Регрессия
представляет собой зависимость среднего значения какой-либо величины от
некоторой другой величины или от нескольких величин. В отличие от
функциональной зависимости, когда каждому значению независимой переменной х
соответствует одно определенное значение величины y, при регрессионной связи одному и тому же значению х
могут соответствовать в зависимости от случая различные значения величины y.
В зависимости от количества факторов, включенных в
уравнение регрессии, принято различать простую (парную) и множественную регрессии.
Простая
регрессия представляет собой
регрессию между двумя переменными – y и x, т. е. модель вида:
|
(1) |
где y – зависимая переменная (результативный признак); x – независимая,
или объясняющая переменная (признак –
фактор, или регрессор).
Множественная регрессия представляет собой регрессию результативного признака
с двумя и большим числом факторов, т. е. модель вида:
|
(2) |
Любое экологическое
исследование начинается со спецификации
модели, т. е. с формулировки вида модели, исходя из соответствующей теории
связи между переменными.
Из всего круга факторов,
влияющих на результативный признак, необходимо выделить наибольшие, существенно
влияющие факторы. Парная регрессия достаточна, если имеется доминирующий
фактор, который и используется в качестве объясняющей переменной.
Уравнение простой
регрессии характеризует связь между двумя переменными, которая проявляется как
закономерность лишь в среднем по
совокупности наблюдений.
В уравнении регрессии корреляционная по сути связь признаков представляется в виде
функциональной связи. В каждом отдельном случае величина y складывается
из двух слагаемых:
,
где - фактическое значение результативного признака;
- значение признака, найденное из математической функции связи y и x, т. е. из
уравнения регрессии;
- случайная величина, характеризующая отклонение
реального значения признака от найденного по уравнению регрессии.
Случайная величина ε называется также возмущением. Она включает влияние не учтенных
в модели факторов, случайных ошибок и особенностей измерения. Ее порождают 3
источника: спецификация модели, выборочный характер исходных данных и ошибки измерения.
Ошибки спецификации. Это, прежде всего, неправильно выбранная форма модели. В частности,
зависимость может быть выражена линейно
,
но возможны и другие
соотношения, например:
,
,
.
Ошибки спецификации тем
меньше, чем в большей мере теоретические значения признака подходят к
фактическим данным y.
К ошибкам спецификации
относится также недоучет в уравнении регрессии какого-либо существенного
фактора, т. е. использование парной регрессии вместо
множественной. Например, спрос на конкретный товар может определяться не только
ценой, но и доходом на душу населения.
Ошибки выборки.
Исследователь при установлении связи между признаками имеет дело с выборочными
данными. При изучении экологических процессов данные в исходной совокупности
часто являются неоднородными. В этом случае уравнение регрессии не имеет
практического смысла. Поэтому для
получения хорошего результата из выборки исключают единицы с аномальными
значениями исследуемых признаков.
Ошибки измерения. Представляют наибольшую опасность в практическом использовании методов
регрессии. Ошибки спецификации можно уменьшить, изменяя форму модели, ошибки
выборки – увеличивая объем исходных данных, ошибки измерения сводят на нет все
усилия по количественной оценке связи между признаками. Например,
статистическое измерение дохода на душу населения может иметь ошибку в
результате наличия сокрытых доходов. Другой пример: органы государственной
статистики получают балансы предприятий, достоверность которых никто не подтверждает.
В экологических
исследованиях предполагается, что ошибки измерения сведены к минимуму. Поэтому
основное внимание уделяется ошибкам
спецификации модели.
В
парной регрессии выбор вида математической функции (1) может быть осуществлен тремя методами:
графическим, аналитическим и экпериментальным.
Линейная регрессия сводится к нахождению уравнения
вида:
|
|
Рис.1.
График линии регрессии
Первое выражение позволяет по заданным значениям
фактора x рассчитать теоретические значения результативного
признака, подставляя в него фактические значения фактора x. На
графике теоретические значения лежат на прямой, которые представляют собой
линию регрессии (рис. 1).
Построение линейной регрессии сводится к оценке ее параметров
а и b. Классический подход к оцениванию параметров линейной
регрессии основан на методе наименьших
квадратов (МНК).
МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических
значений от
теоретических
минимальна:
|
|
Для нахождения минимума
надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.
(5)
Преобразуем, получаем систему нормальных уравнений:
(6)
В этой системе n - объем
выборки, суммы легко рассчитываются из исходных данных. Решаем систему
относительно а и b, получаем:
(7)
. (8)
Выражение (7) можно
записать в другом виде:
(9)
где ковариация признаков,
дисперсия фактора x.
Параметр b называется
коэффициентом регрессии. Его
величина показывает среднее изменение результата с изменением фактора на одну
единицу. Возможность четкой экологической интерпретации коэффициента регрессии
сделала линейное уравнение парной регрессии достаточно распространенным в экологических
исследованиях.
Формально a – значение y при x = 0. Если x не
имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не
имеет смысла. Параметр a может не иметь экологического содержания. Попытки экологически
интерпретировать его могут привести к абсурду, особенно при a< 0. Интерпретировать можно лишь знак при параметре a. Если a> 0, то относительное изменение результата происходит медленнее, чем
изменение фактора. Сравним эти относительные изменения:
<
при
> 0,
> 0
<
Иногда линейное уравнение парной регрессии записывают
для отклонений от средних значений:
, (10)
где ,
. При этом свободный член равен нулю, что и отражено в
выражении (10). Этот факт следует из геометрических соображений: уравнению
регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях
начало координат перемещается в точку с координатами
. При этом в выражении (8) обе суммы будут равны нулю, что и
повлечет равенство нулю свободного члена.
В теории вероятностей каждый исход
эксперимента рассматривается как случайный. Это означает, что заранее
неизвестно, какой из исходов будет иметь место при проведении эксперимента. Однако
ясно, что, во-первых, в результате каждого испытания обязательно должен иметь место
какой-то исход и, во-вторых, в результате одного испытания не может быть двух исходов.
Интуитивно под вероятностью исхода понимают численную меру,
которая характеризует объективную возможность данного исхода эксперимента. Это
означает, что каждому из элементов приписывается некоторое положительное
вещественное число, на которое наложены следующие ограничения:
1) р тем больше, чем больше
уверенность в том, что будет иметь место именно данный исход эксперимента;
2) сумма значений р для
всех возможных исходов эксперимента должна быть равна единице.
Пусть некоторый эксперимент состоит из N равновозможных исходов (т. е. нет
объективных причин считать, что какой-то исход испытания наступает чаще, чем
другой). Допустим, что из общего числа всех исходов событию А
благоприятствуют NA исходов. Тогда вероятностью события А
при данном испытании называется число
(1.1)
Такое определение вероятности называется классическим. Классическое
определение служит хорошей математической моделью при решении задач из области
азартных игр, лотерей, организации выборочного контроля, выборочных
статистических исследований и т.п., поскольку здесь предположение о равновозможности всех исходов испытания заложено в самой
постановке вопроса.
Рассмотрение задач,
связанных с вычислением вероятности по классическому определению, удобно
проводить по следующей схеме:
-
выяснить,
в чем состоит эксперимент;
-
организовать
эксперимент так, чтобы он состоял только из равновозможных исходов;
-
найти
число равновозможных исходов N;
-
описать
событие, вероятность которого нужно отыскать;
-
указать,
какие исходы из числа равновозможных благоприятствуют интересующему событию и подсчитать их;
-
по
формуле (1.1) вычислить искомую вероятность.
Из того, что вероятность является
соотношением, следуют два важных вывода. Если мы обозначим вероятность исхода
эксперимента р, то можно сказать следующее:
1.
Числовое значение вероятности находится в интервале от 0
до 1 включительно:
0 £ р £ 1,
т.е. р
не может быть отрицательным или быть больше 1.
2.
Сумма вероятностей результатов (вероятность полной группы
событий) равна 1, т.е. вероятность того, что что-то произойдет, равна 1:.
Следовательно, вероятность события A есть Р(A), тогда:
0 ≤ Р(A) ≤ 1.
При общем числе экспериментов n, из которых m удачных, вероятность требуемого результата
подсчитывается так:
Р
(успешных исходов) = m/n
при большом n.
Отношение m/n есть относительная частота появления определенного
результата при достаточно продолжительном эксперименте. Вероятность обычно
подсчитывается либо на основе данных проведенного эксперимента, либо на основе
прошлых данных.
Начнем с двух определений:
Независимыми событиями А и В называются такие, если появление одного из них не
изменяет вероятности появления другого. Например: по одному разу брошены монета
и кость, выпали – «решка» и «6». Результаты обоих
событий друг на друга не влияют, поэтому называются независимыми.
Несовместимыми событиями А и В называются такие, если может произойти только одно из
них. Например, брошена игральная кость: А – выпало четное число, В – нечетное. Если кость брошена только один раз, А и В произойти одновременно не могут, поэтому они –
несовместные события.
Вероятность сложных событий определяется
двумя правилами – правилом сложения вероятностей и правилом умножения вероятностей.
Для простоты рассмотрим лишь два события – А
и В. Правило сложения вероятностей применяется для подсчета вероятности
осуществления событий А или В, или их обоих сразу:
Р(А + В)
= Р(А) + А(В) - Р(АВ).
Если события А и В
несовместимы, то:
Р(А+В) =
Р(А) + Р(В).
Так как события А и
В – несовместимые, то они не могут произойти одновременно, значит:
Р(АВ) =
0.
Рассмотрим два события – А и В, которые происходят друг за другом. Р
(А) – вероятность события А. Отсюда возникают две альтернативные ситуации:
1. В от А не
зависит, и на вероятность события В не влияет то, произошло ли уже событие А
или нет.
2. А и В –
зависимы, т.е. вероятность события В зависит от того, произошло ли уже событие
А или нет. В этом случае вероятность события В
называется условной. Вероятность В при условии, что А
произошло, обозначается так:
P(В
при условии А) или P(В/А).
Если А и В
независимы, тогда:
Р (В при
условии А) = Р (В).
Это правило применяется, когда требуется
найти вероятность того, что события А и В произойдут
одновременно. Правило умножения вероятностей состоит в следующем:
Р (АВ ) =
Р (А ) × Р (В/А ).
Если А и В независимы, то Р
(В/А) = Р (В), и правило выглядит так:
Р (АВ ) =
Р (А) × Р (В ).
Рассмотренные правила применимы также, если
событий более, чем два. Для несовместимых событий
правило сложения вероятностей приобретает следующий вид:
Р(А + В +
С+ ...) = Р(А) + Р(В) + Р(С) + ...
Для совместимых событий формула приобретает
очень сложный вид. Для независимых событий правило умножения вероятностей имеет
следующий вид:
Р (А и В
и С и ...) = Р (А) × Р (В ) × Р (С ) × ...
Если события не являются независимыми, то
правило умножения вероятностей запишется как:
Р (А
× В × С × ...) = Р (А ) × Р (В/А ) × Р (С/АВ )
× ...
Пусть Hi; (i = 1, 2, ..., n) – попарно несовместные события с
положительными вероятностями Р(Hi) и пусть событие А
может наступить только вместе с одним из них с некоторой условной вероятностью P(A/Hi), тогда имеет место так называемая формула
полной вероятности:
(1.2)
События Hi называются по отношению к событию А гипотезами.
Пусть выполнены все предыдущие условия и стало известно, что
событие А произошло, тогда для нахождения условных вероятностей Р(Hi/A) справедлива формула Байеса:
(i = 1, 2, …, n) (1.3)
где Р(A) находится по формуле (1.2).
Остановимся на содержательном аспекте применения формул (1.2) и (1.3).
Пусть событие А происходит при различных условиях,
по поводу которых можно высказать гипотезы Hi; (i = 1, 2, ..., n). Допустим, что известны
вероятности Р(Hi) (они называются априорными, т.е. доопытными)
и Р(A/Hi). В указанных предположениях по формуле (1.2)
Р(A) находится в том случае, если неизвестно, какая из гипотез
в действительности осуществилась.
Пусть теперь А произошло. Тогда
вероятности гипотез Р(Hi) можно переоценить, т. е. вычислить
условные вероятности р(Hi/A),
опираясь на формулу (1.3).
Эти уточненные вероятности называются апостериорными (послеопытными).
Решая задачи на эту тему, следует:
-
выяснить,
в чем состоит испытание;
-
событие,
вероятность которого ищется, обозначить, например, буквой А;
-
составить
множество попарно несовместных гипотез Hi; (i = 1, 2, ..., n);
-
вычислить
вероятности р(Hi) и
Р(А/Hi) (i = 1, 2, ..., n);
-
по
формуле (1.2) найти Р(A). Если же известно, что А уже
произошло, то по формуле (3) определяем Р(Hi/A).
Испытания c1, c2, ... называются независимыми, если исход каждого ci (i ³ 2) не зависит от исходов всех
предшествующих испытаний, т.е. исходы любого конечного числа различных испытаний
из этой последовательности независимы в совокупности.
Например, последовательность бросания наудачу правильной монеты
или игральной кости, выборочный контроль качества продукции и т. д.
В схеме Бернулли рассматривается серия, состоящая из п независимых испытанийc1, c2, ..., cn, каждое из которых имеет лишь два исхода:
наступление какого-то события А (успех) или его не наступление
(неудача), причем вероятность успеха при одном испытании Р(А) = р(0
< р < 1) постоянна и не зависит от номера испытания. Числа n и p называются параметрами схемы.
Бернулли.
В рамках этой схемы для заданного целого
числа т (0 £ т £ п)
определяется вероятность Рn (т) того, что событие А в данной серии испытаний наступит точно т
раз, а именно справедлива формула Бернулли:
(1.4)
где q = 1 - p
Вероятности Рn (т) (m = 0, 1, ... , n) называются биномиальными, так как
правая часть формулы- (1.4) представляет собой общий член разложения бинома
Ньютона
Отсюда вытекает, что сумма всех биномиальных вероятностей равна 1.
Пусть Рn(m1 £ т £ m2) означает вероятность того, что в n испытаниях схемы Бернулли успех наступает
не менее чем m1 раз
и не более чем m2 раз
(0 £ m1 £ т £ m2 £ n). Тогда имеет место формула
(1.5)
Вероятность Pn(1 £ m £ n) того, что в результате п испытаний успех наступит хотя бы один раз,
определяется формулой
Pn(1 £ m £ n) = 1-qn (1.6)
Отметим, что вероятности Рn(m) при фиксированном n сначала растут при увеличении числа m от 0 до некоторого значения m0, а затем убывают при изменении числа m от m0 до п.
Число успехов m0, которому при заданном n соответствует максимальная биномиальная
вероятность Рn(m0) называется наиболее вероятным (наивероятнейшим) числом
успехов. Известно, что m0 удовлетворяет системе неравенств
np - q £ m0 £ np + q (1.7)
имеющей одно целое решение m0 = [(n+1)´p] если np-q – нецелое число, и два целых решения и
если np-q – целое число. Из неравенств (7) получаем
откуда при достаточно больших n
т.е. наиболее вероятная частота успехов близка к вероятности
успеха в одном испытании.
Поясним, что вероятностная схема Бернулли – математическая модель
реального явления (все ее требования в точности никогда не выполняются), и
только на практике можно проверить ее пригодность для исследования того или
иного процесса.
Для применения схемы Бернулли к решению задач необходимо, чтобы:
-
проводимые
испытания были независимы;
-
каждое
испытание имело только два исхода;
-
вероятность
появления интересующего события в каждом испытании была одна и та же.
Исходы эксперимента обычно либо выражаются в числовом виде, либо
им можно поставить в соответствие некоторые действительные числа. Например,
исходы бросания игральной кости выражаются в виде целых чисел от 1 до 6. А
проверка на брак некоторого изделия дает два исхода: некачественное
и качественное. В этом случае можно использовать число 0 для представления исхода
"некачественный" и 1 - для исхода "качественный".
Численное представление исходов эксперимента - это то, что именуется случайной
величиной.
Случайная величина х может быть дискретной, содержащей в
определенном интервале конечное множество разных значений, выражающихся целым
числом, или непрерывной, число разных значений которой бесконечно и
распределяются они непрерывно (по крайней мере на
одном из отрезков ост действительных чисел). Например, случайная величина,
связанная с бросанием игральной кости, является дискретной со значениями от 1
до 6, тогда как время между поступлениями заявок в систему обслуживания выражается
непрерывной случайной величиной с положительными значениями.
Как непрерывная, так и дискретная случайная величина имеет плотность
распределения вероятностей, которая часто именуется просто плотностью
вероятности и обозначается как f(x) (для непрерывной случайной величины) или p(x) (для дискретной случайной величины).
Плотность вероятности ставит в соответствие случайной величине вероятностную
меру. Плотности вероятностей должны удовлетворять условиям неотрицательности и нормировки.
Условие неотрицательности
для непрерывных и дискретных распределений означает, что плотность вероятности
не может принимать отрицательные значения (в противном случае вероятность
некоторых событий могла бы быть отрицательной). Условие нормировки показывает,
что сумма вероятностей по всему пространству событий должна быть равна единице.
Самой
важной вероятностной характеристикой случайной величины является функция
распределения, выражающая вероятность того, что величина случайной
переменной не превысит заданного значения Х.
Для дискретной
случайной величины х:
Для непрерывной
случайной величины х:
Пусть х - случайная величина, h(x) - некоторая функция от х. Математическим ожиданием значений функции h(x), которое обозначается как M{h(x)}, называется средняя величина,
взвешенная по отношению к плотности
вероятности случайной величины x. При заданной плотности
вероятности p(x) для дискретной случайной
величины х математическое ожидание равно:
,
для непрерывной
случайной величины
Распределение Пуассона можно использовать для определения
вероятностей ряда событий, наступающих при следующих обстоятельствах:
1. Количество наступающих событий рассматривается
на заданном временном интервале.
2.
Не зависящие друг от друга события наступают случайно.
3.
Среднее (арифметическое) количество наступающих событий известно и постоянно.
Пусть например, регистрируется количество дорожных происшествий
за неделю на определенном участке дороги. Это число представляет собой
случайную величину, которая может принимать значения: 0, 1,2, 3, ... (верхнего
предела нет). Число дорожных происшествий может быть каким угодно большим. Если рассмотреть какой-либо короткий
временной промежуток в течение недели, скажем минуту, то происшествие либо произойдет
на его протяжении, либо нет. Вероятность дорожного происшествия в течение
отдельно взятой минуты очень мала, и примерно такая же она для всех минут.
Распределение вероятностей числа происшествий описывается
формулой:
Р(r происшествий в неделю) = r = 0, 1, 2, 3,…,
где m – среднее количество происшествий
за неделю на определенном участке дороги;
е – константа, равная 2,718...
Распределение вероятностей Пуассона может быть использовано
не только при работе со случайными величинами на временных интервалах, но и при
учете дефектов дорожного покрытия на километр пути или опечаток на страницу
текста.
Общая формула распределения вероятностей Пуассона:
P(r) = r
= 0, 1, 2, 3,…,
где m – среднее число событий на единицу.
Для определения значений Р(r)
существуют таблицы распределения вероятностей Пуассона. Однако проще и точнее
определить значение Р(r) на ПК.
Равномерное распределение – простейший пример распределения
непрерывной случайной величины. Это распределение полезно при описании
переменных, у которых каждое значение равновероятно, т.е. значения переменной
равномерно распределены в некоторой области.
Нормальное распределение используется в ситуациях, связанных
с измерениями веса или объема товаров, роста мужчин, проходящих медкомиссию,
срока работы электроламп и т.д. Характерные свойства равномерного распределения
относятся также и к нормальному распределению:
1. Площадь, образуемая кривой нормального распределения,
представляет собой вероятность, что непрерывная случайная величина примет
значения из заданного интервала.
2. Общая площадь под кривой нормального распределения равна
полной вероятности, т.е. 1.
3. Невозможно точно определить вероятность того, что
непрерывная случайная величина принимает какое-то конкретное значение.
Нормальное вероятностное распределение – это симметричное относительно среднего
случайного значения величины распределение. Теоретически
значения случайной величины находятся в интервале от минус до плюс
бесконечности, т.е. непрерывная случайная величина может принимать любые значения,
как положительные, так и отрицательные. Однако на практике нормальное
распределение обычно используется для случайной величины, значения которой
расположены в ограниченном интервале. На рис. 8 представлен график нормального
распределения.
Функция плотности вероятности для нормального распределения
представляет собой сложную математическую функцию, которая зависит от среднего
значения случайной величины m и ее дисперсии σ2. Все нормальные распределения
можно свести к единому стандартному вероятностному распределению, для которого
среднее значение случайной величины равно 0, а дисперсия равна 1. Для этого
распределения были составлены таблицы, по которым определяли искомую вероятность.
Рис. 2. Распределение пачек чая по весу
К счастью сегодня подобные задачи можно решать намного
проще, используя для этого персональный компьютер и соответствующее программное
обеспечение. Так математическая система MathCAD имеет встроенные функции, в частности такие как:
pnorm(x,m,s) - возвращает функцию нормального
распределения со средним m и среднеквадратичным отклонением
s. s > 0.
qnorm(p,m,s) - обращает нормальное
распределение со средним m и среднеквадратичным отклонением
s. 0 < p <1 и
s > 0.