<< Пред. стр. 9 (из 19) След. >>
а в с dНапример, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 9.5).
Таблица 9.5
Заболели Не заболели Итого Привитые 30 20 50 Непривитые 15 5 20 Всего 45 25 70
Для измерения тесноты взаимосвязи признаков производится расчет коэффициента контингенции по формуле
Коэффициент контингенции принимает значение в промежутке [-1; 1]. Его интерпретация аналогична интерпретации коэффициента корреляции. Мы получили слабую отрицательную связь -0,14.
Другой метод измерения связи основан на расчете коэффициента ассоциации
Минус перед коэффициентом говорит об обратном направлении связи, т. е. чем больше прививок, тем меньше заболеваний.
9.6. Оценка уравнения парной регрессии
В начале этой главы было установлено, каким образом можно провести предварительный анализ наличия связи, определить ее направление и форму c помощью метода приведения параллельных данных, аналитических группировок, графического метода.
Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).
Уточнение формы связи, нахождение ее аналитического выражения производится путем построения уравнения связи (уравнения регрессии).
Регрессия - это односторонняя статистическая зависимость.
Уравнение регрессии позволяет определить, каким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X), если остальные факторы, влияющие на Y и не связанные с X, рассматривались неизменными (т. е. мы абстрагировались от них).
К задачам регрессионного анализа относятся:
1) установление формы зависимости;
2) определение функции регрессии;
3) оценка неизвестных значений зависимой переменной.
По аналитическому выражению различают прямолинейную и криволинейную связи.
Прямолинейная связь имеет место, когда с возрастанием (или убыванием) значений Х значения Y увеличиваются (или уменьшаются) более или менее равномерно.
В этом случае уравнение связи записывается так:
?yх = b0 + b1х.
Криволинейная форма связи может выражаться различными кривыми, из которых простейшими являются:
1) парабола второго порядка
?yх = b0 + b1х +b2х2;
2) гипербола
?yx =b0+b1 /x;
3) показательная
?yx = b0b1x;
либо в логарифмическом виде
ln?yx = lnb0 + xlnb1.
После определения формы связи, т. е. вида уравнения регрессии, по эмпирическим данным определяют параметры искомого уравнения.
При этом отыскиваемые параметры должны быть такими, чтобы рассчитанные по уравнению теоретические значения результативного признака максимально приближались к эмпирическим данным.
Чаще всего определение параметров уравнения регрессии осуществляется с помощью метода наименьших квадратов, в котором предполагается, что сумма квадратов отклонений теоретических значений от эмпирических должна быть минимальной,
В зависимости от формы связи в каждом конкретном случае определяется своя система уравнений, удовлетворяющая принципу минимизации.
9.7. Парная линейная зависимость
Предположение о парной линейной зависимости между Х и Y можно описать функцией
Y = ?0 + ?1Х + и,
где ?0, ?1 - истинные значения параметров уравнения регрессии в генеральной совокупности; и - случайная составляющая.
Существует несколько причин возникновения случайной составляющей:
1) невключение объясняющих переменных в уравнение регрессии;
2) агрегирование объясняющих переменных, включенных в уравнение регрессии;
3) неправильное описание структуры модели, т. е. неверный выбор объясняющих переменных;
4) неправильная функциональная спецификация модели. Например, для моделирования использована линейная функция, в то время как зависимость между переменными - нелинейная;
5) ошибки наблюдения (ошибки данных).
По выборочным данным определяются оценки истинных (в случае правильной спецификации модели) параметров уравнения регрессии и случайной составляющей
?yx=b0+b1х+e
где b0,b1, е - оценки неизвестных ?0 , ?1, и. В случае парной линейной зависимости вида
?yx=b0+b1х
условие минимума суммы квадратов отклонений теоретических значений от эмпирических (ST) имеет вид
Условие 1-го порядка для минимума
Отсюда получаем систему нормальных уравнений
где n - число рассматриваемых пар взаимозависимых величин;
?x - сумма значений факторного признака;
?y - сумма значений результативного признака. Вычислив по эмпирическим данным все записанные выше суммы и подставив их в систему уравнений, находим оценки параметров искомой прямой:
b0 и b1
В настоящее время необходимость в ручных расчетах отпала, так как существует множество компьютерных программ, реализующих методы регрессионного анализа. Важно понимать смысл параметров и уметь их адекватно интерпретировать.
Из системы нормальных уравнений можно вывести формулы для расчета b0 и b1
b0=?y-b1·?x. (9.23)
Здесь b1 - это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц изменится в среднем Y при изменении Х на 1 единицу. Если b1 > 0, то наблюдаем положительную связь. Если b1 < 0, то связь - отрицательная.
Параметр b1 обладает размерностью отношения у к х.
Параметр b0 - постоянная величина в уравнении регрессии (свободный член уравнения). Его интерпретация зависит от того, какой смысл имеют изучаемые признаки.
9.8. Коэффициент эластичности
На основе уравнений регрессии часто рассчитывают коэффициенты эластичности результативного признака относительно факторного.
Коэффициент эластичности (Э) показывает, на сколько процентов в среднем изменится результативный признак Y при изменении факторного признака Х на 1%. Он рассчитывается по формуле
или для практических расчетов
где
- 1-я производная уравнения регрессии у по х.
9.9. Пример расчета коэффициента уравнения регрессии
Рассмотрим методы регрессионного и корреляционного анализов. Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. Мы провели исследование в 20 случайно выбранных магазинах и получили следующие данные (табл. 9.6):
Таблица 9.6
Номер магазина Число посетителей Выручка, у.е. 1 907 11,20 2 926 11,05 3 506 6,84 4 741 9,21 5 789 9,42 6 889 10,08 7 874 9,45 8 510 6,73 9 529 7,24 10 420 6,12 11 679 7,63 12 872 9,43 13 924 9,46 14 607 7,64 15 452 6,92 16 729 8,95 17 794 9,33 18 844 10,23 19 1010 11,77 20 621 7,41 Итого 14,623 176,11
Для прогноза объемов продаж применим простую модель парной регрессии, в которой используется только одна факторная переменная - Х (число посетителей магазина). Данные, приведенные в табл. 9.6, можно представить в виде точечной диаграммы (диаграммы рассеивания) (рис. 9.2).
Диаграмма (рис. 9.2) наглядно показывает наличие линейной зависимости выручки от продажи пива от числа посетителей магазина. С увеличением числа посетителей растет выручка от продажи. Рассчитаем параметры уравнения регрессии:
?yx =b0+b1x
Для облегчения расчетов воспользуемся табл. 9.7.
Таблица 9.7
Магазин Число покупателей X Выручка Y X2 Y2 XY 1 907 11,20 822 649
125,4400
10 158,40
2
926
11,05
857 476
122,1025
10 232,30
3
506
6,84
256,036
46,7856
3461,04
4
741
9,21
549 081
84,8241
6 824,61
5
789
9,42
622 521
88,7364
7 432,38
6
889
10,08
790 321
101,6064
8961,12
7 874
9,45
763 876
89,3025
8 259,30
8 510
6,73
260 100
45,2929
3 432,30
9 529
7,24
279 841
52,4176
3 829,96
10 420
6,12
176 400
37,4544
2 570,40
11 679
7,63
461 041
58,2169
5 180,77
12 872
9,43
760 384
88,9249
8 222,96
13 924
9,46
853 776
89,4916
8 741,04
14 607
7,64
368 449
58,3696
4 637,48
15 452
6,92
204304
47,8864
3 127,84
16 729
8,95
531 441
80,1025
6 254,55
17 794
9,33
630 436
87,0489
7 408,02
18 844 ;
10,23
712 336
104,6529
8634,12
19 1010
11,77
1 020 100
138,5329
11 887,70
20 621
7,41
385 641
54,9081
4 601,61
Итого
14623
176,11
11 306 209
1 602,0971
134 127,90
Используя формулу (9.22), получим
или соответственно:
Для наших данных уравнение регрессии имеет вид
?yx =2,423 +0,0873x.
Коэффициент b1 характеризует наклон линии регрессии. b1 = 0,00873. Это означает, что при увеличении Х на единицу ожидаемое значение Y возрастет на 0,00873. То есть регрессионная модель указывает на то, что каждый новый посетитель магазина в среднем увеличивает недельную выручку магазина на 0,00873 у. е. (или можно сказать, что ожидаемый прирост ежедневной выручки составит 8,73 у. е. при привлечении в магазин 100 дополнительных посетителей). Отсюда b1 может быть интерпретирован как прирост ежедневной выручки, который варьирует в зависимости от числа посетителей магазина.
Свободный член уравнения b0 = +2,423 у. е., это - эначение Y при X, равном нулю. Поскольку маловероятно число посетителей магазина, равное нулю, то можно интерпретировать b0 как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии.
Регрессионная модель может быть использована для прогноза объема ежедневной выручки. Например, мы хотим использовать модель для предсказания средней ежедневной выручки магазина, который посетят 600 покупателей.
Для того чтобы определить прогнозируемое значение, следует Х = 600 подставить в наше регрессионное уравнение:
Отсюда прогнозируемая дневная выручка для магазина с 600 посетителями в день равна 7,661 у. е.
Когда мы используем регрессионные модели для прогноза, важно помнить, что обсуждаются только значения независимых переменных, находящиеся в пределах от наименьшего до наибольшего значений факторного признака, используемые при создании модели. Отсюда, когда мы предсказываем Y по заданным значениям X, мы можем интерполировать значения в пределах заданных рангов Х , но мы не можем экстраполировать вне рангов X. Например, когда используется число посетителей для прогноза дневной выручки магазина, то мы знаем из данных примера, что их число находится в пределах от 420 до 1010. Следовательно, предсказание недельной выручки может быть сделано только для магазинов с числом покупателей от 420 до 1010 чел. Коэффициент эластичности для модели
т. е. при увеличении среднего числа посетителей магазина на 1% еженедельная выручка в среднем вырастет на 0,7%.
9.10. Стандартная ошибка оценки уравнения регрессии
Хотя метод наименьших квадратов дает нам линию регрессии, которая обеспечивает минимум вариации, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению регрессии. Нам необходима статистическая мера вариации фактических значений Y от предсказанных значений Y. Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y. Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.
Колеблемость фактических значений признака Y относительно линии регрессии показана на рис. 9.3.
Из диаграммы видно, что хотя теоретическая линия регрессии проходит относительно близко от фактических значений Y, часть этих точек лежит выше или ниже линии регрессии. При этом
Стандартная ошибка оценки определяется как
где уi - фактические значения Y;
?yx - предсказанные значения Y для заданного х.
Для вычисления более удобна следующая формула:
Нам уже известны
Тогда
Итак, для нашего примера: Syx = 0,497. Эта стандартная ошибка характеризует меру вариации фактических данных относительно линии регрессии. Интерпретация этой меры аналогична интерпретации среднего квадратического отклонения. Если среднее квадратическое отклонение - это мера вариации относительно средней, то стандартная ошибка - это оценка меры вариации относительно линии регрессии. Однако стандартная ошибка оценки может быть использована для выводов о значении ?yx и выяснения, является ли статистически значимой взаимосвязь между двумя переменными.
9.11. Измерение вариации по уравнению регрессии
Для проверки того, насколько хорошо независимая переменная предсказывает зависимую переменную в нашей модели, необходим расчет ряда мер вариации. Первая из них - общая (полная) сумма квадратов отклонений результативного признака от средней - есть мера вариации значений Y относительно их среднего ?Y . В регрессионном анализе общая сумма квадратов может быть разложена на объясняемую вариацию или сумму квадратов отклонений за счет регрессии и необъясняемую вариацию или остаточную сумму квадратов отклонений (рис. 9.4).
Сумма квадратов отклонений вследствие регрессии это - сумма квадратов разностей между ?y
(средним значением Y) и ?yx (значением Y, предсказанным по уравнению регрессии). Сумма квадратов отклонений, не объясняемая регрессией (остаточная сумма квадратов), - это сумма квадратов разностей y и ?yx . Эти меры вариации могут быть представлены следующим образом (табл. 9.8):
Таблица 9.8
Общая сумма квадратов
(ST) = Сумма квадратов за счет регрессии
(SR) + Остаточная сумма квадратов
(SE)
Легко увидеть, что остаточная сумма квадратов ?(y-?yx)2 - это выражение, стоящее под знаком корня в формуле (9.25) (стандартной ошибки оценки). Тем не менее в процессе вычислений стандартной ошибки мы всегда вначале вычисляем сумму квадратов ошибки.
Остаточная сумма квадратов может быть представлена следующим образом:
Объясняемая сумма квадратов выразится так:
В самом деле
51,3605 = 46,9145 + 4,4460.
Из этого соотношения определяется коэффициент детерминации:
Отсюда коэффициент детерминации - доля вариации Y, которая объясняется независимыми переменными в регрессионной модели. Для нашего примера rг= 46,9145/51,3605 = 0,913.
Следовательно, 91,3% вариации еженедельной выручки магазинов могут быть объяснены числом покупателей, варьирующим от магазина к магазину. Только 8,7% вариации можно объяснить иными факторами, не включенными в уравнение регрессии.
В случае парной регрессии коэффициент детерминации равен квадратному корню из квадрата коэффициента линейной корреляции Пирсона
В простой линейной регрессии г имеет тот же знак, что и b1, Если b1 > 0, то r > 0; если b1 < 0, то r < 0, если b1 = 0, то r = 0.
В нашем примере r2 = 0,913 и b1 > 0, коэффициент корреляции r = 0,956. Близость коэффициента корреляции к 1 свидетельствует о тесной положительной связи между выручкой магазина от продажи пива и числом посетителей.
Мы интерпретировали коэффициент корреляции в терминах регрессии, однако корреляция и регрессия - две различные техники. Корреляция устанавливает силу связи между признаками, а регрессия - форму этой связи. В ряде случаев для анализа достаточно найти меру связи между признаками, без использования одного из них в качестве факторного признака для другого.
9.12. Доверительные интервалы для оценки неизвестного генерального значения ?yген(?yх) и индивидуального значения ?yi
Поскольку в основном для построения регрессионных моделей используются данные выборок, то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.
Как было сказано выше, регрессионное уравнение используется для прогноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у. е. Однако это значение - только точечная оценка истинного среднего значения. Мы знаем, что для оценки истинного значения генерального параметра возможна интервальная оценка.
Доверительный интервал для оценки неизвестного генерального значения ?yген(?yх) имеет вид
где
Здесь ?yx - предсказанное значение Y
(?yx==b0+b1yi);
Syx - стандартная ошибка оценки;
п - объем выборки;
хi - заданное значение X.