<< Пред. стр. 9 (из 19) След. >>
Здесь b1 — это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц изменится в среднем Y при изменении Х на 1 единицу. Если b1 > 0, то наблюдаем положительную связь. Если b1 < 0, то связь — отрицательная.Параметр b1 обладает размерностью отношения у к х.
Параметр b0 — постоянная величина в уравнении регрессии (свободный член уравнения). Его интерпретация зависит от того, какой смысл имеют изучаемые признаки.
9.8. Коэффициент эластичности
На основе уравнений регрессии часто рассчитывают коэффициенты эластичности результативного признака относительно факторного.
Коэффициент эластичности (Э) показывает, на сколько процентов в среднем изменится результативный признак Y при изменении факторного признака Х на 1%. Он рассчитывается по формуле
или для практических расчетов
где
— 1-я производная уравнения регрессии у по х.
9.9. Пример расчета коэффициента уравнения регрессии
Рассмотрим методы регрессионного и корреляционного анализов. Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. Мы провели исследование в 20 случайно выбранных магазинах и получили следующие данные (табл. 9.6):
Таблица 9.6
Номер магазинаЧисло посетителейВыручка, у.е.
190711,20
292611,05
35066,84
47419,21
57899,42
688910,08
78749,45
85106,73
95297,24
104206,12
116797,63
128729,43
139249,46
146077,64
154526,92
167298,95
177949,33
1884410,23
19101011,77
206217,41
Итого14,623176,11
Для прогноза объемов продаж применим простую модель парной регрессии, в которой используется только одна факторная переменная — Х (число посетителей магазина). Данные, приведенные в табл. 9.6, можно представить в виде точечной диаграммы (диаграммы рассеивания) (рис. 9.2).
Диаграмма (рис. 9.2) наглядно показывает наличие линейной зависимости выручки от продажи пива от числа посетителей магазина. С увеличением числа посетителей растет выручка от продажи. Рассчитаем параметры уравнения регрессии:
`yx =b0+b1x
Для облегчения расчетов воспользуемся табл. 9.7.
Таблица 9.7
МагазинЧисло покупателей XВыручка YX2Y2XY
190711,20822 649
125,4400
10 158,40
2
926
11,05
857 476
122,1025
10 232,30
3
506
6,84
256,036
46,7856
3461,04
4
741
9,21
549 081
84,8241
6 824,61
5
789
9,42
622 521
88,7364
7 432,38
6
889
10,08
790 321
101,6064
8961,12
7874
9,45
763 876
89,3025
8 259,30
8510
6,73
260 100
45,2929
3 432,30
9529
7,24
279 841
52,4176
3 829,96
10420
6,12
176 400
37,4544
2 570,40
11679
7,63
461 041
58,2169
5 180,77
12872
9,43
760 384
88,9249
8 222,96
13924
9,46
853 776
89,4916
8 741,04
14607
7,64
368 449
58,3696
4 637,48
15452
6,92
204304
47,8864
3 127,84
16729
8,95
531 441
80,1025
6 254,55
17794
9,33
630 436
87,0489
7 408,02
18844 ;
10,23
712 336
104,6529
8634,12
191010
11,77
1 020 100
138,5329
11 887,70
20621
7,41
385 641
54,9081
4 601,61
Итого
14623
176,11
11 306 209
1 602,0971
134 127,90
Используя формулу (9.22), получим
или соответственно:
Для наших данных уравнение регрессии имеет вид
`yx =2,423 +0,0873x.
Коэффициент b1 характеризует наклон линии регрессии. b1 = 0,00873. Это означает, что при увеличении Х на единицу ожидаемое значение Y возрастет на 0,00873. То есть регрессионная модель указывает на то, что каждый новый посетитель магазина в среднем увеличивает недельную выручку магазина на 0,00873 у. е. (или можно сказать, что ожидаемый прирост ежедневной выручки составит 8,73 у. е. при привлечении в магазин 100 дополнительных посетителей). Отсюда b1 может быть интерпретирован как прирост ежедневной выручки, который варьирует в зависимости от числа посетителей магазина.
Свободный член уравнения b0 = +2,423 у. е., это — эначение Y при X, равном нулю. Поскольку маловероятно число посетителей магазина, равное нулю, то можно интерпретировать b0 как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии.
Регрессионная модель может быть использована для прогноза объема ежедневной выручки. Например, мы хотим использовать модель для предсказания средней ежедневной выручки магазина, который посетят 600 покупателей.
Для того чтобы определить прогнозируемое значение, следует Х = 600 подставить в наше регрессионное уравнение:
Отсюда прогнозируемая дневная выручка для магазина с 600 посетителями в день равна 7,661 у. е.
Когда мы используем регрессионные модели для прогноза, важно помнить, что обсуждаются только значения независимых переменных, находящиеся в пределах от наименьшего до наибольшего значений факторного признака, используемые при создании модели. Отсюда, когда мы предсказываем Y по заданным значениям X, мы можем интерполировать значения в пределах заданных рангов Х , но мы не можем экстраполировать вне рангов X. Например, когда используется число посетителей для прогноза дневной выручки магазина, то мы знаем из данных примера, что их число находится в пределах от 420 до 1010. Следовательно, предсказание недельной выручки может быть сделано только для магазинов с числом покупателей от 420 до 1010 чел. Коэффициент эластичности для модели
т. е. при увеличении среднего числа посетителей магазина на 1% еженедельная выручка в среднем вырастет на 0,7%.
9.10. Стандартная ошибка оценки уравнения регрессии
Хотя метод наименьших квадратов дает нам линию регрессии, которая обеспечивает минимум вариации, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению регрессии. Нам необходима статистическая мера вариации фактических значений Y от предсказанных значений Y. Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y. Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.
Колеблемость фактических значений признака Y относительно линии регрессии показана на рис. 9.3.
Из диаграммы видно, что хотя теоретическая линия регрессии проходит относительно близко от фактических значений Y, часть этих точек лежит выше или ниже линии регрессии. При этом
Стандартная ошибка оценки определяется как
где уi - фактические значения Y;
`yx — предсказанные значения Y для заданного х.
Для вычисления более удобна следующая формула:
Нам уже известны
Тогда
Итак, для нашего примера: Syx = 0,497. Эта стандартная ошибка характеризует меру вариации фактических данных относительно линии регрессии. Интерпретация этой меры аналогична интерпретации среднего квадратического отклонения. Если среднее квадратическое отклонение — это мера вариации относительно средней, то стандартная ошибка - это оценка меры вариации относительно линии регрессии. Однако стандартная ошибка оценки может быть использована для выводов о значении `yx и выяснения, является ли статистически значимой взаимосвязь между двумя переменными.
9.11. Измерение вариации по уравнению регрессии
Для проверки того, насколько хорошо независимая переменная предсказывает зависимую переменную в нашей модели, необходим расчет ряда мер вариации. Первая из них — общая (полная) сумма квадратов отклонений результативного признака от средней — есть мера вариации значений Y относительно их среднего `Y . В регрессионном анализе общая сумма квадратов может быть разложена на объясняемую вариацию или сумму квадратов отклонений за счет регрессии и необъясняемую вариацию или остаточную сумму квадратов отклонений (рис. 9.4).
Сумма квадратов отклонений вследствие регрессии это — сумма квадратов разностей между `y
(средним значением Y) и `yx (значением Y, предсказанным по уравнению регрессии). Сумма квадратов отклонений, не объясняемая регрессией (остаточная сумма квадратов), — это сумма квадратов разностей y и `yx . Эти меры вариации могут быть представлены следующим образом (табл. 9.8):
Таблица 9.8
Общая сумма квадратов
(ST)=Сумма квадратов за счет регрессии
(SR)+Остаточная сумма квадратов
(SE)
Легко увидеть, что остаточная сумма квадратов S(y-`yx)2 — это выражение, стоящее под знаком корня в формуле (9.25) (стандартной ошибки оценки). Тем не менее в процессе вычислений стандартной ошибки мы всегда вначале вычисляем сумму квадратов ошибки.
Остаточная сумма квадратов может быть представлена следующим образом:
Объясняемая сумма квадратов выразится так:
В самом деле
51,3605 = 46,9145 + 4,4460.
Из этого соотношения определяется коэффициент детерминации:
Отсюда коэффициент детерминации — доля вариации Y, которая объясняется независимыми переменными в регрессионной модели. Для нашего примера rг= 46,9145/51,3605 = 0,913.
Следовательно, 91,3% вариации еженедельной выручки магазинов могут быть объяснены числом покупателей, варьирующим от магазина к магазину. Только 8,7% вариации можно объяснить иными факторами, не включенными в уравнение регрессии.
В случае парной регрессии коэффициент детерминации равен квадратному корню из квадрата коэффициента линейной корреляции Пирсона
В простой линейной регрессии г имеет тот же знак, что и b1, Если b1 > 0, то r > 0; если b1 < 0, то r < 0, если b1 = 0, то r = 0.
В нашем примере r2 = 0,913 и b1 > 0, коэффициент корреляции r = 0,956. Близость коэффициента корреляции к 1 свидетельствует о тесной положительной связи между выручкой магазина от продажи пива и числом посетителей.
Мы интерпретировали коэффициент корреляции в терминах регрессии, однако корреляция и регрессия — две различные техники. Корреляция устанавливает силу связи между признаками, а регрессия — форму этой связи. В ряде случаев для анализа достаточно найти меру связи между признаками, без использования одного из них в качестве факторного признака для другого.
9.12. Доверительные интервалы для оценки неизвестного генерального значения `yген(myх) и индивидуального значения `yi
Поскольку в основном для построения регрессионных моделей используются данные выборок, то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.
Как было сказано выше, регрессионное уравнение используется для прогноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у. е. Однако это значение — только точечная оценка истинного среднего значения. Мы знаем, что для оценки истинного значения генерального параметра возможна интервальная оценка.
Доверительный интервал для оценки неизвестного генерального значения `yген(myх) имеет вид
где
Здесь `yx — предсказанное значение Y
(`yx==b0+b1yi);
Syx — стандартная ошибка оценки;
п — объем выборки;
хi — заданное значение X.
Легко видеть, что длина доверительного интервала зависит от нескольких факторов. Для заданного уровня значимости a увеличение вариации вокруг линии регрессии, измеряемой стандартной ошибкой оценки, увеличивает длину интервала. Увеличение объема выборки уменьшит длину интервала. Более того, ширина интервала также варьирует с различными значениями X. Когда оценивается `yx по значениям X, близким к `x, то интервал тем уже, чем меньше абсолютное отклонение хi от `x (рис. 9.5).
Когда оценка осуществляется по значениям X, удаленным от среднего `x, то длина интервала возрастает.
Рассчитаем 95%-й доверительный интервал для среднего значения выручки во всех магазинах с числом посетителей, равным 600. По данным нашего примера уравнение регрессии имеет вид
`yx = 2,423 + 0,00873x:
и для `xi = 600 получим `yi; =7,661, а также
По таблице Стьюдента (приложение 5)
t18 = 2,10.
Отсюда, используя формулы (9.31) и (9.32), рассчитаем границы искомого доверительного интервала для myx
Итак, 7,369 ? myx ?7,953.
Следовательно, наша оценка состоит в том, что средняя дневная выручка находится между 7,369 и 7,953 у. е. для всех магазинов с 600 посетителями.
Для построения доверительного интервала для индивидуальных значений Yx, лежащих на линии регрессии, используется доверительный интервал регрессии вида
где hi ,`yi, , Syx ,п и хi — определяются, как и в формулах (9.31) и (9.32).
Определим 95% -и доверительный интервал для оценки дневных продаж отдельного магазина с 600 посетителями
В результате вычислений получим
Итак, 6,577? `yi ? 8,745.
Следовательно, с 95%-й уверенностью можно утверждать, что ежедневная выручка отдельного магазина, который посетили 600 покупателей, находится в пределах от 6,577 до 8,745 у. е. Длина этого интервала больше чем длина интервала, полученного ранее для оценки среднего значения Y.
9.13. Доверительные интервалы для оценки истинных значений неизвестного параметра уравнения регрессии b1 и коэффициента регрессии р в генеральной совокупности
Построим доверительный интервал для истинного значения генерального параметра b1. Для этого проверим гипотезу о равенстве нулю b1. Если гипотеза будет отклонена, то подтверждается существование линейной зависимости Y от X. Сформулируем нулевую и альтернативную гипотезы:
Н0: b1 = 0 (линейной зависимости нет);
Н1: b1? 0 (линейная зависимость есть).
Для проверки гипотезы Н0 используется t-критерий (случайная величина t, имеющая распределение Стьюдента с п - 2 степенями свободы):
где
Убедимся, что полученный выборочный результат является достаточным для заключения о том, что зависимость объема выручки от числа посетителей магазина статистически существенна на 5%-м уровне значимости.
Следовательно,
Найдем наблюдаемое значение критерия t
tкрит(a=0,05;k=18)= 2,1 (по таблице распределения Стьюдента, приложение 5).
Так как 13,77 > 2,10, то нулевая гипотеза Н0 отвергается в пользу альтернативной гипотезы Н1, и можно говорить о наличии существенной линейной зависимости ежедневной выручки от числа посетителей магазина.
Второй, эквивалентный первому, метод для проверки наличия или отсутствия линейной зависимости переменной Y от Х состоит в построении доверительного интервала для оценки b1 и определении того, принадлежит ли значение b1 этому интервалу. Доверительный интервал для оценки b1 получают по формуле
Найдем для нашего примера 95% -й. доверительный интервал для оценки b1:
Итак, 0,0074 ? b1 ? 0,01006,
т. е. с 95%-й уверенностью можно считать, что истинное значение коэффициента регрессии b1 находится в промежутке между числами 0,0074 и 0,01006. Так как эти значения больше нуля, то можно сделать вывод, что существует статистически значимая линейная зависимость выручки от числа посетителей. Если бы интервал включал нулевое значение, то мы не смогли бы сделать этого вывода.
Третий метод проверки существования линейной связи между двумя переменными состоит в проверке выборочного коэффициента корреляции r.
Для этого выдвигается нулевая гипотеза Н0: ?=0 (нет корреляции).
Альтернативная гипотеза Н1: ? ?0 (корреляция существует).
Для проверки нулевой гипотезы Н0 используем t-критерий (случайную величину t, имеющую распределение Стьюдента с п — 2 степенями свободы) (9.11).