<< Пред.           стр. 9 (из 19)           След. >>

Список литературы по разделу

 Здесь b1 — это коэффициент регрессии, характе­ризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц изме­нится в среднем Y при изменении Х на 1 единицу. Если b1 > 0, то наблюдаем положительную связь. Если b1 < 0, то связь — отрицательная.
 Параметр b1 обладает размерностью отношения у к х.
 Параметр b0 — постоянная величина в уравне­нии регрессии (свободный член уравнения). Его интерпретация зависит от того, какой смысл име­ют изучаемые признаки.
 
 9.8. Коэффициент эластичности
 На основе уравнений регрессии часто рассчиты­вают коэффициенты эластичности результативного признака относительно факторного.
 Коэффициент эластичности (Э) показывает, на сколько процентов в среднем изменится результативный признак Y при изменении факторного при­знака Х на 1%. Он рассчитывается по формуле
 или для практических расчетов
 
 
 где
  — 1-я производная уравнения регрессии у по х.
 
 9.9. Пример расчета коэффициента уравнения регрессии
 Рассмотрим методы регрессионного и корреля­ционного анализов. Предположим, что нас интере­сует выручка от продажи баночного пива в магази­нах города в течение дня. Мы провели исследова­ние в 20 случайно выбранных магазинах и получи­ли следующие данные (табл. 9.6):
 Таблица 9.6
 Номер магазинаЧисло посетителейВыручка, у.е.
 190711,20
 292611,05
 35066,84
 47419,21
 57899,42
 688910,08
 78749,45
 85106,73
 95297,24
 104206,12
 116797,63
 128729,43
 139249,46
 146077,64
 154526,92
 167298,95
 177949,33
 1884410,23
 19101011,77
 206217,41
 Итого14,623176,11
 
 
 Для прогноза объемов продаж применим про­стую модель парной регрессии, в которой используется только одна факторная переменная — Х (чис­ло посетителей магазина). Данные, приведенные в табл. 9.6, можно представить в виде точечной диаг­раммы (диаграммы рассеивания) (рис. 9.2).
 Диаграмма (рис. 9.2) наглядно показывает на­личие линейной зависимости выручки от продажи пива от числа посетителей магазина. С увеличени­ем числа посетителей растет выручка от продажи. Рассчитаем параметры уравнения регрессии:
 `yx =b0+b1x
 Для облегчения расчетов воспользуемся табл. 9.7.
 Таблица 9.7
 МагазинЧисло покупателей XВыручка YX2Y2XY
 190711,20822 649
 125,4400
 
 10 158,40
 
 2
 926
 
 11,05
  857 476
 122,1025
 
 10 232,30
 
 3
 506
 
 6,84
  256,036
 46,7856
 
 3461,04
 
 4
 741
 
 9,21
  549 081
 84,8241
 
 6 824,61
 
 5
 789
 
 9,42
  622 521
 88,7364
 
 7 432,38
 
 6
 889
 
 10,08
 
 790 321
 
 101,6064
 
 8961,12
 
 7874
  9,45
  763 876
  89,3025
  8 259,30
 
 8510
  6,73
  260 100
  45,2929
  3 432,30
 
 9529
  7,24
  279 841
  52,4176
  3 829,96
 
 10420
  6,12
  176 400
  37,4544
  2 570,40
 
 11679
  7,63
  461 041
  58,2169
  5 180,77
 
 12872
  9,43
  760 384
  88,9249
  8 222,96
 
 13924
  9,46
  853 776
  89,4916
  8 741,04
 
 14607
  7,64
  368 449
  58,3696
  4 637,48
 
 15452
  6,92
  204304
  47,8864
  3 127,84
 
 16729
  8,95
  531 441
  80,1025
  6 254,55
 
 17794
  9,33
  630 436
  87,0489
  7 408,02
 
 18844 ;
  10,23
  712 336
  104,6529
  8634,12
 
 191010
  11,77
  1 020 100
  138,5329
  11 887,70
 
 20621
  7,41
  385 641
  54,9081
  4 601,61
 
 Итого
 14623
 
 176,11
 
 11 306 209
 
 1 602,0971
 
 134 127,90
 
 
 
 Используя формулу (9.22), получим
 или соответственно:
 Для наших данных уравнение регрессии имеет вид
 `yx =2,423 +0,0873x.
 
 Коэффициент b1 характеризует наклон линии регрессии. b1 = 0,00873. Это означает, что при увеличении Х на единицу ожидаемое значение Y воз­растет на 0,00873. То есть регрессионная модель указывает на то, что каждый новый посетитель ма­газина в среднем увеличивает недельную выручку магазина на 0,00873 у. е. (или можно сказать, что ожидаемый прирост ежедневной выручки составит 8,73 у. е. при привлечении в магазин 100 дополни­тельных посетителей). Отсюда b1 может быть интерпретирован как прирост ежедневной выручки, который варьирует в зависимости от числа посетителей магазина.
 Свободный член уравнения b0 = +2,423 у. е., это — эначение Y при X, равном нулю. Поскольку маловероятно число посетителей магазина, равное нулю, то можно интерпретировать b0 как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии.
 Регрессионная модель может быть использована для прогноза объема ежедневной выручки. Например, мы хотим использовать модель для предсказа­ния средней ежедневной выручки магазина, кото­рый посетят 600 покупателей.
 Для того чтобы определить прогнозируемое зна­чение, следует Х = 600 подставить в наше регрессионное уравнение:
 
 Отсюда прогнозируемая дневная выручка для магазина с 600 посетителями в день равна 7,661 у. е.
 Когда мы используем регрессионные модели для прогноза, важно помнить, что обсуждаются только значения независимых переменных, находящиеся в пределах от наименьшего до наибольшего значе­ний факторного признака, используемые при созда­нии модели. Отсюда, когда мы предсказываем Y по заданным значениям X, мы можем интерполиро­вать значения в пределах заданных рангов Х , но мы не можем экстраполировать вне рангов X. На­пример, когда используется число посетителей для прогноза дневной выручки магазина, то мы знаем из данных примера, что их число находится в преде­лах от 420 до 1010. Следовательно, предсказание недельной выручки может быть сделано только для магазинов с числом покупателей от 420 до 1010 чел. Коэффициент эластичности для модели
 т. е. при увеличении среднего числа посетителей магазина на 1% еженедельная выручка в среднем вырастет на 0,7%.
 
 9.10. Стандартная ошибка оценки уравнения регрессии
 Хотя метод наименьших квадратов дает нам ли­нию регрессии, которая обеспечивает минимум вариа­ции, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению ре­грессии. Нам необходима статистическая мера вари­ации фактических значений Y от предсказанных зна­чений Y. Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y. Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.
 Колеблемость фактических значений признака Y относительно линии регрессии показана на рис. 9.3.
 Из диаграммы видно, что хотя теоретическая линия регрессии проходит относительно близко от фактических значений Y, часть этих точек лежит выше или ниже линии регрессии. При этом
 Стандартная ошибка оценки определяется как
 где уi - фактические значения Y;
 `yx — предсказанные значения Y для заданного х.
 Для вычисления более удобна следующая фор­мула:
 Нам уже известны
 
 
 Тогда
 Итак, для нашего примера: Syx = 0,497. Эта стандартная ошибка характеризует меру вариа­ции фактических данных относительно линии ре­грессии. Интерпретация этой меры аналогична интерпретации среднего квадратического отклоне­ния. Если среднее квадратическое отклонение — это мера вариации относительно средней, то стан­дартная ошибка - это оценка меры вариации отно­сительно линии регрессии. Однако стандартная ошибка оценки может быть использована для вы­водов о значении `yx и выяснения, является ли статистически значимой взаимосвязь между дву­мя переменными.
 
 9.11. Измерение вариации по уравнению регрессии
 Для проверки того, насколько хорошо независи­мая переменная предсказывает зависимую переменную в нашей модели, необходим расчет ряда мер вариации. Первая из них — общая (полная) сумма квадратов отклонений результативного признака от средней — есть мера вариации значений Y относи­тельно их среднего `Y . В регрессионном анализе об­щая сумма квадратов может быть разложена на объясняемую вариацию или сумму квадратов от­клонений за счет регрессии и необъясняемую вариацию или остаточную сумму квадратов отклонений (рис. 9.4).
 Сумма квадратов отклонений вследствие регрес­сии это — сумма квадратов разностей между `y
 
 
 (средним значением Y) и `yx (значением Y, предска­занным по уравнению регрессии). Сумма квадратов отклонений, не объясняемая регрессией (остаточ­ная сумма квадратов), — это сумма квадратов раз­ностей y и `yx . Эти меры вариации могут быть пред­ставлены следующим образом (табл. 9.8):
 Таблица 9.8
 Общая сумма квадратов
 (ST)=Сумма квадратов за счет регрессии
 (SR)+Остаточная сумма квадратов
 (SE)
 
 
 Легко увидеть, что остаточная сумма квадратов S(y-`yx)2 — это выражение, стоящее под знаком корня в формуле (9.25) (стандартной ошибки оцен­ки). Тем не менее в процессе вычислений стандартной ошибки мы всегда вначале вычисляем сумму квадратов ошибки.
 Остаточная сумма квадратов может быть пред­ставлена следующим образом:
 Объясняемая сумма квадратов выразится так:
 В самом деле
 51,3605 = 46,9145 + 4,4460.
 Из этого соотношения определяется коэффициент детерминации:
 Отсюда коэффициент детерминации — доля ва­риации Y, которая объясняется независимыми переменными в регрессионной модели. Для нашего примера rг= 46,9145/51,3605 = 0,913.
 Следовательно, 91,3% вариации еженедельной выручки магазинов могут быть объяснены числом покупателей, варьирующим от магазина к магази­ну. Только 8,7% вариации можно объяснить ины­ми факторами, не включенными в уравнение рег­рессии.
 В случае парной регрессии коэффициент детер­минации равен квадратному корню из квадрата коэффициента линейной корреляции Пирсона
 В простой линейной регрессии г имеет тот же знак, что и b1, Если b1 > 0, то r > 0; если b1 < 0, то r < 0, если b1 = 0, то r = 0.
 В нашем примере r2 = 0,913 и b1 > 0, коэффици­ент корреляции r = 0,956. Близость коэффициента корреляции к 1 свидетельствует о тесной положи­тельной связи между выручкой магазина от прода­жи пива и числом посетителей.
 Мы интерпретировали коэффициент корреляции в терминах регрессии, однако корреляция и регрессия — две различные техники. Корреляция ус­танавливает силу связи между признаками, а регрессия — форму этой связи. В ряде случаев для анализа достаточно найти меру связи между признаками, без использования одного из них в каче­стве факторного признака для другого.
 
 9.12. Доверительные интервалы для оценки неизвестного генерального значения `yген(myх) и индивидуального значения `yi
 Поскольку в основном для построения регрессионных моделей используются данные выборок, то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.
 Как было сказано выше, регрессионное уравнение используется для прогноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у. е. Однако это значение — только точечная оценка истинного среднего значе­ния. Мы знаем, что для оценки истинного значе­ния генерального параметра возможна интерваль­ная оценка.
 Доверительный интервал для оценки неизвест­ного генерального значения `yген(myх) имеет вид
 где
 Здесь `yx — предсказанное значение Y
 (`yx==b0+b1yi);
 Syx — стандартная ошибка оценки;
 п — объем выборки;
 хi — заданное значение X.
 Легко видеть, что длина доверительного интер­вала зависит от нескольких факторов. Для заданного уровня значимости a увеличение вариации вокруг линии регрессии, измеряемой стандартной ошибкой оценки, увеличивает длину интервала. Увеличение объема выборки уменьшит длину интервала. Более того, ширина интервала также ва­рьирует с различными значениями X. Когда оценивается `yx по значениям X, близким к `x, то ин­тервал тем уже, чем меньше абсолютное отклонение хi от `x (рис. 9.5).
 Когда оценка осуществляется по значениям X, удаленным от среднего `x, то длина интервала возрастает.
 Рассчитаем 95%-й доверительный интервал для среднего значения выручки во всех магазинах с числом посетителей, равным 600. По данным на­шего примера уравнение регрессии имеет вид
 `yx = 2,423 + 0,00873x:
 и для `xi = 600 получим `yi; =7,661, а также
 По таблице Стьюдента (приложение 5)
 t18 = 2,10.
 Отсюда, используя формулы (9.31) и (9.32), рас­считаем границы искомого доверительного интер­вала для myx
 Итак, 7,369 ? myx ?7,953.
 Следовательно, наша оценка состоит в том, что средняя дневная выручка находится между 7,369 и 7,953 у. е. для всех магазинов с 600 посетителями.
 Для построения доверительного интервала для индивидуальных значений Yx, лежащих на линии регрессии, используется доверительный интервал регрессии вида
 
 где hi ,`yi, , Syx ,п и хi — определяются, как и в формулах (9.31) и (9.32).
  Определим 95% -и доверительный интервал для оценки дневных продаж отдельного магазина с 600 посетителями
 В результате вычислений получим
 Итак, 6,577? `yi ? 8,745.
 Следовательно, с 95%-й уверенностью можно ут­верждать, что ежедневная выручка отдельного магазина, который посетили 600 покупателей, нахо­дится в пределах от 6,577 до 8,745 у. е. Длина это­го интервала больше чем длина интервала, полу­ченного ранее для оценки среднего значения Y.
 
 9.13. Доверительные интервалы для оценки истинных значений неизвестного параметра уравнения регрессии b1 и коэффициента регрессии р в генеральной совокупности
 Построим доверительный интервал для истинно­го значения генерального параметра b1. Для этого проверим гипотезу о равенстве нулю b1. Если гипо­теза будет отклонена, то подтверждается существование линейной зависимости Y от X. Сформулиру­ем нулевую и альтернативную гипотезы:
 Н0: b1 = 0 (линейной зависимости нет);
 Н1: b1? 0 (линейная зависимость есть).
 Для проверки гипотезы Н0 используется t-кри­терий (случайная величина t, имеющая распреде­ление Стьюдента с п - 2 степенями свободы):
 
 
 где
 
 
 Убедимся, что полученный выборочный резуль­тат является достаточным для заключения о том, что зависимость объема выручки от числа посетите­лей магазина статистически существенна на 5%-м уровне значимости.
 Следовательно,
  Найдем наблюдаемое значение критерия t
  tкрит(a=0,05;k=18)= 2,1 (по таблице распределения Стьюдента, приложение 5).
 Так как 13,77 > 2,10, то нулевая гипотеза Н0 отвергается в пользу альтернативной гипотезы Н1, и можно говорить о наличии существенной линей­ной зависимости ежедневной выручки от числа посетителей магазина.
 Второй, эквивалентный первому, метод для про­верки наличия или отсутствия линейной зависимо­сти переменной Y от Х состоит в построении дове­рительного интервала для оценки b1 и определении того, принадлежит ли значение b1 этому интервалу. Доверительный интервал для оценки b1 получают по формуле
 Найдем для нашего примера 95% -й. доверитель­ный интервал для оценки b1:
 Итак, 0,0074 ? b1 ? 0,01006,
 т. е. с 95%-й уверенностью можно считать, что ис­тинное значение коэффициента регрессии b1 находится в промежутке между числами 0,0074 и 0,01006. Так как эти значения больше нуля, то можно сделать вывод, что существует статистичес­ки значимая линейная зависимость выручки от числа посетителей. Если бы интервал включал ну­левое значение, то мы не смогли бы сделать этого вывода.
 Третий метод проверки существования линейной связи между двумя переменными состоит в проверке выборочного коэффициента корреляции r.
 Для этого выдвигается нулевая гипотеза Н0: ?=0 (нет корреляции).
 Альтернативная гипотеза Н1: ? ?0 (корреляция существует).
 Для проверки нулевой гипотезы Н0 используем t-критерий (случайную величину t, имеющую распределение Стьюдента с п — 2 степенями свобо­ды) (9.11).

<< Пред.           стр. 9 (из 19)           След. >>

Список литературы по разделу