Контрольная работа: Парная регрессия
Название: Парная регрессия Раздел: Рефераты по математике Тип: контрольная работа | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1 , Х2 , … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом. Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией. Парная регрессия – уравнение связи двух переменных у иx : , где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор). Различают линейные и нелинейные регрессии. Линейная регрессия:. Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам. Регрессии, нелинейные по объясняющим переменным: • полиномы разных степеней •равносторонняя гипербола Регрессии, нелинейные по оцениваемым параметрам: • степенная ; • показательная • экспоненциальная Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е. Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b : Можно воспользоваться готовыми формулами, которые вытекают из этой системы: Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии и индекс корреляции - для нелинейной регрессии (): Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации. Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических: Допустимый предел значений – не более 8 – 10%. Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения: Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной: где – общая сумма квадратов отклонений; – сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»); –остаточная сумма квадратов отклонений. Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2 :
Коэффициент детерминации – квадрат коэффициента или индекса корреляции. F -тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F -критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы: п – число единиц совокупности; т – число параметров при переменных х. Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01. Если Fтабл < Fфакт , то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > Fфакт , то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии. Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки: Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам: Сравнивая фактическое и критическое (табличное) значения t-статистики – tтабл и tфакт – принимаем или отвергаем гипотезу Hо . Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством Если tтабл < tфакт , то Hо отклоняется, т.е. а, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт , то гипотеза Но не отклоняется и признается случайная природа формирования a , b или . Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя: Формулы для расчета доверительных интервалов имеют следующий вид: Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения. Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза : где и строится доверительный интервал прогноза: где Задача: По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):
Задание 1. Постройте поле корреляции и сформулируйте гипотезу о форме связи. 2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. 3. Оцените тесноту связи с помощью показателей корреляции и детерминации. 4. С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом. 5. Качество уравнений оцените с помощью средней ошибки аппроксимации. 6. С помощью F-критерия Фишера определите статистическую надежность результатов регрессионного моделирования. Выберите лучшее уравнение регрессии и дайте его обоснование. 7. Рассчитайте прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости α=0,05. 8. Оцените полученные результаты, выводы оформите в аналитической записке. 1. Поле корреляции для: · Линейной регрессии y=a+b*x: · Гипотеза о форме связи: чем больше размер среднедушевого денежного дохода в месяц (факторный признак), тем больше при прочих равных условиях розничная продажа телевизоров (результативный признак). В данной модели параметр b называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признаках на одну единицу. · Степенной регрессии : Гипотеза о форме связи : степенная функция имеет вид Y=axb . Параметр b степенного уравнения называется показателем эластичности и указывает, на сколько процентов изменится у при возрастании х на 1%. При х = 1 a = Y. · Экспоненциальная регрессия : · Равносторонняя гипербола : Гипотеза о форме связи: В ряде случаев обратная связь между факторным и результативным признаками может быть выражена уравнением гиперболы: Y=a+b/x. · Обратная гипербола : · Полулогарифмическая регрессия : 2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. · Рассчитаем параметры уравнений линейной парной регрессии. Для расчета параметров a и b линейной регрессии y=a+b*x решаем систему нормальных уравнений относительно a и b: По исходным данным рассчитываем ∑y, ∑x, ∑yx, ∑x2 , ∑y2 (табл. 2):
Система нормальных уравнений составит: Ур-ие регрессии: = 5,777+7,122∙x. Данное уравнение показывает, что с увеличением среднедушевого денежного дохода в месяц на 1 тыс. руб. доля розничных продаж телевизоров повышается в среднем на 7,12%. · Рассчитаем параметры уравнений степенной парной регрессии. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения: где Для расчетов используем данные табл. 3:
Рассчитаем С и b: Получим линейное уравнение: . Выполнив его потенцирование, получим: Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата y . · Рассчитаем параметры уравнений экспоненциальной парной регрессии. Построению экспоненциальной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения: где Для расчетов используем данные табл. 4:
Рассчитаем С и b: Получим линейное уравнение: . Выполнив его потенцирование, получим: Для расчета теоретических значений y подставим в уравнение значения x . · Рассчитаем параметры уравнений полулогарифмической парной регрессии. Построению полулогарифмической модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем замены: где Для расчетов используем данные табл. 5:
Рассчитаем a и b: Получим линейное уравнение: . · Рассчитаем параметры уравнений обратной парной регрессии. Для оценки параметров приведем обратную модель к линейному виду, заменив , тогда Для расчетов используем данные табл. 6:
Рассчитаем a и b: Получим линейное уравнение: . Выполнив его потенцирование, получим: Для расчета теоретических значений y подставим в уравнение значения x . · Рассчитаем параметры уравнений равносторонней гиперболы парной регрессии. Для оценки параметров приведем модель равносторонней гиперболы к линейному виду, заменив , тогда Для расчетов используем данные табл. 7:
Рассчитаем a и b: Получим линейное уравнение: . Получим уравнение регрессии: . 3. Оценка тесноты связи с помощью показателей корреляции и детерминации : · Линейная модель. Тесноту линейной связи оценит коэффициент корреляции. Был получен следующий коэффициент корреляции rxy =b=7,122*, что говорит о прямой сильной связи фактора и результата. Коэффициент детерминации r²xy =(0,845)²=0,715. Это означает, что 71,5% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Степенная модель. Тесноту нелинейной связи оценит индекс корреляции. Был получен следующий индекс корреляции =, что говорит о очень сильной тесной связи, но немного больше чем в линейной модели. Коэффициент детерминации r²xy =0,7175. Это означает, что 71,75% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Экспоненциальная модель. Был получен следующий индекс корреляции ρxy =0,8124, что говорит о том, что связь прямая и очень сильная, но немного слабее, чем в линейной и степенной моделях. Коэффициент детерминации r²xy =0,66. Это означает, что 66% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Полулогарифмическая модель. Был получен следующий индекс корреляции ρxy =0,8578, что говорит о том, что связь прямая и очень сильная, но немного больше чем в предыдущих моделях. Коэффициент детерминации r²xy =0,7358. Это означает, что 73,58% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Гиперболическая модель. Был получен следующий индекс корреляции ρxy =0,8448 и коэффициент корреляции rxy =-0,1784 что говорит о том, что связь обратная очень сильная. Коэффициент детерминации r²xy =0,7358. Это означает, что 73,5% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Обратная модель. Был получен следующий индекс корреляции ρxy =0,8114 и коэффициент корреляции rxy =-0,8120, что говорит о том, что связь обратная очень сильная. Коэффициент детерминации r²xy =0,6584. Это означает, что 65,84% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. Вывод: по полулогарифмическому уравнению получена наибольшая оценка тесноты связи: ρxy =0,8578 (по сравнению с линейной, степенной, экспоненциальной, гиперболической, обратной регрессиями). 4. С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом. Рассчитаем коэффициент эластичности для линейной модели: · Для уравнения прямой:y = 5,777+7,122∙x · Для уравнениястепенноймодели : · Для уравненияэкспоненциальноймодели : Для уравненияполулогарифмическоймодели : · Для уравнения обратной гиперболической модели : · Для уравнения равносторонней гиперболической модели : Сравнивая значения , характеризуем оценку силы связи фактора с результатом: · · · · · · Известно, что коэффициент эластичности показывает связь между фактором и результатом, т.е. на сколько% изменится результат y от своей средней величины при изменении фактора х на 1% от своего среднего значения. В данном примере получилось, что самая большая сила связи между фактором и результатом в полулогарифмической модели, слабая сила связи в обратной гиперболической модели. 5. Оценка качества уравнений с помощью средней ошибки аппроксимации. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации : В среднем расчетные значения отклоняются от фактических на: · Линейная регрессия. =*100%= 8,5%, что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. · Степенная регрессия. =*100%= 8,2%, что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. · Экспоненциальная регрессия. =*100%= 9%, что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. · Полулогарифмическая регрессия. =*100%= 7,9 что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. · Гиперболическая регрессия. =*100%= 9,3 что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. · Обратная регрессия. =*100%= 9,9 3 что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Качество построенной модели оценивается как хорошее, так как не превышает 8 -10%. 6. Рассчитаем F-критерий: · Линейная регрессия. = *19= 47,579 где =4,38< · Степенная регрессия. =*19= 48,257 где =4,38< · Экспоненциальная регрессия. =*19= 36,878 где =4,38< · Полулогарифмическая регрессия. =*19= 52,9232 где =4,38< · Гиперболическая регрессия. =*19= 47,357 где =4,38< · Обратная регрессия. =*19= 36,627 где =4,38< Для всех регрессий=4,38< , из чего следует, что уравнения регрессии статистически значимы. Вывод: остается на допустимом уровне для всех уравнений регрессий.
Все уравнения регрессии достаточно хорошо описывают исходные данные. Некоторое предпочтение можно отдать полулогарифмической функции, для которой значение R^2 наибольшее, а ошибка аппроксимации – наименьшая 7. Рассчитаем прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определим доверительный интервал прогноза для уровня значимости α=0,05: Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения .
где = =2,8*1,07=2,996 Средняя стандартная ошибка прогноза : ==3,12 где = =0,697886 Предельная ошибка прогноза: Доверительный интервал прогноза где =27,116,53; 27,11–6,53 = 20,58 27,11+6,53 = 33,64 Выполненный прогноз среднедушевых денежных доходов в месяц, xоказался надежным (р = 1 – α = 1 – 0,05 = 0,95), но неточным, так как диапазон верхней и нижней границ доверительного интервала составляет 2,09 раза: = = =1,63 |