Контрольная работа: Особенности решения задач в эконометрике
Название: Особенности решения задач в эконометрике Раздел: Рефераты по математике Тип: контрольная работа | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Задание 1.
По 15 предприятиям, выпускающим один и тот же вид продукции известны значения двух признаков: х - выпуск продукции, тыс. ед.; у - затраты на производство, млн. руб.
Требуется: 4. Построить поле корреляции и сформулировать гипотезу о форме связи; 5. Построить модели: 2.1 Линейной парной регрессии; 2.2 Полулогарифмической парной регрессии; 2.3 Степенной парной регрессии; Для этого: 1. Рассчитать параметры уравнений; 2. Оценить тесноту связи с помощью коэффициента (индекса) корреляции; 3. Оценить качество модели с помощью коэффициента (индекса) детерминации и средней ошибки аппроксимации; 4. Дать с помощью среднего коэффициента эластичности сравнительную оценку силы связи фактора с результатом; 5. С помощью F -критерия Фишера оценить статистическую надежность результатов регрессионного моделирования; 3. По значениям характеристик, рассчитанных в пунктах 2-5 выбрать лучшее уравнение регрессии; 4. Используя метод Гольфрельда-Квандта проверить остатки на гетероскедастичность; 5. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 5% от его среднего уровня. Для уровня значимости =0,05 определить доверительный интервал прогноза. Решение. 1. Строим поле корреляции. Анализируя расположение точек поля корреляции, предполагаем, что связь между признаками х и у может быть линейной, т.е. у=а+ b х , или нелинейной вида: у=а+ bln х, у = ах b . Основываясь на теории изучаемой взаимосвязи, предполагаем получить зависимость у от х вида у=а+ b х, т. к. затраты на производство y можно условно разделить на два вида: постоянные, не зависящие от объема производства - a , такие как арендная плата, содержание администрации и т.д.; и переменные, изменяющиеся пропорционально выпуску продукции b х, такие как расход материала, электроэнергии и т.д. 2.1 Модель линейной парной регрессии 2.1.1 Рассчитаем параметры a и b линейной регрессии у=а+ b х . Строим расчетную таблицу 1. Таблица 1
Параметры a и b уравнения
Yx = a + bx определяются методом наименьших квадратов:
Разделив на n и решая методом Крамера, получаем формулу для определения b : Уравнение регрессии:
=11,591+0,871 x С увеличением выпуска продукции на 1 тыс. руб. затраты на производство увеличиваются на 0,871 млн. руб. в среднем, постоянные затраты равны 11,591 млн. руб. 2.1.2. Тесноту связи оценим с помощью линейного коэффициента парной корреляции. Предварительно определим средние квадратические отклонения признаков. Средние квадратические отклонения: Коэффициент корреляции: Между признаками X и Y наблюдается очень тесная линейная корреляционная связь. 2.1.3 Оценим качество построенной модели. Определим коэффициент детерминации: т. е. данная модель объясняет 90,5% общей дисперсии у , на долю необъясненной дисперсии приходится 9,5%. Следовательно, качество модели высокое. Найдем величину средней ошибки аппроксимации А i . Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора. Ошибка аппроксимации А i , i =1…15: Средняя ошибка аппроксимации: Ошибка небольшая, качество модели высокое. 5.1.4. Определим средний коэффициент эластичности: Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,515%. 2.1.5.Оценим статистическую значимость полученного уравнения. Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05. Найдем табличное (критическое) значение F- критерия Фишера: Найдем фактическое значение F - критерия Фишера: следовательно, гипотеза H 0 отвергается, принимается альтернативная гипотеза H 1 : с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна. Построим полученное уравнение. 2.2. Модель полулогарифмической парной регрессии .
2.2.1. Рассчитаем параметры а и b в регрессии:
у x =а + bln х . Линеаризуем данное уравнение, обозначив:
z=lnx . Тогда:
y = a + bz . Параметры a и b уравнения
= a + bz определяются методом наименьших квадратов: Рассчитываем таблицу 2. Таблица 2
Разделив на n и решая методом Крамера, получаем формулу для определения b : Уравнение регрессии:
= -1,136 + 9,902 z 2.2.2. Оценим тесноту связи между признаками у и х . Т. к. уравнение у = а + b l n x линейно относительно параметров а и b и его линеаризация не была связана с преобразованием зависимой переменной _у , то теснота связи между переменными у и х , оцениваемая с помощью индекса парной корреляции Rxy , также может быть определена с помощью линейного коэффициента парной корреляции ryz
среднее квадратическое отклонение z : Значение индекса корреляции близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида = a + bz . 2.2.3 Оценим качество построенной модели. Определим коэффициент детерминации: т. е. данная модель объясняет 83,8% общей вариации результата у , на долю необъясненной вариации приходится 16,2%. Следовательно, качество модели высокое. Найдем величину средней ошибки аппроксимации А i . Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора. Ошибка аппроксимации А i , i =1…15: Средняя ошибка аппроксимации: Ошибка небольшая, качество модели высокое. 2.2.4.Определим средний коэффициент эластичности: Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,414%. 2.2.5.Оценим статистическую значимость полученного уравнения. Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т.е. полученное уравнение статистически незначимо. Примем α=0,05. Найдем табличное (критическое) значение F -критерия Фишера: Найдем фактическое значение F -критерия Фишера: следовательно, гипотеза H 0 отвергается, принимается альтернативная гипотеза H 1 : с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна. Построим уравнение регрессии на поле корреляции
2.3. Модель степенной парной регрессии. 2.3.1. Рассчитаем параметры а и b степенной регрессии:
Расчету параметров предшествует процедура линеаризации данного уравнения: и замена переменных: Y=lny, X=lnx, A=lna Параметры уравнения:
Y = A + bX определяются методом наименьших квадратов: Рассчитываем таблицу 3. Определяем b : Уравнение регрессии:
Построим уравнение регрессии на поле корреляции: 2.3.2. Оценим тесноту связи между признаками у и х с помощью индекса парной корреляции Ryx . Предварительно рассчитаем теоретическое значение для каждого значения фактора x , и , тогда: Значение индекса корреляции Rxy близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида: 2.3.3.Оценим качество построенной модели. Определим индекс детерминации: R 2 =0,9362 =0,878, т. е. данная модель объясняет 87,6% общей вариации результата у, а на долю необъясненной вариации приходится 12,4%. Качество модели высокое. Найдем величину средней ошибки аппроксимации. Ошибка аппроксимации А i , i =1…15: Средняя ошибка аппроксимации: Ошибка небольшая, качество модели высокое. 2.3.4. Определим средний коэффициент эластичности: Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,438%. 2.3.5.Оценим статистическую значимость полученного уравнения. Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05. табличное (критическое) значение F -критерия Фишера: фактическое значение F -критерия Фишера: Таблица 3
следовательно, гипотеза H 0 отвергается, принимается альтернативная гипотеза H 1 : с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна. 3. Выбор лучшего уравнения. Составим таблицу полученных результатов исследования. Таблица 4
Анализируем таблицу и делаем выводы. - Все три уравнения оказались статистически значимыми и надежными, имеют близкий к 1 коэффициент (индекс) корреляции, высокий (близкий к 1) коэффициент (индекс) детерминации и ошибку аппроксимации в допустимых пределах. - При этом характеристики линейной модели указывают, что она несколько лучше полулогарифмической и степенной описывает связь между признаками x и у. - Поэтому в качестве уравнения регрессии выбираем линейную модель. 4. Для выбранной модели проверим предпосылку МНК о гомоскедастичности остатков, т. е. о том, что остатки регрессии имеют постоянную дисперсию. Используем метод Гольдфельдта-Квандта. 1. Упорядочим наблюдения по мере возрастания переменной х . 2. Исключим из рассмотрения 3 центральных наблюдения. 3. Рассмотрим первую группу наблюдений (малые значения фактора х ) и определим этой группы. 4. Рассмотрим вторую группу наблюдений (большие значения фактора х) и определим этой группы. 5. Проверим, значимо или незначимо отличаются дисперсии остатков этих групп. Таблица 5
Определим параметры уравнения регрессии 1 группы: Уравнение регрессии 1 группы: =11,93+0,86 x Таблица 6
Параметры уравнения регрессии 2 группы: Уравнение регрессии 2 группы:
=9,7+0,98 x S 1 = 19.46> S 2 = 17.17
F факт. < F табл. следовательно, остатки гомоскедастичны, предпосылки МНК не нарушены. 5. Рассчитаем прогнозное значение результата у, если прогнозное значение фактора х увеличивается на 5% от его среднего уровня. Точечный прогноз: 11,59+0,871,0514,13=24,515 млн. руб. Для данной величины выпуска продукции прогнозное значение затрат на производство составляет 24,515 млн. руб. Для уровня значимости α= 0,05 определим доверительный интервал прогноза. Предварительно определим стандартные ошибки коэффициента корреляции и параметра b . Стандартная ошибка коэффициента корреляции: Ошибка прогноза: Доверительный интервал прогноза значений y при с вероятностью 0,95 составит: Прогноз надежный, но не очень точный, т. к. Задание 2
Имеются данные о заработной плате у (тысяч рублей), возрасте х1 (лет), стаже работы по специальности х2 (лет) и выработке х3 (штук в смену) по 15 рабочим цеха:
Требуется: 1. С помощью определителя матрицы парных коэффициентов межфакторной корреляции оценить мультиколлинеарность факторов, исключить из модели фактор, ответственный за мультиколлинеарность. 2. Построить уравнение множественной регрессии в стандартизованной форме: 2.1. Оценить параметры уравнения. 2.2. Используя стандартизованные коэффициенты регрессии сравнить факторы по силе их воздействия на результат. 2.3. Оценить тесноту связи между результатом и факторами с помощью коэффициента множественной корреляции. 2.4. Оценить с помощью коэффициента множественной детерминации качество модели. 2.5. Используя F-критерий Фишера оценить статистическую значимость присутствия каждого из факторов в уравнении регрессии. 3. Построить уравнение множественной регрессии в естественной форме, пояснить экономический смысл параметров уравнения. 4. Найти среднюю ошибку аппроксимации. 5. Рассчитать прогнозное значение результата, если прогнозное значение факторов составит: х1 = 35 лет, х2 = 10 лет, х3 = 20 штук в смену. Решение. Для оценки мультиколлинеарности факторов используем определитель матрицы парных коэффициентов корреляции между факторами. Определим парные коэффициенты корреляции. Для этого рассчитаем таблицу 7. Используя рассчитанную таблицу, определяем дисперсию y , x 1 , x 2 , x 3 . Найдем среднее квадратическое отклонение признаков y , x 1 , x 2 , x 3 , как корень квадратный из соответствующей дисперсии. Определим парные коэффициенты корреляции:
таблица 7
Матрица парных коэффициентов корреляции:
Анализируем матрицу парных коэффициентов корреляции. - rx1x2 =0.931, т. е. между факторами x1 и x2 существует сильная корреляционная связь, один из этих факторов необходимо исключить. - rx1x3 =0.657 меньше, чем rx2x3 =0.765, т.е. корреляция фактора х2 с фактором х3 сильнее, чем корреляция факторов х1 и х3 . - Из модели следует исключить фактор х2 , т.к. он имеет наибольшую тесноту связи с х3 и, к тому же, менее тесно (по сравнению с x 1 ) связан с результатом у (0.894<0.908). 2.1. Уравнение регрессии в естественной форме будет иметь вид:
y x = a + bl x] +b3 x3 , фактор х2 исключен из модели. Стандартизованное уравнение:
ty = β 1 tx 1 + β 3 tx 3 где: ty , tx 1 , tx 3 – стандартизованные переменные. Параметры уравнения β 1 и β 3 определим методом наименьших квадратов из системы уравнений: Или: Систему решаем методом Крамера:
Тогда: Получили уравнение множественной регрессии в стандартизованном масштабе: ty = 0,693 tx 1 +0,327 tx 3 Коэффициенты β1 и β3 сравнимы между собой в отличии от коэффициентов чистой регрессии b 1 и b 3 . β1 = 0,693 больше β3 = 0,327, следовательно, фактор x 1 сильнее влияет на результат y чем фактор x 3 . Определим индекс множественной корреляции: Cвязь между y и факторами x 1 , x 3 характеризуется как тесная, т. к. значение индекса множественной корреляции близко к 1. Коэффициент множественной детерминации: R 2 yx 1 x 3 =(0.941)2 =0.886 Т. е. данная модель объясняет 88,6% вариации y , на долю неучтенных в модели факторов приходится 100-88,6=11,4% Оценим значимость полученного уравнения регрессии с помощью F -критерия Фишера: F табл (α= 0,05; k 1 = 2; k 2 = 15-2-1=12)= 3,88 Табличное значение критерия Фишера (определяем по таблице значений критерия Фишера при заданном уровне значимости α и числе степеней свободы k 1 и k 2 ) меньше фактического значения критерия. следовательно, гипотезу H 0 о том, что полученное уравнение статистически незначимо и ненадежно, отвергаем и принимаем альтернативную гипотезу H 1 : полученное уравнение статистически значимо, надежно и пригодно для анализа и прогноза. Оценим статистическую значимость включения в модель факторов x 1 и x 2. F табл (α= 0,05; k 1 = 1; k 2 = 15-2-1=12)= 4,75 Fx 1 > F табл. Fx 3 > F табл. Значит, включение в модель факторов x 1 и x 3 статистически значимо. Перейдем к уравнению регрессии в естественном масштабе: Уравнение множественной регрессии в естественном масштабе:
Экономическая интерпретация параметров уравнения: b1 =0.064, это значит, что с увеличением x1 – возраста рабочего на 1 год заработная плата рабочего увеличивается в среднем на 64 рубля, если при этом фактор x2 - выработка рабочего не меняется и фиксирован на среднем уровне. b3 =0,053, это значит, что с увеличением x3 – выработки рабочего на 1 шт. в смену, заработная плата рабочего увеличивается в среднем на 53 рубля, если при этом фактор x1 - возраст рабочего не меняется и фиксирован на среднем уровне. a =0,313 не имеет экономической интерпретации, формально это значение результата y при нулевом значении факторов, но факторы могут и не иметь нулевого значения. Найдем величину средней ошибки аппроксимации, таблица 7. Ошибка аппроксимации А i , i =1…15: Средняя ошибка аппроксимации: Ошибка небольшая, качество модели высокое. Используем полученную модель для прогноза. Если х1 =35, х2 =10, х3 =20, то ур = 0,313 + 0,064•35 + 0,053•20 = 3,618 тыс. руб. т. е. для рабочего данного цеха, возраст которого 35 лет, а выработка 20 шт. в смену, прогнозное значение заработной платы - 3618 руб. |