МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
КАФЕДРА ЭКОНОМИКО-МАТЕМАТИЧЕСКИХ МЕТОДОВ И МОДЕЛЕЙ
А У Д И Т О Р Н А Я Р А Б О Т А
по дисциплине
Эконометрика
Вариант 5
Выполнила: |
. |
студентка |
|
специальность |
|
Проверил: |
Липецк
2006
Вариант 5
Изучается зависимость
средней ожидаемой продолжительности жизни от нескольких факторов по данным за
Таблица 1
Страна |
Y |
Х1 |
Х2 |
Х3 |
Х4 |
Мозамбик |
47 |
3 |
2,6 |
2,4 |
113 |
Бурунди |
49 |
2,3 |
2,6 |
2,7 |
98 |
Чад |
48 |
2,6 |
2,5 |
2,5 |
117 |
Непал |
55 |
4,3 |
2,5 |
2,4 |
91 |
Буркина-Фасо |
49 |
2,9 |
2,8 |
2,1 |
99 |
Мадагаскар |
52 |
2,4 |
3,1 |
3,1 |
89 |
Бангладеш |
58 |
5,1 |
1,6 |
2,1 |
79 |
Гаити |
57 |
3,4 |
2 |
1,7 |
72 |
Мали |
50 |
2 |
2,9 |
2,7 |
123 |
Нигерия |
53 |
4,5 |
2,9 |
2,8 |
80 |
Кения |
58 |
5,1 |
2,7 |
2,7 |
58 |
Того |
56 |
4,2 |
3 |
2,8 |
88 |
Индия |
62 |
5,2 |
1,8 |
2 |
68 |
Бенин |
50 |
6,5 |
2,9 |
2,5 |
95 |
Никарагуа |
68 |
7,4 |
3,1 |
4 |
46 |
Гана |
59 |
7,4 |
2,8 |
2,7 |
73 |
Ангола |
47 |
4,9 |
3,1 |
2,8 |
124 |
Пакистан |
60 |
8,3 |
2,9 |
3,3 |
90 |
Мавритания |
51 |
5,7 |
2,5 |
2,7 |
96 |
Зимбабве |
57 |
7,5 |
2,4 |
2,2 |
55 |
Принятые в таблице обозначения:
Y - средняя ожидаемая продолжительность жизни при рождении, лет;
X1 - ВВП в паритетах покупательной способности;
X2- цепные темпы прироста населения, %;
X3- цепные темпы прироста рабочей силы, %;
Х4 - коэффициент младенческой смертности, %..
Задание
1. Постройте матрицу парных коэффициентов корреляции, оцените статистическую значимость коэффициентов корреляции. Установите, какие факторы коллинеарны.
2. Постройте уравнение множественной регрессии, обосновав отбор факторов.
3. Постройте график остатков.
4. Проверьте выполнение предпосылок МНК.
5. Оцените статистическую значимость уравнения множественной регрессии. Какие факторы значимо воздействуют на формирование средней ожидаемой продолжительности жизни в этом уравнении?
6. Постройте уравнение множественной регрессии только со статистически значимыми факторами.
7. Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений.
8. Рассчитайте ошибки и доверительный интервал прогноза для уровня значимости 5 или 10% (а = 0,05; а = 0,10).
Решение.
Построение матрицы коэффициентов парной регрессии выполняется с помощью табличного процессора Excel (пакет Анализ данных→Корреляция). В результате получаем следующие данные:
Таблица 2
|
Y |
Х1 |
Х2 |
Х3 |
Х4 |
Y |
1 |
||||
Х1 |
0,638668 |
1 |
|||
Х2 |
-0,20745 |
0,03952 |
1 |
||
Х3 |
0,283051 |
0,316073 |
0,728064 |
1 |
|
Х4 |
-0,85288 |
-0,57036 |
0,237912 |
-0,10062 |
1 |
Анализ матрицы коэффициентов парной корреляции:
- зависимая переменная y, т.е. средняя ожидаемая продолжительность жизни при рождении имеет тесную связь с ВВП в паритетах покупательной способности – х1 (ryx1=0,638668), с коэффициентом младенческой смертности – х4 (ryx4=-0,85288);
- факторы х2 и х3 коллинеарны, т.е. находятся в линейной зависимости между собой (rx2x3=0,728064), но так как и фактор х2 и фактор х3 незначимы (ryx2=-0,20745, ryx3=0,283051), то нет смысла включать их в модель.
После исключения незначимых факторов получаем k=2, т.е. в модель включаем только два фактора.
Для построения уравнения множественной регрессии применим инструмент Регрессия (Анализ данных в Excel). Уравнение регрессии зависимости ожидаемой продолжительности жизни при рождении от ВВП в паритетах покупательной способности и коэффициента младенческой смертности можно записать в следующем виде:
y=67,543+0,675х1-0,186х2.
В таблице 3 приведены вычисленные по модели значения Y и значения остаточной компоненты.
Таблица 3
Наблюдение |
Предсказанное |
Остатки |
1 |
48,442 |
-1,442 |
2 |
50,779 |
-1,779 |
3 |
47,433 |
0,567 |
4 |
53,399 |
1,601 |
5 |
50,987 |
-1,987 |
6 |
52,523 |
-0,523 |
7 |
56,162 |
1,838 |
8 |
56,351 |
0,649 |
9 |
45,920 |
4,080 |
10 |
55,581 |
-2,581 |
11 |
60,078 |
-2,078 |
12 |
53,892 |
2,108 |
13 |
58,279 |
3,721 |
14 |
54,098 |
-4,098 |
15 |
63,828 |
4,172 |
16 |
58,792 |
0,208 |
17 |
47,639 |
-0,639 |
18 |
56,214 |
3,786 |
19 |
53,386 |
-2,386 |
20 |
62,215 |
-5,215 |
∑ |
0 |
На рисунке 1 приведен график остатков.
Рис.1
Исследование остатков предполагает проверку наличия следующих пяти предпосылок МНК:
1. Случайный характер остатков. Т.к. на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения yрасч хорошо аппроксимируют фактические значения y.
2. Нулевая средняя величина остатков, не зависящая от xi. ∑(y-yрасч)=0, на рис.2 и рис.3 представлены графики зависимости случайных остатков от значений хj, из которых видно, что εi независимы от хj, т.е. вторая предпосылка выполняется.
Рис.2
Рис.3
3. Гомоскедастичность – дисперсия каждого отклонения εi одинакова для всех значений х. Наличие гомоскедастичности можно видеть на графике зависимости остатков от теоретических значений yрасч (рис.4).
Рис.4
Для оценки гетероскедастичности используем метод Готфельда-Квандта. В таблице 4 приведены расчеты проверки регрессии на гетероскедастичность.
Таблица 4
Уравнения регрессии |
х1 |
x2 |
y |
yрасч |
ε |
ε2 |
I группа |
2 |
123 |
50 |
46,497 |
3,503 |
12,269 |
yx=61,37+1,39х1-0,14х2 |
2,3 |
98 |
49 |
50,503 |
-1,503 |
2,260 |
r=0,84 |
2,4 |
89 |
52 |
51,934 |
0,066 |
0,004 |
F=5,97 |
2,6 |
117 |
48 |
48,194 |
-0,194 |
0,038 |
|
2,9 |
99 |
49 |
51,195 |
-2,195 |
4,819 |
|
3 |
113 |
47 |
49,325 |
-2,325 |
5,405 |
|
3,4 |
72 |
57 |
55,767 |
1,233 |
1,521 |
|
4,2 |
88 |
56 |
54,584 |
1,416 |
2,005 |
Сумма |
|
|
|
|
|
28,321 |
II группа |
5,1 |
79 |
58 |
56,529 |
1,471 |
2,164 |
yx=72,84+0,46х1-0,24х2 |
5,2 |
68 |
62 |
59,175 |
2,825 |
7,983 |
r=0,778 |
5,7 |
96 |
51 |
52,789 |
-1,789 |
3,200 |
F=3,842 |
6,5 |
95 |
50 |
53,395 |
-3,395 |
11,523 |
|
7,4 |
46 |
68 |
65,389 |
2,611 |
6,818 |
|
7,4 |
73 |
59 |
59,009 |
-0,009 |
0,000 |
|
7,5 |
55 |
57 |
63,308 |
-6,308 |
39,794 |
|
8,3 |
90 |
60 |
55,407 |
4,593 |
21,095 |
Сумма |
|
|
|
|
|
92,578 |
Величина R=92,578/28,321=3,2689 не превышает табличное значение F-критерия, равного 5,409447, подтверждая тем самым наличие гомоскедастичности.
4. Отсутствие автокорреляции остатков. Значения остатков распределены независимо друг от друга. Коэффициент корреляции между εi и εj, где εi – остатки текущих наблюдений, εj – остатки предыдущих наблюдений, может быть определен как
=0,264145,
что при 17 степенях свободы явно незначимо, т.е. можно сказать, что автокорреляция остаточных величин отсутствует.
5. Остатки подчиняются нормальному распределению. Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F.
Оценим качество всего уравнения регрессии. Значения коэффициентов детерминации можно найти в таблице Регрессионная статистика (таблица 4).
Таблица 4
Регрессионная статистика |
|
Множественный R |
0,872783 |
R-квадрат |
0,76175 |
Нормированный R-квадрат |
0,73372 |
Стандартная ошибка |
2,909931 |
Наблюдения |
20 |
Коэффициент детерминации:
=0,76175.
Коэффициент детерминации характеризует долю вариации результативного признака y под воздействием изучаемых факторов. Следовательно, около 84% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.
Коэффициент множественной корреляции R:
0,872783.
Он показывает тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.
Оценку статистической значимости уравнения регрессии произведем на основе вычисления F-критерия Фишера:
21,17676
В Excel значение F-критерия можно найти в таблице Дисперсионный анализ (табл. 5).
Таблица 5
Дисперсионный анализ |
|||||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
2 |
460,2491 |
230,1246 |
27,17676 |
5,07E-06 |
Остаток |
17 |
143,9509 |
8,467697 |
||
Итого |
19 |
604,2 |
|
|
|
Рассчитанные значения Fрасч сравниваем с табличным значением Fтабл. В Excel Fтабл при доверительной вероятности 0,95 при ν1=k=2 и ν2=n-k-1=20-2-1=17 находим при помощи функции FРАСПОБР:
Fтабл=3,591538.
Уравнение регрессии с вероятностью 0.95 в целом статистически значимое, т.к. Fрасч> Fтабл.
Статистическую значимость коэффициентов уравнения множественной регрессии оцениваем с помощью t-критерия Стьюдента:
taj=aj / Saj,
Saj=Sε ,
где bjj – диагональный элемент матрицы (ХТХ)-1.
ta0 =14,288
ta1 =1,565
ta2 =-5,025
Таблица 6
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
Y-пересечение |
67,54304 |
4,727247 |
14,28803 |
Х1 |
0,657115 |
0,41977 |
1,565415 |
Х2 |
-0,18648 |
0,037112 |
-5,02481 |
Расчетные значения t-критерия Стьюдента для коэффициентов уравнения регрессии а1, а2 приведены в четвертом столбце таблицы 6. Критическое значение tтабл при α=0,05 и степенях свободы (20-2-1=17) находим в Еxcel с помощью функции СТЬЮДРАСПОБР.
tтабл=2,109819.
Т.к. |ta2|> tтабл, то коэффициент а2 существенный (значим). Но |ta1|< tтабл, следовательно коэффициент а1 не значим.
Уравнение регрессии только со статистически значимыми факторами будет иметь вид:
y=267,55-3,3121x.
Для выполнения прогноза среднего значения показателя y при хпрогн=0,8*хimax используем линейную модель, полученную только со статистически значимыми факторами, для чего необходимо подставить прогнозируемое значение х в уравнение регрессии:
y=73,56-0,2196x.
хпрогн=99,2.
Yпрогн= 73,56-0,2196*99,2=51,78
Вероятность реализации точечного прогноза практически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью. Расчетные данные для выполнения интервального прогноза приведены в таблице 7.
Таблица 7
n |
x |
y |
yрасч |
ε |
ε2 |
(x-xср) |
(x-xср)2 |
113 |
47 |
48,74 |
-1,744 |
3,040 |
25,3 |
640,09 |
|
98 |
49 |
52,04 |
-3,038 |
9,229 |
10,3 |
106,09 |
|
117 |
48 |
47,87 |
0,135 |
0,018 |
29,3 |
858,49 |
|
91 |
55 |
53,58 |
1,425 |
2,030 |
3,3 |
10,89 |
|
99 |
49 |
51,82 |
-2,818 |
7,943 |
11,3 |
127,69 |
|
89 |
52 |
54,01 |
-2,014 |
4,058 |
1,3 |
1,69 |
|
79 |
58 |
56,21 |
1,789 |
3,202 |
-8,7 |
75,69 |
|
72 |
57 |
57,75 |
-0,748 |
0,559 |
-15,7 |
246,49 |
|
123 |
50 |
46,55 |
3,453 |
11,920 |
35,3 |
1246,09 |
|
80 |
53 |
55,99 |
-2,991 |
8,946 |
-7,7 |
59,29 |
|
58 |
58 |
60,82 |
-2,823 |
7,967 |
-29,7 |
882,09 |
|
88 |
56 |
54,23 |
1,766 |
3,118 |
0,3 |
0,09 |
|
68 |
62 |
58,63 |
3,374 |
11,381 |
-19,7 |
388,09 |
|
95 |
50 |
52,70 |
-2,697 |
7,273 |
7,3 |
53,29 |
|
46 |
68 |
63,46 |
4,542 |
20,629 |
-41,7 |
1738,89 |
|
73 |
59 |
57,53 |
1,472 |
2,166 |
-14,7 |
216,09 |
|
124 |
47 |
46,33 |
0,672 |
0,452 |
36,3 |
1317,69 |
|
90 |
60 |
53,79 |
6,205 |
38,504 |
2,3 |
5,29 |
|
96 |
51 |
52,48 |
-1,477 |
2,182 |
8,3 |
68,89 |
|
55 |
57 |
61,48 |
-4,481 |
20,084 |
-32,7 |
1069,29 |
|
∑ |
1754 |
1086 |
1086 |
0,00 |
164,70 |
0,00 |
9112,20 |
ср.знач. |
87,7 |
=3,024907
tα=0,05=2,100924
Таким образом, прогнозное значение ,будет находиться в интервале [45,22;58,34]. Все результаты моделирования и исходные данные приведены на графике (рис.5).
Рис.5