Контрольная работа №1
по теме «Парная линейная регрессия»
Вариант № 1
Данные, характеризующие прибыль торговой компании «Все для себя» за первые 10 месяцев 2004 года (в тыс. руб.), даны в следующей таблице:
январь |
февраль |
март |
апрель |
май |
июнь |
июль |
август |
сентябрь |
октябрь |
382+N |
402+N |
432+N |
396+N |
454+N |
419+N |
460+N |
447+N |
464+N |
498+N |
N=9 -последняя цифра номера зачетной книжки.
В контрольной работе с использованием табличного процессора Ехсеl необходимо выполнить следующие вычисления и построения:
1. Построить диаграмму рассеяния.
2. Убедится в наличии тенденции (тренда) в заданных значениях прибыли фирмы и возможности принятия гипотезы о линейном тренде.
3. Построить линейную парную регрессию (регрессию вида ). Вычисление коэффициентов b0, b1 выполнить методом наименьших квадратов.
4. Нанести график регрессии на диаграмму рассеяния.
5. Вычислить значения статистики F и коэффициента детерминации R2. Проверить гипотезу о значимости построенного уравнения регрессии.
6. Вычислить выборочный коэффициент корреляции и проверить гипотезу о ненулевом его значении.
7. Вычислить оценку дисперсии случайной составляющей эконометрической модели.
8. Проверить гипотезы о значимости вычисленных коэффициентов b0, b1 .
9. Построить доверительные интервалы для коэффициентов b0, b1.
10. Построить доверительные интервалы для дисперсии случайной составляющей эконометрической модели.
11. Построить доверительную область для условного математического ожидания М()( по оси Х откладывать месяцы январь - декабрь). Нанести границы этой области на диаграмму рассеяния.
12. С помощью линейной парной регрессии сделать прогноз величины прибыли на ноябрь и декабрь месяц и нанести эти значения на диаграмму рассеяния. Сопоставить эти значения с границами доверительной области для условного математического ожидания М() и сделать вывод о точности прогнозирования с помощью построенной регрессионной модели.
Решение.
1. При N=9 данные, характеризующие прибыль торговой компании «Все для себя» за первые 10 месяцев, задаются следующей таблицей:
№ месяца |
Месяц ( x) |
Прибыль (y) |
1 |
январь |
391 |
2 |
февраль |
411 |
3 |
март |
441 |
4 |
апрель |
405 |
5 |
май |
463 |
6 |
июнь |
428 |
7 |
июль |
469 |
8 |
август |
456 |
9 |
сентябрь |
473 |
10 |
октябрь |
507 |
Используя исходные данные, строим диаграмму рассеяния:
2. На основе анализа диаграммы рассеяния убеждаемся в наличии тенденции увеличения прибыли фирмы и выдвигаем гипотезу о линейном тренде.
3. Полагаем, что связь между факторами Х и У может быть описана линейной функцией . Решение задачи нахождения коэффициентов b0, b1 основывается на применении метода наименьших квадратов и сводится к решению системы двух линейных уравнений с двумя неизвестными b0, b1 :
b0 n + b1 Σxi = Σyi,
b0 Σxi + b1 Σxi2 = Σxiyi.
Составляем вспомогательную таблицу:
№ |
х |
y |
x2 |
ху |
y2 |
1 |
1 |
391 |
1 |
391 |
152881 |
2 |
2 |
411 |
4 |
822 |
168921 |
3 |
3 |
441 |
9 |
1323 |
194481 |
4 |
4 |
405 |
16 |
1620 |
164025 |
5 |
5 |
463 |
25 |
2315 |
214369 |
6 |
6 |
428 |
36 |
2568 |
183184 |
7 |
7 |
469 |
49 |
3283 |
219961 |
8 |
8 |
456 |
64 |
3648 |
207936 |
9 |
9 |
473 |
81 |
4257 |
223729 |
10 |
10 |
507 |
100 |
5070 |
257049 |
сумма |
55 |
4444 |
385 |
25297 |
1986536 |
Для нашей задачи система имеет вид:
Решение этой системы можно получить по правилу Крамера:
Σyi×Σxi2 – Σxiyi×Σxi nΣxiyi – ΣxiΣyi
b0 = —————————, b1 = ——————— .
nΣxi2 – (Σxi)2 nΣxi2 – (Σxi)2
Получаем:, .
Таким образом, искомое уравнение регрессии имеет вид: y =387,4 + 10,364x.
4. Нанесем график регрессии на диаграмму рассеяния.
5. Вычислим значения статистики F и коэффициента детерминации R2. Коэффициент детерминации рассчитаем по формуле R2 = rxy2 = 0,8732 = 0,762. Проверим адекватность модели (уравнения регрессии) в целом с помощью F-критерия. Рассчитаем значение статистики F через коэффициент детерминации R2 по формуле:
Получаем: . Зададим уровень значимости α =0,05, по таблице находим квантиль распределения Фишера F0,01;1;8 = 5,32, где 1 – число степеней свободы.
Fфакт. > F0,01;1;8, т.к. 25,67 > 5,32.
Следовательно, делаем вывод о значимости уравнения регрессии при 95% - м уровне значимости.
6. Вычислим выборочный коэффициент корреляции и проверим гипотезу о ненулевом его значении.
Рассчитаем выборочный коэффициент корреляции по формуле:
nΣxiyi – ΣxiΣyi
rxy =—————¾ ¾¾——¾— ,
√nΣxi2 – (Σxi)2 √nΣуi2 – (Σуi)2
Получаем:
Проверка существенности отличия коэффициента корреляции от нуля проводится по схеме: если , то гипотеза о существенном отличии коэффициента корреляции от нуля принимается, в противном случае отвергается.
Здесь t1-α/2,n-2 – квантиль распределения Стьюдента, α - уровень значимости или уровень доверия, n – число наблюдений, (n-2) – число степеней свободы. Значение α задается. Примем α = 0,05, тогда t1-α/2,n-2 = t0,975,8 = 2,37. Получаем:
.
Следовательно, коэффициент корреляции существенно отличается от нуля и существует сильная линейная связь между х и у.
С использованием табличного процессора Ехсеl проведем регрессионную статистику:
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
|
Множественный R |
0,873 |
|
|
|
|
|
R-квадрат |
0,762 |
|
|
|
|
|
Нормированный R-квадрат |
0,733 |
|
|
|
|
|
Стандартная ошибка |
18,579 |
|
|
|
|
|
Наблюдения |
10 |
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
||
|
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
1 |
8860,909 |
8860,909 |
25,670 |
0,001 |
|
Остаток |
8 |
2761,491 |
345,186 |
|
|
|
Итого |
9 |
11622,400 |
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-стати- стика |
P-Значение |
Нижние95% |
Верхние 95% |
Y-пересечение |
387,400 |
12,692 |
30,523 |
0,000 |
358,132 |
416,668 |
Переменная X 1 |
10,364 |
2,046 |
5,067 |
0,001 |
5,647 |
15,081 |
Вычисленные значения коэффициентов b0, b1, значения статистики F, коэффициента детерминации R2 выборочного коэффициента корреляции rxy совпадают с выделенными в таблице.
7. Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .
Используя результаты регрессионной статистики, получаем:
.
8. Проверим значимость вычисленных коэффициентов b0, b1 по t-критерию Стьюдента. Для этого проверяем выполнение неравенств: и , где , , , .
Используем результаты регрессионной статистики:
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Y-пересечение |
387,400 |
12,692 |
30,523 |
0,000 |
358,132 |
416,668 |
Переменная X 1 |
10,364 |
2,046 |
5,067 |
0,001 |
5,647 |
15,081 |
Получаем: ; Примем α = 0,05, тогда t1-α/2,n-2 = t0,975,8 = 2,37.
Так как и , делаем вывод о значимости коэффициентов линейного уравнения регрессии.
9. Доверительные интервалы для коэффициентов b0, b1 получаем с помощью результатов регрессионной статистики.
Доверительный интервал для коэффициента b0 уравнения регрессии:
Доверительный интервал для коэффициента b1 уравнения регрессии:
10. Построим доверительный интервал для дисперсии случайной составляющей эконометрической модели по формуле:
.
Примем α = 0,05, тогда по таблице для 10-элементной выборки q = 0,65. Получаем:
,
.
11. Построим доверительную область для условного математического ожидания М().
Доверительные интервалы для уравнения линейной регрессии : находятся по формуле:
где соответственно верхняя и нижняя границы доверительного интервала; значение независимой переменной для которого определяется доверительный интервал, квантиль распределения Стьюдента, доверительная вероятность, (n-2) – число степеней свободы;
Рассмотрим уравнение: y =387,4 + 10,364x. Пусть тогда . Зная и , заполним таблицу:
1 |
397,7636 |
20,25 |
3,961 |
390,396 |
405,131 |
2 |
408,1273 |
12,25 |
4,458 |
399,835 |
416,419 |
3 |
418,4909 |
6,25 |
4,905 |
409,368 |
427,614 |
4 |
428,8545 |
2,25 |
5,314 |
418,970 |
438,739 |
5 |
439,2182 |
0,25 |
5,694 |
428,627 |
449,810 |
6 |
449,5818 |
0,25 |
6,051 |
438,328 |
460,836 |
7 |
459,9455 |
2,25 |
6,387 |
448,065 |
471,825 |
8 |
470,3091 |
6,25 |
6,707 |
457,835 |
482,783 |
9 |
480,6727 |
12,25 |
7,012 |
467,631 |
493,714 |
10 |
491,0364 |
20,25 |
7,304 |
477,451 |
504,622 |
сумма |
82,5 |
|
|
|
|
11 |
501,4 |
30,25 |
7,585 |
487,292 |
515,508 |
12 |
511,7636 |
42,25 |
7,856 |
497,152 |
526,376 |
График уравнения регрессии, доверительная полоса, диаграмма рассеяния:
12. С помощью линейной парной регрессии сделаем прогноз величины прибыли на ноябрь и декабрь месяц:
501,4, 511,764.
Нанесем эти значения на диаграмму рассеяния.
Эти значения сопоставимы с границами доверительной области для условного математического ожидания М().
Точность прогнозирования: с вероятностью 0,95 прибыль в ноябре находится в интервале (487,292; 515,508); прибыль в декабре находится в интервале (497,152; 526,376).