Контрольная работа №1

по теме «Парная линейная регрессия»

 

Вариант № 1


Данные, характеризующие прибыль торговой компании «Все для себя» за первые  10 месяцев 2004 года (в тыс. руб.), даны в следующей таблице:


январь

февраль

март

апрель

май

июнь

июль

август

сентябрь

октябрь

382+N

402+N

432+N

396+N

454+N

419+N

460+N

447+N

464+N

498+N


N=9 -последняя цифра номера зачетной книжки.


В контрольной работе с использованием табличного процессора Ехсеl необходимо выполнить следующие вычисления и построения:


1. Построить диаграмму рассеяния.

2. Убедится в наличии тенденции (тренда) в заданных значениях прибыли фирмы и возможности принятия гипотезы о линейном тренде.

3. Построить линейную парную регрессию (регрессию вида ). Вычисление коэффициентов  b0, b1  выполнить методом наименьших квадратов.

4. Нанести график регрессии на диаграмму рассеяния.

5. Вычислить значения статистики F и коэффициента детерминации R2. Проверить гипотезу о значимости построенного уравнения регрессии.

6. Вычислить выборочный коэффициент корреляции и проверить гипотезу о ненулевом его значении.

7. Вычислить оценку дисперсии случайной составляющей эконометрической модели.

8. Проверить гипотезы о значимости вычисленных коэффициентов b0, b1  .

9. Построить доверительные интервалы для коэффициентов b0, b1.

10. Построить доверительные интервалы для дисперсии случайной составляющей эконометрической модели.

11. Построить доверительную область для условного математического ожидания М()( по оси Х откладывать месяцы январь - декабрь). Нанести границы этой области на диаграмму рассеяния.

12. С помощью линейной парной регрессии сделать прогноз величины прибыли на ноябрь и декабрь месяц и нанести эти значения на диаграмму рассеяния. Сопоставить эти значения с границами доверительной области для условного математического ожидания М() и сделать вывод о точности прогнозирования с помощью построенной регрессионной модели.


Решение.

1.                При N=9 данные, характеризующие прибыль торговой компании «Все для себя» за первые  10 месяцев,  задаются следующей таблицей:


№ месяца

Месяц ( x)

Прибыль (y)

1

январь

391

2

февраль

411

3

март

441

4

апрель

405

5

май

463

6

июнь

428

7

июль

469

8

август

456

9

сентябрь

473

10

октябрь

507




Используя исходные данные, строим диаграмму рассеяния:

2.                На основе анализа диаграммы рассеяния убеждаемся в наличии тенденции  увеличения прибыли фирмы  и выдвигаем гипотезу о линейном тренде.


3. Полагаем, что связь между факторами Х и У может быть описана линейной функцией . Решение задачи нахождения коэффициентов  b0, b1  основывается на применении метода наименьших квадратов и сводится к решению системы двух линейных уравнений с двумя неизвестными b0, b1 :

 b0 n + b1 Σxi = Σyi,

 b0 Σxib1 Σxi2 = Σxiyi.

Составляем вспомогательную таблицу:

х

y

x2

ху

y2

1

1

391

1

391

152881

2

2

411

4

822

168921

3

3

441

9

1323

194481

4

4

405

16

1620

164025

5

5

463

25

2315

214369

6

6

428

36

2568

183184

7

7

469

49

3283

219961

8

8

456

64

3648

207936

9

9

473

81

4257

223729

10

10

507

100

5070

257049

сумма

55

4444

385

25297

1986536

Для нашей задачи система имеет вид:

Решение этой системы можно получить по правилу Крамера:

      Σyi×Σxi2 – Σxiyi×Σxi                nΣxiyi – ΣxiΣyi           

b0 = —————————,     b1 = ——————— .

          nΣxi2 – (Σxi)2                          nΣxi2 – (Σxi)2    

Получаем:, .

Таким образом, искомое уравнение регрессии имеет вид:   y =387,4 + 10,364x.


4.     Нанесем график регрессии на диаграмму рассеяния.


5.                Вычислим значения статистики F и коэффициента детерминации R2. Коэффициент детерминации  рассчитаем по формуле   R2 = rxy2 = 0,8732  = 0,762. Проверим адекватность модели (уравнения регрессии) в целом с помощью F-критерия.  Рассчитаем значение статистики F  через коэффициент детерминации R2 по формуле:

Получаем: . Зададим уровень значимости α =0,05, по таблице находим квантиль распределения Фишера F0,01;1;8 = 5,32, где 1 – число степеней свободы.

Fфакт. > F0,01;1;8, т.к. 25,67 > 5,32.

Следовательно,  делаем вывод о значимости уравнения регрессии при 95% - м уровне значимости.


6.                Вычислим выборочный коэффициент корреляции и проверим гипотезу о ненулевом его значении.

Рассчитаем  выборочный коэффициент корреляции по формуле:    

nΣxiyi – ΣxiΣyi

rxy =—————¾­ ¾¾——¾,

√nΣxi2 – (Σxi)2 √nΣуi2 – (Σуi)2

Получаем:      

Проверка существенности отличия коэффициента корреляции от нуля проводится по схеме:   если , то гипотеза о существенном отличии коэффициента корреляции от нуля принимается, в противном случае отвергается.

Здесь t1-α/2,n-2 – квантиль распределения Стьюдента, α -  уровень значимости или уровень доверия, n – число наблюдений, (n-2) – число степеней свободы. Значение α задается. Примем α = 0,05, тогда t1-α/2,n-2 = t0,975,8 = 2,37.  Получаем:

.

Следовательно, коэффициент корреляции существенно отличается от нуля и существует сильная линейная связь между х и у.

С использованием табличного процессора Ехсеl проведем регрессионную статистику:

ВЫВОД ИТОГОВ













Регрессионная статистика






Множественный R

0,873






R-квадрат

0,762






Нормированный R-квадрат

0,733






Стандартная ошибка

18,579






Наблюдения

10







Дисперсионный анализ





 

df

SS

MS

F

Значимость F


Регрессия

1

8860,909

8860,909

25,670

0,001


Остаток

8

2761,491

345,186




Итого

9

11622,400

 

 

 









 

Коэффициенты

Стандартная

ошибка

t-стати-

стика

P-Значение

Нижние95%

Верхние 95%

Y-пересечение

387,400

12,692

30,523

0,000

358,132

416,668

Переменная X 1

10,364

2,046

5,067

0,001

5,647

15,081


 Вычисленные значения коэффициентов  b0, b1,  значения статистики F, коэффициента детерминации R2 выборочного коэффициента корреляции rxy совпадают с выделенными в таблице.


7. Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .

Используя результаты регрессионной статистики, получаем:

.

8. Проверим значимость вычисленных коэффициентов b0, bпо t-критерию Стьюдента.  Для этого проверяем выполнение неравенств:  и , где       , ,     ,    .

Используем результаты регрессионной статистики:

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

387,400

12,692

30,523

0,000

358,132

416,668

Переменная X 1

10,364

2,046

5,067

0,001

5,647

15,081


Получаем: ;  Примем α = 0,05, тогда  t1-α/2,n-2 = t0,975,8 = 2,37.

Так как  и , делаем вывод о значимости коэффициентов линейного уравнения регрессии.

9. Доверительные интервалы для коэффициентов b0, b1 получаем с помощью результатов регрессионной статистики.

Доверительный интервал для коэффициента  bуравнения регрессии:

Доверительный интервал для коэффициента b1 уравнения регрессии:


10. Построим доверительный интервал для дисперсии случайной составляющей эконометрической модели по формуле:

.

Примем α = 0,05, тогда по таблице для 10-элементной выборки q = 0,65. Получаем:

,     

 .


11. Построим доверительную область для условного математического ожидания М().

Доверительные интервалы для уравнения линейной регрессии :     находятся по формуле:

где  соответственно верхняя и нижняя границы доверительного интервала; значение независимой переменной  для которого определяется доверительный интервал, квантиль распределения Стьюдента, доверительная вероятность, (n-2) – число степеней свободы;

         

Рассмотрим уравнение:  y =387,4 + 10,364x.  Пусть  тогда . Зная  и , заполним таблицу:

1

397,7636

20,25

3,961

390,396

405,131

2

408,1273

12,25

4,458

399,835

416,419

3

418,4909

6,25

4,905

409,368

427,614

4

428,8545

2,25

5,314

418,970

438,739

5

439,2182

0,25

5,694

428,627

449,810

6

449,5818

0,25

6,051

438,328

460,836

7

459,9455

2,25

6,387

448,065

471,825

8

470,3091

6,25

6,707

457,835

482,783

9

480,6727

12,25

7,012

467,631

493,714

10

491,0364

20,25

7,304

477,451

504,622

сумма

82,5




11

501,4

30,25

7,585

487,292

515,508

12

511,7636

42,25

7,856

497,152

526,376


График уравнения регрессии, доверительная полоса, диаграмма рассеяния:

12. С помощью линейной парной регрессии сделаем прогноз величины прибыли на ноябрь и декабрь месяц:

501,4,     511,764.

 Нанесем эти значения на диаграмму рассеяния.

Эти значения сопоставимы с границами доверительной области для условного математического ожидания М().

Точность прогнозирования: с вероятностью 0,95 прибыль в ноябре находится в интервале (487,292; 515,508); прибыль в декабре находится в интервале (497,152; 526,376).