Содержание

Задача 1. 3

Задача 2. 9

Список литературы.. 15

Задача 1

Имеются выборочные данные о глубине вспашки полей под озимые культуры Х (см) и их урожайности Y (ц с га) (табл. 1).

Таблица 1

Исходные данные

Х

0

5

10

15

20

25

30

35

40

45

Y

5

10

12

16

20

16

17

25

22

20

1. Составить уравнение линейной регрессии y = a + bx +ε, используя МНК, и найти числовые характеристики переменных.

2. Составить уравнение линейной регрессии y = a + bx +ε, используя матричный метод.

3. Вычислить коэффициент корреляции и оценить полученное уравнение регрессии.

4. Найти оценки параметров а, b, δ2.

5. Найти оценки параметров нормального распределения для статистик а¯ и b¯.

6. Найти доверительные интервалы для а и b на основании оценок а¯ и b¯ при уровне значимости а = 0,05.

7. Вычислить коэффициент детерминации и оценить качество выбранного уравнения регрессии.

Решение:

Используя исходные данные, строим диаграмму рассеяния (рис. 1):

Рисунок 1 – Диаграмма рассеяния

Полагаем, что связь между факторами Х и У может быть описана линейной функцией.

Нормальные уравнения для линейного тренда имеют вид:

где: yi - уровни исходного ряда динамики;

        ti - номера периодов или моментов времени (1,2,3:n);

        n - число уровней ряда;

        а0, а1, а2 - константы уравнений.

Решение задачи нахождения оценок а и b основывается на применении метода наименьших квадратов (сокращенно - МНК), суть которой в следующем: нахождение оценок а и b неизвестных параметров α и β сводится к следующей экстремальной задаче функции двух переменных  F(a,b):

 ,

которая в свою очередь сводится к системе двух линейных уравнений с двумя неизвестными а и b:

Решение этой системы можно получить по правилу Крамера:

;

Обозначим через  ;  выборочные средние наблюдаемых значений переменных х и у. Таким образом, оценки а и b можно искать по следующим формулам:

.

Для этого организуем вычисления во вспомогательной табл. 2.

                                                                          Таблица 2

Вспомогательная таблица для определения параметров уравнения линейной регрессии

Номер

Х

Y

Х2

Y2

ХY

1

0

5

0

25

0

2

5

10

25

100

50

3

10

12

100

144

120

4

15

16

225

256

240

5

20

20

400

400

400

6

25

16

625

256

400

7

30

17

900

289

510

8

35

25

1225

625

875

9

40

22

1600

484

880

10

45

20

2025

400

900

Сумма

225

163

7125

2979

4375

Среднее

22,5

16,3

712,5

297,9

437,5

Тогда

.

Значит, уравнение линейной регрессии имеет вид:

.

Вычислим коэффициент корреляции по формуле:

.

Для применения формулы составим вспомогательную табл. 3:

Таблица 3

Вспомогательная таблица для расчета коэффициента корреляции

Номер

Х

Y

2

1

0

5

- 22,5

506,25

-11,3

127,69

2

5

10

-17,5

306,25

-6,3

39,69

3

10

12

-12,5

156,25

-4,3

18,49

4

15

16

-7,5

56,25

-0,3

0,09

5

20

20

-2,5

6,25

3,7

13,69

6

25

16

2,5

6,25

-0,3

0,09

7

30

17

7,5

56,25

0,7

0,49

8

35

25

12,5

156,25

8,7

75,69

9

40

22

17,5

306,25

5,7

32,49

10

45

20

22,5

506,25

3,7

13,69

Сумма

225

163

2062,5

322,1

Среднее

22,5

16,3

Тогда коэффициент корреляции найдется следующим образом:

.

Определим значимость регрессии для  a = 0,05, проверив гипотезу Н0: «b=0», рассчитав статистику:

.

По таблице F-статистики найдем критическое значение этого критерия:

5,32

Т.к. F>fкр, то гипотезу Н0: «b=0» отвергаем, т.е. регрессия значима.

Найдем 95%-ные доверительные интервалы для параметров модели. Для этого вначале найдем параметры распределения Стьюдента, оформив вспомогательную табл. 4:

Таблица 4

Таблица для расчета доверительных интервалов для параметров модели

Номер

Х

Y

1

0

5

8,65

-3,65

13,322

7,65

58,5225

2

5

10

10,35

-0,35

0,122

5,95

35,4025

3

10

12

12,05

-0,05

0,0025

4,25

18,0625

4

15

16

13,75

2,25

5,0625

2,55

6,5025

5

20

20

15,45

4,55

20,7025

0,85

0,7225

6

25

16

17,15

-1,15

1,3225

-0,85

0,7225

7

30

17

18,85

-1,85

3,4225

-2,55

6,5025

8

35

25

20,55

4,45

19,8025

-4,25

18,0625

9

40

22

22,25

-0,25

0,0625

-5,95

35,4025

10

45

20

23,95

-3,95

15,6025

-7,65

58,5225

Сумма

225

163

163

79,424

 

238,425

Среднее

22,5

16,3

16,3

 

7,9424

 

23,8425

Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .

Используя результаты регрессионной статистики, получаем:

.

Величина доверительного интервала определяется в общем виде следующим образом:

где  - среднее квадратическое отклонение от тренда;

ta - табличное значение t-критерия Стьюдента при уровне значимости a. Зависит от уровня значимости a (%) и числа степеней свободы k=n-m.

Величина  определяется по формуле

где: yi и - соответственно фактические и расчетные значения уровней динамического ряда;

n - число уровней ряда;

m - количество параметров в уравнении тренда (для уравнения прямой m=2).

Параметры нормального распределения Стьюдента:

.

Тогда, по таблице значений критерия Стьюдента, .

Тогда искомые доверительные интервалы:

Для коэффициента а.

Для коэффициента b.

Коэффициент детерминации рассчитывается по формуле

.

Очевидно, что 0£ R2 £ 1. Значение R2  характеризует ту долю дисперсии переменной у, которая обуславливается уравнением регрессии ŷi = a +bx. Таким образом,  чем ближе значение R2 к единице, тем точнее уравнение регрессии отражает имеющуюся зависимость между переменными.

Так как R2 достаточно близок  к единице, то уравнение регрессии достаточно точно отражает истинную зависимость между данными о глубине вспашке полей и их урожайности.

Задача 2

1. Составить уравнение множественной линейной регрессии y = a + b1x1 + b2x2 + ε в матричной форме, используя МНК, и найти числовые характеристики переменных.

2. Найти оценки параметров а, b1, b2, δ2

3. Найти коэффициент детерминации и оценить уравнение регрессивной связи.

4. Оценить статистическую значимость между переменными.

Изучается зависимость по предприятиям объединения потребления материалов Y(т) от энерговооруженности труда Х1 (кВт/ч на одного рабочего) и объема производственной продукции Х2 (тыс. ед.) (табл. 5).

Таблица 5

Исходные данные

№ п/п

Y

X1

X2

1

4

1.1

12

2

5

1.3

14

3

7

1.2

20

4

8

1.6

11

5

10

1.8

13

Решение:

Для подстановки числовых коэффициентов в систему уравнений, используемую в методе наименьших квадратов, составим вспомогательную табл. 6:

Таблица 6

Вспомогательная таблица для вычисления числовых коэффициентов уравнения регрессии

Х1

Х2

Y

Х12

Х22

Х1Х2

Y Х1

Y Х2

1

1,1

12

4

1,21

144

13,2

4,4

48

2

1,3

14

5

1,69

196

18,2

6,5

70

3

1,2

20

7

1,44

400

24

8,4

140

4

1,6

11

8

2,56

121

17,6

12,8

88

5

1,8

13

10

3,24

169

3,24

18

130

Сумма

7

70

34

10,14

1030

76,24

50,1

476

Квадрат суммы

49

4900

Тогда система уравнений имеет вид:

Найдем оценки для параметров модели, решая систему уравнений методом Крамера:

 =

Δ =   = 5  - 7  + 70  = 5 (76.24*76.24 - 49*4900 ) - 7 (70*76.24 - 7*4900 ) + 70 (70*49 - 7*76.24 ) = - 5 *234287.46 + 7 * 28963,2 + 70*2896,32 = - 1171437,3 + 202742,4 + 202742,4 =  -765952,5

а =  Δа / Δ

Δа =    = 34  - 7  + 70 = 34 (76,24*76,24 - 49*4900 ) - 7 (476*76,24 - 50,1*4900) + 70 (476*49 - 50,1*76,24 ) = - 34 * 234287,46 + 7 * 209199,76 + 70* 19504,376 = -7965773,64 + 1464398,32 + 1365306,32 = -5136069

а =  Δа / а = -5136069 / -765952,5= 6,705

b1 = Δ b1 / Δ

Δ b1  = 5  - 34  + 70  = 5 (476*76,24 - 50,1*4900 ) - 34 (70*76,24 - 7*4900 ) + 70 (70*50,1 - 7*476) = - 5 * 209199,76 + 34 * 28963,2 + 70 * 175 = -1045998,8 + 984778,8 + 12250 = -48970

b1 = Δ b1 / Δ = - 48970 / -765952,5= 0,0639

b2 = Δ b2 / Δ

Δ b2 =   = 5  - 7  + 34 = 5 (76,24*50, - 49*476 ) - 7 (70*50,1 - 7*476 ) + 34 (70*49 - 7*76,24 ) = - 5 * 19504,376 -  7 *175 + 34 * 2896,32 = - 97521,88 - 1225 + 98474,88 = -271,92

b2 = Δ b2 / Δ = -271,92 / -765952,5= 0,00035

Тогда уравнение регрессии имеет вид:

Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .

Используя результаты регрессионной статистики, получаем:

.

Для применения формулы для нахождения коэффициента детерминации составим вспомогательную табл. 7:

Таблица 7

Вспомогательная таблица для нахождения коэффициента детерминации

Номер

Х1

Х2

Y

1

1,1

12

4

6,779

-2,779

7,723

2,8

7,84

2

1,3

14

5

6,793

-1,793

3,214

1,8

3,24

3

1,2

20

7

6,788

0,212

0,0449

-0,2

0,04

4

1,6

11

8

6,811

1,189

1,414

-1,2

1,44

5

1,8

13

10

6,824

3,176

10,087

-3,2

10,24

Сумма

7

70

34

33,995

22,483

22,8

Среднее

 1,4

 14

6,8

6,799

Отсюда коэффициент детерминации:

.

Чем ближе коэффициент детерминации к единице, тем лучше построена модель зависимости результирующего показателя у от фактор – признака х.

Так как R2 достаточно близок  к единице, то уравнение регрессии достаточно точно отражает истинную зависимость.

Величина rxy – коэффициент парной корреляции сложных величин х и у.

Содержательный смысл этого коэффициента таков: он показывает на сколько стандартных единиц изменится показатель у, если фактор – признак х увеличится на 1 свою стандартную единицу.

Коэффициент корреляции является показателем тесноты линейной зависимости.

-1 < rxy < 1

rxy > 0, то прямая положительная корреляционная зависимость.

rxy < 0 – то обратная.

Так как в задаче парная линейная зависимость, то воспользуемся при решении формулой коэффициента корреляции:

 где r – парный коэффициент корреляции,

 - среднее произведение факторного и результативного признаков,

 -произведение средних размеров факторного и результативного признаков,

,  - среднее квадратическое отклонение факторного и результативного признаков. Причем

        

Оценим статистическую зависимость между потреблением материалов от энерговооруженности труда (Y от x1)

 = 50,1/5 = 10,02

 = 7/5 = 1,4

 = 34/5 = 6,8

 = 1,4*6,8 = 9,52

 = 10,14/5 = 2,028

 = 254/5 = 50,8

 = 1,42 = 1,96

 = 6,82 = 46,24

rxy > 0, то прямая положительная корреляционная зависимость.

Оценим статистическую зависимость между потреблением материалов от объема производственной продукции (Y от x2)

 = 476/5 = 95,2

 = 70/5 = 14

 = 34/5 = 6,8

 = 14*6,8 = 95,2

 = 1030/5 = 206

 = 254/5 = 50,8

 = 142 = 196

 = 6,82 = 46,24

rxy = 0, следовательно, между х и у отсутствует корреляционная зависимость. В этом случае отсутствует линейная зависимость.

Список литературы

1.                Вентцель Е.С. Теория вероятностей. М.: 1972г.

2.     Боярский А.Я., Громыко Г.Л. Общая теория статистики М.: изд. Московского университета, 1985 г. – 372 с.

3.                Гмурман В.Е.  Теория вероятностей и математическая статистика:- М.: 2002.

4.     Елисеева И.И. Статистика – М.: ТК Велби, Изд-во Проспект, 2004. – 448 с.

5.     Ефимова М.Р. Общая теория статистики Изд. 2 – е, испр. И жоп. – М.: ИНФРА – М, 2002. – 416 с.