Задача 1. В таблице 1 приведены следующие данные: единичная стоимость процесса добычи нефти и газа (Y), процент жидкости в добываемом из скважины газе (X) для различных месторождений.

1.                          В рамках линейной модели найдите регрессионную зависимость Y от Х.

2.                          Вычислите коэффициент корреляции между Х и Y.

3.                          Определите значимость регрессии для  a = 0,05.

4.                          Найдите 95% доверительные интервалы для параметров модели.

5.                          Найдите интервал, в котором с вероятностью 0,95 находится значение единичной стоимости добычи газа при наличии 25% жидкости.

6.                          Вычислите коэффициент детерминации R2.

Исходные данные:

Х

Y

13.1

3.4

16.7

5.1

19.6

4.7

23.3

6.7

26.1

6.2

30.2

9.1

42.9

8.3


Решение:

1. Вычислим параметры уравнения линейной регрессии по формулам:

.

Для этого организуем вычисления во вспомогательной таблице:



Номер

Х

Y

X2

Y2

XY

1

13.1

3.4

171.61

11.56

44.54

2

16.7

5.1

278.89

26.01

85.17

3

19.6

4.7

384.16

22.09

92.12

4

23.3

6.7

542.89

44.89

156.11

5

26.1

6.2

681.21

38.44

161.82

6

30.2

9.1

912.04

82.81

274.82

7

42.9

8.3

1840.41

68.89

356.07

Сумма

171.9

43.5

4811.21

294.69

1170.65

Среднее

24.6

6.2

687.3

42.1

167.2


Тогда

;

.

Значит, уравнение линейной регрессии имеет вид

.


2. Вычислим коэффициент корреляции по формуле:

.

Для применения формулы составим вспомогательную таблицу:

Номер

Х

Y

2

1

13.1

3.4

-11.5

132.25

-2.8

7.84

2

16.7

5.1

-7.9

62.41

-1.1

1.21

3

19.6

4.7

-5

25

-1.5

2.25

4

23.3

6.7

-1.3

1.69

0.5

0.25

5

26.1

6.2

1.5

2.25

0

0

6

30.2

9.1

5.6

31.36

2.9

8.41

7

42.9

8.3

18.3

334.89

2.1

4.41

Сумма

171.9

43.5

 

589.85

 

24.37


Тогда коэффициент корреляции найдется следующим образом:

.


3. Определим значимость регрессии для  a = 0,05, проверив гипотезу Н0: «b=0», рассчитав статистику:

.

По таблице F-статистики найдем критическое значение этого критерия:

.

Т.к. F>fкр, то гипотезу Н0: «b=0» отвергаем, т.е. регрессия значима.


4. Найдем 95%-ные доверительные интервалы для параметров модели. Для этого вначале найдем параметры распределения Стьюдента, оформив вспомогательную таблицу:

Номер

Х

Y

1

13.1

3.4

8.506

-5.106

26.07

-2.306

5.32

2

16.7

5.1

11.602

-6.502

42.28

-5.402

29.18

3

19.6

4.7

14.096

-9.396

88.28

-7.896

62.35

4

23.3

6.7

17.278

-10.578

111.89

-11.08

122.72

5

26.1

6.2

19.686

-13.486

181.87

-13.49

181.87

6

30.2

9.1

23.212

-14.112

199.15

-17.01

289.41

7

42.9

8.3

34.134

-25.834

667.40

-27.93

780.31

Сумма

171.9

43.5

128.514

 

1316.94

 

1471.16

Среднее

24.6

6.2

18.35914

 

188.13

 

210.17

Параметры двустороннего распределения Стьюдента:

.

Тогда, по таблице значений критерия Стьюдента, .

Тогда искомые доверительные интервалы:

Для коэффициента а.

Для коэффициента b.


5. Прогнозное значение .

При этом доверительный интервал для прогноза y(x) определяется границами:

, т.е. .


6.     Коэффициент детерминации

.



Задача 2. Пусть b – оценка коэффициента наклона в регрессии Y на Х, а g – оценка коэффициента наклона в регрессии Х на Y. Покажите, что b = 1/g тогда и только тогда, когда R2 = 1. В рамках линейной модели найдите регрессионную зависимость  Х от Y, пользуясь данными предыдущей задачи.

Решение: Используем обозначение Û – «тогда и только тогда»

R2 = 1  Û  r = 1  Û    Û  b = 1/g.

Пояснения:

Коэффициент детерминации равен 1 тогда и только тогда, когда коэффициент корреляции равен 1. Коэффициент корреляции можно найти как с использованием b, так и с использованием g; приравняв эти формулы для вычисления коэффициента корреляции, получим утверждение b = 1/g.

Для нахождения регрессионной зависимости  Х от Y аналогично предыдущей задаче воспользуемся вспомогательной таблицей и формулами:

.

.

Тогда искомое уравнение регрессии: .


Задача 3.  У семи сотрудников предприятия собраны данные об их среднемесячной зарплате (Y), возрасте (Х1) и стаже работы (Х2). С помощью метода наименьших квадратов оценить параметры линейной модели вида  влияния возраста и стажа работы на среднемесячную зарплату.

Исходные данные:

Х1

Х2

Y

35

6

1500

45

12

2100

20

3

1350

50

12

2100

30

2

1500

40

8

1800

25

2

1250


Решение:

Для подстановки числовых коэффициентов в систему уравнений, используемую в методе наименьших квадратов, составим вспомогательную таблицу:


Х1

Х2

Y

Х12

Х22

Х1Х2

Y Х1

Y Х2


35

6

1500

1225

36

210

52500

9000


45

12

2100

2025

144

540

94500

25200


20

3

1350

400

9

60

27000

4050


50

12

2100

2500

144

600

105000

25200


30

2

1500

900

4

60

45000

3000


40

8

1800

1600

64

320

72000

14400


25

2

1250

625

4

50

31250

2500

Сумма

245

45

11600

9275

405

1840

427250

83350

Квадрат суммы

60025

2025








Тогда система уравнений имеет вид:

.

С помощью пакета Excel – точнее, методом обратной матрицы с использованием функций МОБР и МУМНОЖ – найдем решение этой системы уравнений: а1 = 6,02;  а2 = 35,69.


Задача 4. Пользуясь данными задачи 3, построить линейную модель вида  влияния возраста и стажа работы на среднемесячную зарплату. Вычислите коэффициент детерминации R2.

Решение:

Используя также вспомогательную таблицу из задачи 3, составим систему уравнений относительно коэффициентов модели:

.

Аналогично задаче 3 найдем оценки для параметров модели:

а0 = 1611,46;  а1 = 0,39;  а2 = 5,0,   т.е. модель имеет вид:

Для применения формулы для нахождения коэффициента детерминации составим вспомогательную таблицу:

Номер

Х1

Х2

Y

1

35

6

1500

1655.14

155.14

24068.42

157.14

24693.88

2

45

12

2100

1689.04

-410.96

168888.1

-442.86

196122.4

3

20

3

1350

1634.29

284.29

80820.8

307.14

94336.73

4

50

12

2100

1690.99

-409.01

167289.2

-442.86

196122.4

5

30

2

1500

1633.19

133.19

17739.58

157.14

24693.88

6

40

8

1800

1667.09

-132.91

17665.07

-142.86

20408.16

7

25

2

1250

1631.24

381.24

145343.9

407.14

165765.3

Сумма

 

 

11600



621815.1


722142.9

Среднее

 

 

1657.14







Отсюда коэффициент детерминации:

.