Содержание
Задача 1. 3
Задача 2. 9
Список литературы.. 15
Задача 1
Имеются выборочные данные о глубине вспашки полей под озимые культуры Х (см) и их урожайности Y (ц с га) (табл. 1).
Таблица 1
Исходные данные
Х |
0 |
5 |
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
Y |
5 |
10 |
12 |
16 |
20 |
16 |
17 |
25 |
22 |
20 |
1. Составить уравнение линейной регрессии y = a + bx +ε, используя МНК, и найти числовые характеристики переменных.
2. Составить уравнение линейной регрессии y = a + bx +ε, используя матричный метод.
3. Вычислить коэффициент корреляции и оценить полученное уравнение регрессии.
4. Найти оценки параметров а, b, δ2.
5. Найти оценки параметров нормального распределения для статистик а¯ и b¯.
6. Найти доверительные интервалы для а и b на основании оценок а¯ и b¯ при уровне значимости а = 0,05.
7. Вычислить коэффициент детерминации и оценить качество выбранного уравнения регрессии.
Решение:
Используя исходные данные, строим диаграмму рассеяния (рис. 1):
Рисунок 1 – Диаграмма рассеяния
Полагаем, что связь между факторами Х и У может быть описана линейной функцией.
Нормальные уравнения для линейного тренда имеют вид:
где: yi - уровни исходного ряда динамики;
ti - номера периодов или моментов времени (1,2,3:n);
n - число уровней ряда;
а0, а1, а2 - константы уравнений.
Решение задачи нахождения оценок а и b основывается на применении метода наименьших квадратов (сокращенно - МНК), суть которой в следующем: нахождение оценок а и b неизвестных параметров α и β сводится к следующей экстремальной задаче функции двух переменных F(a,b):
,
которая в свою очередь сводится к системе двух линейных уравнений с двумя неизвестными а и b:
Решение этой системы можно получить по правилу Крамера:
;
Обозначим через ; выборочные средние наблюдаемых значений переменных х и у. Таким образом, оценки а и b можно искать по следующим формулам:
; .
Для этого организуем вычисления во вспомогательной табл. 2.
Таблица 2
Вспомогательная таблица для определения параметров уравнения линейной регрессии
Номер |
Х |
Y |
Х2 |
Y2 |
ХY |
1 |
0 |
5 |
0 |
25 |
0 |
2 |
5 |
10 |
25 |
100 |
50 |
3 |
10 |
12 |
100 |
144 |
120 |
4 |
15 |
16 |
225 |
256 |
240 |
5 |
20 |
20 |
400 |
400 |
400 |
6 |
25 |
16 |
625 |
256 |
400 |
7 |
30 |
17 |
900 |
289 |
510 |
8 |
35 |
25 |
1225 |
625 |
875 |
9 |
40 |
22 |
1600 |
484 |
880 |
10 |
45 |
20 |
2025 |
400 |
900 |
Сумма |
225 |
163 |
7125 |
2979 |
4375 |
Среднее |
22,5 |
16,3 |
712,5 |
297,9 |
437,5 |
Тогда
.
Значит, уравнение линейной регрессии имеет вид:
.
Вычислим коэффициент корреляции по формуле:
.
Для применения формулы составим вспомогательную табл. 3:
Таблица 3
Вспомогательная таблица для расчета коэффициента корреляции
Номер |
Х |
Y |
|
2 |
||
1 |
0 |
5 |
- 22,5 |
506,25 |
-11,3 |
127,69 |
2 |
5 |
10 |
-17,5 |
306,25 |
-6,3 |
39,69 |
3 |
10 |
12 |
-12,5 |
156,25 |
-4,3 |
18,49 |
4 |
15 |
16 |
-7,5 |
56,25 |
-0,3 |
0,09 |
5 |
20 |
20 |
-2,5 |
6,25 |
3,7 |
13,69 |
6 |
25 |
16 |
2,5 |
6,25 |
-0,3 |
0,09 |
7 |
30 |
17 |
7,5 |
56,25 |
0,7 |
0,49 |
8 |
35 |
25 |
12,5 |
156,25 |
8,7 |
75,69 |
9 |
40 |
22 |
17,5 |
306,25 |
5,7 |
32,49 |
10 |
45 |
20 |
22,5 |
506,25 |
3,7 |
13,69 |
Сумма |
225 |
163 |
2062,5 |
322,1 |
||
Среднее |
22,5 |
16,3 |
Тогда коэффициент корреляции найдется следующим образом:
.
Определим значимость регрессии для a = 0,05, проверив гипотезу Н0: «b=0», рассчитав статистику:
.
По таблице F-статистики найдем критическое значение этого критерия:
5,32
Т.к. F>fкр, то гипотезу Н0: «b=0» отвергаем, т.е. регрессия значима.
Найдем 95%-ные доверительные интервалы для параметров модели. Для этого вначале найдем параметры распределения Стьюдента, оформив вспомогательную табл. 4:
Таблица 4
Таблица для расчета доверительных интервалов для параметров модели
Номер |
Х |
Y |
|
|
|||
1 |
0 |
5 |
8,65 |
-3,65 |
13,322 |
7,65 |
58,5225 |
2 |
5 |
10 |
10,35 |
-0,35 |
0,122 |
5,95 |
35,4025 |
3 |
10 |
12 |
12,05 |
-0,05 |
0,0025 |
4,25 |
18,0625 |
4 |
15 |
16 |
13,75 |
2,25 |
5,0625 |
2,55 |
6,5025 |
5 |
20 |
20 |
15,45 |
4,55 |
20,7025 |
0,85 |
0,7225 |
6 |
25 |
16 |
17,15 |
-1,15 |
1,3225 |
-0,85 |
0,7225 |
7 |
30 |
17 |
18,85 |
-1,85 |
3,4225 |
-2,55 |
6,5025 |
8 |
35 |
25 |
20,55 |
4,45 |
19,8025 |
-4,25 |
18,0625 |
9 |
40 |
22 |
22,25 |
-0,25 |
0,0625 |
-5,95 |
35,4025 |
10 |
45 |
20 |
23,95 |
-3,95 |
15,6025 |
-7,65 |
58,5225 |
Сумма |
225 |
163 |
163 |
79,424 |
|
238,425 |
|
Среднее |
22,5 |
16,3 |
16,3 |
|
7,9424 |
|
23,8425 |
Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .
Используя результаты регрессионной статистики, получаем:
.
Величина доверительного интервала определяется в общем виде следующим образом:
где - среднее квадратическое отклонение от тренда;
ta - табличное значение t-критерия Стьюдента при уровне значимости a. Зависит от уровня значимости a (%) и числа степеней свободы k=n-m.
Величина определяется по формуле
где: yi и - соответственно фактические и расчетные значения уровней динамического ряда;
n - число уровней ряда;
m - количество параметров в уравнении тренда (для уравнения прямой m=2).
Параметры нормального распределения Стьюдента:
.
Тогда, по таблице значений критерия Стьюдента, .
Тогда искомые доверительные интервалы:
Для коэффициента а: .
Для коэффициента b: .
Коэффициент детерминации рассчитывается по формуле
.
Очевидно, что 0£ R2 £ 1. Значение R2 характеризует ту долю дисперсии переменной у, которая обуславливается уравнением регрессии ŷi = a +bx. Таким образом, чем ближе значение R2 к единице, тем точнее уравнение регрессии отражает имеющуюся зависимость между переменными.
Так как R2 достаточно близок к единице, то уравнение регрессии достаточно точно отражает истинную зависимость между данными о глубине вспашке полей и их урожайности.
Задача 2
1. Составить уравнение множественной линейной регрессии y = a + b1x1 + b2x2 + ε в матричной форме, используя МНК, и найти числовые характеристики переменных.
2. Найти оценки параметров а, b1, b2, δ2
3. Найти коэффициент детерминации и оценить уравнение регрессивной связи.
4. Оценить статистическую значимость между переменными.
Изучается зависимость по предприятиям объединения потребления материалов Y(т) от энерговооруженности труда Х1 (кВт/ч на одного рабочего) и объема производственной продукции Х2 (тыс. ед.) (табл. 5).
Таблица 5
Исходные данные
№ п/п |
Y |
X1 |
X2 |
1 |
4 |
1.1 |
12 |
2 |
5 |
1.3 |
14 |
3 |
7 |
1.2 |
20 |
4 |
8 |
1.6 |
11 |
5 |
10 |
1.8 |
13 |
Решение:
Для подстановки числовых коэффициентов в систему уравнений, используемую в методе наименьших квадратов, составим вспомогательную табл. 6:
Таблица 6
Вспомогательная таблица для вычисления числовых коэффициентов уравнения регрессии
№ |
Х1 |
Х2 |
Y |
Х12 |
Х22 |
Х1Х2 |
Y Х1 |
Y Х2 |
1 |
1,1 |
12 |
4 |
1,21 |
144 |
13,2 |
4,4 |
48 |
2 |
1,3 |
14 |
5 |
1,69 |
196 |
18,2 |
6,5 |
70 |
3 |
1,2 |
20 |
7 |
1,44 |
400 |
24 |
8,4 |
140 |
4 |
1,6 |
11 |
8 |
2,56 |
121 |
17,6 |
12,8 |
88 |
5 |
1,8 |
13 |
10 |
3,24 |
169 |
3,24 |
18 |
130 |
Сумма |
7 |
70 |
34 |
10,14 |
1030 |
76,24 |
50,1 |
476 |
Квадрат суммы |
49 |
4900 |
Тогда система уравнений имеет вид:
Найдем оценки для параметров модели, решая систему уравнений методом Крамера:
=
Δ = = 5 - 7 + 70 = 5 (76.24*76.24 - 49*4900 ) - 7 (70*76.24 - 7*4900 ) + 70 (70*49 - 7*76.24 ) = - 5 *234287.46 + 7 * 28963,2 + 70*2896,32 = - 1171437,3 + 202742,4 + 202742,4 = -765952,5
а = Δа / Δ
Δа = = 34 - 7 + 70 = 34 (76,24*76,24 - 49*4900 ) - 7 (476*76,24 - 50,1*4900) + 70 (476*49 - 50,1*76,24 ) = - 34 * 234287,46 + 7 * 209199,76 + 70* 19504,376 = -7965773,64 + 1464398,32 + 1365306,32 = -5136069
а = Δа / а = -5136069 / -765952,5= 6,705
b1 = Δ b1 / Δ
Δ b1 = = 5 - 34 + 70 = 5 (476*76,24 - 50,1*4900 ) - 34 (70*76,24 - 7*4900 ) + 70 (70*50,1 - 7*476) = - 5 * 209199,76 + 34 * 28963,2 + 70 * 175 = -1045998,8 + 984778,8 + 12250 = -48970
b1 = Δ b1 / Δ = - 48970 / -765952,5= 0,0639
b2 = Δ b2 / Δ
Δ b2 = = 5 - 7 + 34 = 5 (76,24*50, - 49*476 ) - 7 (70*50,1 - 7*476 ) + 34 (70*49 - 7*76,24 ) = - 5 * 19504,376 - 7 *175 + 34 * 2896,32 = - 97521,88 - 1225 + 98474,88 = -271,92
b2 = Δ b2 / Δ = -271,92 / -765952,5= 0,00035
Тогда уравнение регрессии имеет вид:
Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .
Используя результаты регрессионной статистики, получаем:
.
Для применения формулы для нахождения коэффициента детерминации составим вспомогательную табл. 7:
Таблица 7
Вспомогательная таблица для нахождения коэффициента детерминации
Номер |
Х1 |
Х2 |
Y |
|
|
|||
1 |
1,1 |
12 |
4 |
6,779 |
-2,779 |
7,723 |
2,8 |
7,84 |
2 |
1,3 |
14 |
5 |
6,793 |
-1,793 |
3,214 |
1,8 |
3,24 |
3 |
1,2 |
20 |
7 |
6,788 |
0,212 |
0,0449 |
-0,2 |
0,04 |
4 |
1,6 |
11 |
8 |
6,811 |
1,189 |
1,414 |
-1,2 |
1,44 |
5 |
1,8 |
13 |
10 |
6,824 |
3,176 |
10,087 |
-3,2 |
10,24 |
Сумма |
7 |
70 |
34 |
33,995 |
22,483 |
22,8 |
||
Среднее |
1,4 |
14 |
6,8 |
6,799 |
Отсюда коэффициент детерминации:
.
Чем ближе коэффициент детерминации к единице, тем лучше построена модель зависимости результирующего показателя у от фактор – признака х.
Так как R2 достаточно близок к единице, то уравнение регрессии достаточно точно отражает истинную зависимость.
Величина rxy – коэффициент парной корреляции сложных величин х и у.
Содержательный смысл этого коэффициента таков: он показывает на сколько стандартных единиц изменится показатель у, если фактор – признак х увеличится на 1 свою стандартную единицу.
Коэффициент корреляции является показателем тесноты линейной зависимости.
-1 < rxy < 1
rxy > 0, то прямая положительная корреляционная зависимость.
rxy < 0 – то обратная.
Так как в задаче парная линейная зависимость, то воспользуемся при решении формулой коэффициента корреляции:
где r – парный коэффициент корреляции,
- среднее произведение факторного и результативного признаков,
-произведение средних размеров факторного и результативного признаков,
, - среднее квадратическое отклонение факторного и результативного признаков. Причем
Оценим статистическую зависимость между потреблением материалов от энерговооруженности труда (Y от x1)
= 50,1/5 = 10,02
= 7/5 = 1,4
= 34/5 = 6,8
= 1,4*6,8 = 9,52
= 10,14/5 = 2,028
= 254/5 = 50,8
= 1,42 = 1,96
= 6,82 = 46,24
rxy > 0, то прямая положительная корреляционная зависимость.
Оценим статистическую зависимость между потреблением материалов от объема производственной продукции (Y от x2)
= 476/5 = 95,2
= 70/5 = 14
= 34/5 = 6,8
= 14*6,8 = 95,2
= 1030/5 = 206
= 254/5 = 50,8
= 142 = 196
= 6,82 = 46,24
rxy = 0, следовательно, между х и у отсутствует корреляционная зависимость. В этом случае отсутствует линейная зависимость.
Список литературы
1. Вентцель Е.С. Теория вероятностей. М.: 1972г.
2. Боярский А.Я., Громыко Г.Л. Общая теория статистики М.: изд. Московского университета, 1985 г. – 372 с.
3. Гмурман В.Е. Теория вероятностей и математическая статистика:- М.: 2002.
4. Елисеева И.И. Статистика – М.: ТК Велби, Изд-во Проспект, 2004. – 448 с.
5. Ефимова М.Р. Общая теория статистики Изд. 2 – е, испр. И жоп. – М.: ИНФРА – М, 2002. – 416 с.