Содержание
Задача 1 (расслоенная выборка). 3
Задача 2 (выборочные оценки по регрессии). 12
Список литературы.. 15
Задания по методам выборочных обследований-2.
Вариант №120
Номер варианта V – три последних цифры шифра.
Задача 1 (расслоенная выборка).
В таблице содержатся данные о числе Y жителей N=40 городов страны. Города разделены на два слоя: в первом слое – 10 наиболее крупных, во втором – все остальные города. С помощью таблицы случайных чисел сформировать следующие выборки, состоящие из n=16 городов:
1. расслоенную с пропорциональным размещением;
2. расслоенную содержащую одинаковое число единиц каждого слоя;
3. простую (нерасслоенную) случайную выборку.
Найти по каждой из этих выборок:
а) оценку среднего числа жителей всех 40 городов;
б) среднюю ошибку и 95% доверительный интервал для этой оценки;
в) оценку суммарного числа жителей всех 40 городов;
г) среднюю ошибку и 95% доверительный интервал для этой оценки;
Найти истинное значение среднего и суммарного значения по всем 40 городам. Какая выборка дала более точные результаты?
Слой 1.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
y |
797+V |
588+V |
548+V |
457+V |
415+V |
401+V |
387+V |
381+V |
324+V |
315+V |
Слой 2.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
y |
314+V |
296+V |
258+V |
256+V |
238+V |
235+V |
216+V |
208+V |
192+V |
180+V |
№ |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
y |
172+V |
163+V |
161+V |
159+V |
153+V |
138+V |
136+V |
132+V |
130+V |
126+V |
№ |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
y |
121+V |
113+V |
118+V |
116+V |
113+V |
110+V |
108+V |
106+V |
104+V |
100+V |
Т.к. V=120, то таблица примет вид:
Слой 1.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
∑ |
yi1 |
917 |
708 |
668 |
677 |
535 |
521 |
507 |
501 |
444 |
435 |
5913 |
Слой 2.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
yi2 |
434 |
416 |
378 |
376 |
358 |
355 |
336 |
328 |
312 |
300 |
|
№ |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
|
yi2 |
292 |
283 |
281 |
279 |
273 |
258 |
256 |
252 |
250 |
246 |
|
№ |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
∑ |
yi2 |
241 |
233 |
238 |
236 |
233 |
230 |
228 |
226 |
224 |
220 |
8572 |
1. Расслоенная выборка с пропорциональным размещением.
т.к. в первом слое N1 =10, во втором N2=30,а всего выборка n=16, то пропорциональной будет выборка n1=4 из первого слоя и n2=12 из второго.
Слой 1.
№ |
2 |
3 |
6 |
8 |
∑ |
yi1 |
708 |
668 |
521 |
501 |
2398 |
Слой 2.
№ |
3 |
5 |
6 |
10 |
11 |
15 |
17 |
20 |
23 |
24 |
28 |
29 |
∑ |
yi2 |
378 |
358 |
355 |
300 |
292 |
273 |
256 |
246 |
238 |
236 |
226 |
224 |
3382 |
а) Оценка среднего числа жителей всех 40 городов (N) вычисляется по формуле:
cpyst=(1/N)*∑NL*cpyL,
где NL–число единиц в L-ом слое совокупности, cpyl – выборочное среднее значение числа жителей для слоя L.
cpy1=2398/4=599,500
cpy2=3382/12=281,83
cpyst=(1/40)*(10*599,5+30*281,83)=361,250
б)
№ |
2 |
3 |
6 |
8 |
∑ |
yi1 |
708 |
668 |
521 |
501 |
2398 |
yi1- cpy1 |
108,5 |
68,5 |
-78,5 |
-98,5 |
- |
(yi1- cpy1)2 |
11772,25 |
4692,25 |
6162,25 |
9702,25 |
32329 |
№ |
3 |
5 |
6 |
10 |
11 |
15 |
17 |
20 |
23 |
24 |
28 |
29 |
∑ |
yi2 |
378 |
358 |
355 |
300 |
292 |
273 |
256 |
246 |
238 |
236 |
226 |
224 |
3382 |
yi2- cpy2 |
96,17 |
76,17 |
73,17 |
18,17 |
10,17 |
-8,83 |
-25,83 |
-35,83 |
-43,83 |
-45,83 |
-55,83 |
-57,83 |
- |
(yi2- cpy2)2 |
9248,03 |
5801,36 |
5353,36 |
330,03 |
103,36 |
78,03 |
667,36 |
1284,03 |
1921,36 |
2100,69 |
3117,36 |
3344,69 |
33349,67 |
Средняя ошибка σy:
σy=√σy2,
где σy2 – несмещенная оценка дисперсии величины cpyst равна:
σy2=(1/N)*∑ NL(NL-nL)*σL2/ nL,
где выборочная дисперсия σL2 каждого слоя L равна:
σL2=(1/nL-1)*∑(yiL- cpyL)2,
nL-число единиц в L-ом слое выборки.
σ12=1/3*32329=10776,33
σ22=1/11*33349=3031,73
Значит:
σy2=1/40*(10*(10-4)*10776,33/4+30*(30-12)*3031,73/12)=7451,82
σy=86,32
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(7451,82/16(1-16/40))1/2=33,43
52,89< σy<119,75
в) Оценка суммарного числа жителей всех 40 городов:
∑yst=∑NL*cpyL ,
cpy1 и cpy2 из пункта а).
yst =10*599,5+30*281,83=14449,9
г) Средняя ошибка σy:
σy=√σy2,
где σy2 – несмещенная оценка дисперсии величины ∑yst равна:
σy2=∑ NL(NL-nL)*σL2/ nL,
величины σ12 и σ22 из пункта б)
σy2= (10*6*10776,33/4+30*18*3031,73/12)= 298072,8
σy=545,96
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(298072,8/16*(1-16/40))1/2=211,45
334,51< σy<757,41
2. Расслоенная выборка содержащая одинаковое число единиц каждого слоя.
Т.к. вся выборка состоит из n=16 городов, то из каждого слоя выберем по n1=n2=8 городов:
Слой 1.
№ |
1 |
2 |
3 |
4 |
5 |
8 |
9 |
10 |
∑ |
y |
917 |
708 |
668 |
677 |
535 |
501 |
444 |
435 |
4885 |
Слой 2.
№ |
5 |
7 |
10 |
13 |
15 |
17 |
20 |
25 |
∑ |
y |
358 |
336 |
300 |
281 |
273 |
256 |
246 |
233 |
2283 |
а) Оценка среднего числа жителей всех 40 городов (N) вычисляется по формуле:
cpyst=(1/N)*∑NL*cpyL,
где NL–число единиц в L-ом слое совокупности, cpyl – выборочное среднее значение числа жителей для слоя L.
cpy1=4885/8=610,625
cpy2=2283/8=285,375
cpyst=(1/40)*(10*610,625+30*285,375)=366,69
)
№ |
1 |
2 |
3 |
4 |
5 |
8 |
9 |
10 |
∑ |
yi1 |
917 |
708 |
668 |
677 |
535 |
501 |
444 |
435 |
4885 |
yi1- cpy1 |
306,375 |
97,375 |
57,375 |
66,375 |
-75,625 |
-109,625 |
-166,625 |
-175,625 |
- |
(yi1- cpy1)2 |
93865,641 |
9481,891 |
3291,891 |
4405,641 |
5719,141 |
12017,641 |
27763,891 |
30844,141 |
187389,875 |
№ |
5 |
7 |
10 |
13 |
15 |
17 |
20 |
25 |
∑ |
yi2 |
358 |
336 |
300 |
281 |
273 |
256 |
246 |
233 |
2283 |
yi2- cpy2 |
72,625 |
50,625 |
14,625 |
-4,375 |
-12,375 |
-29,375 |
-39,375 |
-52,375 |
- |
(yi2- cpy2)2 |
5274,391 |
2562,89 |
213,891 |
19,141 |
153,141 |
862,891 |
1550,391 |
2743,141 |
13379,875 |
Аналогично пункту 1. рассчитаем σy2 ( несмещенная оценка дисперсии величины cpyst ) и среднюю ошибку σy:
σ12=(1/n1-1)*∑(yi1- cpy1)2=1/7*187389,875=26769,98
σ22=(1/n2-1)*∑(yi2- cpy2)2=1/7*13379,875=1911,41
σy2=∑ NL(NL-nL)*σL2/ nL=1/40*(10*2*26769,98/8+30*22*1911,41/8)=5615,41
σy=√σy2 =74,94
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(5615,41/16(1-16/40))1/2=29,02
45,92< σy<103,96
в) Оценка суммарного числа жителей всех 40 городов:
∑yst=∑NL*cpyL ,
cpy1 и cpy2 из пункта а).
yst =10*610,625+30*285,375=14667,5
г)Средняя ошибка σy:
σy=√σy2,
где σy2 – несмещенная оценка дисперсии величины ∑yst равна:
σy2=∑ NL(NL-nL)*σL2/ nL,
величины σ12 и σ22 из пункта б)
σy2= 10*2*26769,98/8+30*22*1911,41/8=224616,4
σy=473,94
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(224616,4/16*(1-16/40))1/2=184,72
289,22< σy<658,66
3. Простая (нерасслоенная) случайную выборка.
Выбираем города из общей совокупности в N=40.
№ |
1 |
5 |
8 |
9 |
15(5) |
22(12) |
23(13) |
27(17) |
29(19) |
30(20) |
31(21) |
y |
917 |
535 |
501 |
444 |
358 |
283 |
281 |
256 |
250 |
246 |
241 |
33(23) |
34(24) |
35(25) |
36(26) |
39(29) |
∑ |
238 |
236 |
233 |
230 |
224 |
5473 |
а) Оценка среднего числа жителей всех 40 городов (N) совпадает с выборочной средней значения числа жителей:
cpyst=cpy
cpy=5473/16=342,063
cpyst= cpy=342,063
б)
№ |
1 |
5 |
8 |
9 |
15(5) |
22(12) |
23(13) |
27(17) |
29(19) |
yi |
917 |
535 |
501 |
444 |
358 |
283 |
281 |
256 |
250 |
yi- cpy |
574,937 |
192,937 |
158,937 |
101,937 |
15,937 |
-59,063 |
-61,063 |
-86,063 |
-92,063 |
(yi- cpy)2 |
330553,129 |
37224,879 |
25261,129 |
10391,254 |
254,004 |
3488,379 |
3728,629 |
7406,754 |
8475,504 |
30(20) |
31(21) |
33(23) |
34(24) |
35(25) |
36(26) |
39(29) |
∑ |
246 |
241 |
238 |
236 |
233 |
230 |
224 |
5473 |
-96,063 |
-101,063 |
-104,063 |
-106,063 |
-109,063 |
-112,063 |
-118,063 |
- |
9228,004 |
10213,629 |
10829,004 |
11249,254 |
11894,629 |
12558,004 |
13938,754 |
506694,938 |
Средняя ошибка σy:
σy=√σy2,
где σy2 – несмещенная оценка дисперсии величины cpyst равна:
σy2=(N-n)*σ2/ n,
где выборочная дисперсия σ2 равна:
σ2=(1/n-1)*∑(yi- cpy)2=1/15*506694,938=33779,66
Значит:
σy2=(40-16)* 33779,66/16=50669,49
σy=225,10
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(33779,66/16(1-16/40))1/2=87,18
137,92< σy<312,28
в) Оценка суммарного числа жителей всех 40 городов:
∑yst=N*cpy=40*5473/16=13682,52
г)
Средняя ошибка σy:
σy=√σy2,
где σy2 – несмещенная оценка дисперсии величины ∑yst равна:
σy2=N(N-n)*σ2/ n,
где величина выборочной дисперсии σ2 из п. б)
Значит:
σy2=40*(40-16)* 33779,66/16=2026779,75
σy=1423,65
Доверительный интервал (95%-ый):
σy-∆<σy <σy+∆
t=2
∆=t (σy2/n*(1-n/N))1/2=2*(2026779,75/16(1-16/40))1/2=551,38
872,27< σy<1975,03
Истинное значение средней численности городов:
cpy=(1/N)*∑yiL=1/40*(5913+8572)=362,125 тыс. жит.
т.к. ∑yi1=5913 и ∑yi2=8572
Истинное значение суммарного числа жителей всех 40 городов:
∑y=5913+8572=14485 тыс. жит.
Обобщим расчеты:
1. cpyst=361,25
∑yst=14449,9
2. cpyst=366,69
∑yst=14667,5
3. cpyst=342,06
∑yst=13682,52
Таким образом, расслоенная выборка с пропорциональным размещением (п.1) дала самые точные результаты.
Задача 2 (выборочные оценки по регрессии).
Опытный фермер оценивает на глаз урожай персиков, xi, с каждого дерева в саду с N=V деревьев. Он определил, что их общий вес X∑=50V фунтов. Для некоторой простой случайной выборки объемом n=10 деревьев все плоды были собраны и взвешены, что дало следующие результаты (см. таблицу). Вычислите оценку по регрессии действительного общего веса Y∑ и найдите ее стандартную ошибку и 95% доверительный интервал.
Номер дерева |
1 |
2 |
3 |
4 |
5 |
6 |
Действи тельный вес, y’ |
61*V/100 |
42*V/100 |
50*V/100 |
58*V/100 |
67*V/100 |
45*V/100 |
Оценка веса, х’ |
59*V/100 |
47*V/100 |
52*V/100 |
60*V/100 |
67*V/100 |
48*V/100 |
7 |
8 |
9 |
10 |
|
||
39*V/100 |
57*V/100 |
71*V/100 |
63*V/100 |
|
||
44*V/100 |
58*V/100 |
76*V/100 |
58*V/100 |
|
Т.к. V=120, то N=120, X∑=6000 и исходная таблица примет вид:
Номер дерева |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Действи тельный вес, y’ |
73,2 |
50,4 |
60 |
69,6 |
80,4 |
54 |
46,8 |
68,4 |
85,2 |
75,6 |
Оценка веса, х’ |
70,8 |
56,4 |
62,4 |
72 |
80,4 |
57,6 |
52,8 |
69,6 |
91,2 |
69,6 |
Номер дерева |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
∑ |
Действи тельный вес, yi |
73,2 |
50,4 |
60 |
69,6 |
80,4 |
54 |
46,8 |
68,4 |
85,2 |
75,6 |
663,6 |
Оценка веса, хi |
70,8 |
56,4 |
62,4 |
72 |
80,4 |
57,6 |
52,8 |
69,6 |
91,2 |
69,6 |
682,8 |
yi -cpy |
6,84 |
-15,96 |
-6,36 |
3,24 |
14,04 |
-12,36 |
-19,56 |
2,04 |
18,84 |
9,24 |
- |
xi -cpx |
2,52 |
-11,88 |
-5,88 |
3,72 |
12,12 |
-10,68 |
-15,48 |
1,32 |
22,92 |
1,32 |
- |
(yi -cpy)* (xi -cpx) |
17,237 |
189,605 |
37,397 |
12,053 |
170,165 |
132,005 |
302,789 |
2,693 |
431,813 |
12,197 |
1307,952 |
(xi -cpx)2 |
6,350 |
141,134 |
34,574 |
13,838 |
146,894 |
114,062 |
239,630 |
1,742 |
525,326 |
1,742 |
1225,296 |
(yi -cpy)- b*(xi -cpx) |
4,150 |
-3,279 |
-0,083 |
-0,731 |
1,102 |
-0,960 |
-3,036 |
0,631 |
-5,626 |
7,831 |
- |
((yi -cpy)- b*(xi -cpx))2 |
17,223 |
10,749 |
0,007 |
0,534 |
1,215 |
0,921 |
9,216 |
0,398 |
31,653 |
61,324 |
133,240 |
cpy=∑y/n=663,6/10=66,36
cpx=∑x/n=682,8/10=68,28
Вычислим величину срylr-линейную оценку по регрессии величины срY (среднего значения Y для совокупности):
срylr= cpy+b*(cpX- cpx),
где cpX= X∑/N=50,
b – коэффициент линейной регрессии, вычисленный методом наименьших квадратов:
b=∑(yi -cpy)*(xi -cpx)/∑ (xi -cpx)2=1307,952/1225,296=1,067
Значит:
срylr=66,36+1,067*(50-68,28)=46,847
Тогда оценка по регрессии действительного общего веса Y∑ будет равна:
Y∑’=N* срylr=120*46,847=5621,624
Дисперсия срylr вычисляется по приближенной формуле:
σ2(срylr)=(1-f)/n*s2,
где f – доля отбора,
s2 – оценка остаточной дисперсии для регрессии:
s2=(1/n-1)*∑ ((yi -cpy)-b*(xi -cpx))2=1/9*133,24=14,804
Значит:
σ2(срylr)=(1-10/120)/10*14,804=1,357
Стандартная ошибка Y∑’ равна:
σ (Y∑’)=N* σ(срylr)=120*√1,357=139,792
Доверительный интервал (95%-ый) для Y∑’:
Y∑’=5621,624
Y∑’-∆< Y∑’< Y∑’+∆
t=2
∆=t* σ (Y∑’)*((1-n/N)/n)1/2=2*139,792*((1-10/120)/10)1/2=84,648
5536,976< Y∑’<5706,272
Список литературы
1. Башкатов Б.И. Социально-экономическая статистика – М.: ЮНИТИ-ДАНА 2002. – 703 с.
2. Боярский А.Я., Громыко Г.Л. “Общая теория статистики” М.: изд. Московские университеты, 1985 г. – 372 с
3. Кокрен У Методы выборочного обследования Подю редю А.Г. Волкова М: ставтистика 1976.
4. Дружинин Н.К. Выборочное обследование и эксперимент М: Статистика 1977
5. Шварц Г. Выборочный метод Под. ред. И.Г. Венецкого и В.М. Ивановой М: Стптистика, 1978