Содержание

Задача 1 (расслоенная выборка). 3

Задача 2  (выборочные оценки по регрессии). 12

Список литературы.. 15

Задания по методам выборочных обследований-2.


Вариант №120

 Номер варианта V – три последних цифры шифра.


Задача 1 (расслоенная выборка).

В таблице содержатся данные о числе Y жителей N=40 городов страны. Города разделены на два слоя: в первом слое – 10 наиболее крупных, во втором – все остальные города. С помощью таблицы случайных чисел сформировать следующие выборки, состоящие из n=16 городов:

1.     расслоенную с пропорциональным размещением;

2.     расслоенную содержащую одинаковое число единиц каждого слоя;

3.     простую (нерасслоенную) случайную выборку.

Найти по каждой из этих выборок:

а) оценку среднего числа жителей всех 40 городов;

б) среднюю ошибку и 95% доверительный интервал для этой оценки;

в) оценку суммарного числа жителей всех 40 городов;

г) среднюю ошибку и 95% доверительный интервал для этой оценки;

Найти истинное значение среднего и суммарного значения по всем 40 городам. Какая выборка дала более точные результаты?


Слой 1.

1

2

3

4

5

6

7

8

9

10

y

797+V

588+V

548+V

457+V

415+V

401+V

387+V

381+V

324+V

315+V

Слой 2.

1

2

3

4

5

6

7

8

9

10

y

314+V

296+V

258+V

256+V

238+V

235+V

216+V

208+V

192+V

180+V

11

12

13

14

15

16

17

18

19

20

y

172+V

163+V

161+V

159+V

153+V

138+V

136+V

132+V

130+V

126+V

21

22

23

24

25

26

27

28

29

30

y

121+V

113+V

118+V

116+V

113+V

110+V

108+V

106+V

104+V

100+V


Т.к. V=120, то таблица примет вид:


Слой 1.

1

2

3

4

5

6

7

8

9

10

 ∑

yi1

917

708

668

677

535

521

507

501

444

435

5913


Слой 2.


1

2

3

4

5

6

7

8

9

10


yi2

434

416

378

376

358

355

336

328

312

300


11

12

13

14

15

16

17

18

19

20


yi2

292

283

281

279

273

258

256

252

250

246


21

22

23

24

25

26

27

28

29

30

 ∑

yi2

241

233

238

236

233

230

228

226

224

220

8572


1.     Расслоенная выборка с пропорциональным размещением.

т.к. в первом слое N1 =10, во втором N2=30,а всего выборка n=16, то пропорциональной будет выборка n1=4 из первого слоя и n2=12 из второго.

Слой 1.

2

3

6

8

 ∑

yi1

708

668

521

501

2398

Слой 2.

3

5

6

10

11

15

17

20

23

24

28

29

  ∑

yi2

378

358

355

300

292

273

256

246

238

236

226

224

3382


а) Оценка среднего числа жителей всех 40 городов (N) вычисляется по формуле:

      cpyst=(1/N)*∑NL*cpyL,

где NL–число единиц в L-ом слое совокупности, cpyl – выборочное среднее значение числа жителей для слоя L.

      cpy1=2398/4=599,500

    cpy2=3382/12=281,83

cpyst=(1/40)*(10*599,5+30*281,83)=361,250


б)

2

3

6

8

yi1

708

668

521

501

2398

yi1- cpy1

108,5

68,5

-78,5

-98,5

-

(yi1- cpy1)2

11772,25

4692,25

6162,25

9702,25

32329


3

5

6

10

11

15

17

20

23

24

28

29

yi2

378

358

355

300

292

273

256

246

238

236

226

224

3382

yi2- cpy2

96,17

76,17

73,17

18,17

10,17

-8,83

-25,83

-35,83

-43,83

-45,83

-55,83

-57,83

-

(yi2- cpy2)2

9248,03

5801,36

5353,36

330,03

103,36

78,03

667,36

1284,03

1921,36

2100,69

3117,36

3344,69

33349,67


 Средняя ошибка σy:

    σy=√σy2,

   где σy2 – несмещенная оценка дисперсии величины cpyst равна:

    σy2=(1/N)*∑ NL(NL-nL)*σL2/ nL,

где выборочная дисперсия σL2 каждого слоя L равна:

   σL2=(1/nL-1)*∑(yiL- cpyL)2,

nL-число единиц в L-ом слое выборки.

    σ12=1/3*32329=10776,33

    σ22=1/11*33349=3031,73

Значит:

    σy2=1/40*(10*(10-4)*10776,33/4+30*(30-12)*3031,73/12)=7451,82

    σy=86,32

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(7451,82/16(1-16/40))1/2=33,43

52,89< σy<119,75


в) Оценка суммарного числа жителей всех 40 городов:

∑yst=∑NL*cpyL  ,   

cpy1 и cpy2 из пункта а).

yst =10*599,5+30*281,83=14449,9


г) Средняя ошибка σy:

    σy=√σy2,

   где σy2 – несмещенная оценка дисперсии величины ∑yst равна:

    σy2=∑ NL(NL-nL)*σL2/ nL,

величины σ12 и σ22 из пункта б)

    σy2= (10*6*10776,33/4+30*18*3031,73/12)= 298072,8

    σy=545,96

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(298072,8/16*(1-16/40))1/2=211,45

334,51< σy<757,41


2.     Расслоенная выборка содержащая одинаковое число единиц каждого слоя.

Т.к. вся выборка состоит из n=16 городов, то из каждого слоя выберем по n1=n2=8 городов:

Слой 1.

1

2

3

4

5

8

9

10

 ∑

y

917

708

668

677

535

501

444

435

4885

Слой 2.

5

7

10

13

15

17

20

25

 ∑

y

358

336

300

281

273

256

246

233

2283


а) Оценка среднего числа жителей всех 40 городов (N) вычисляется по формуле:

      cpyst=(1/N)*∑NL*cpyL,

где NL–число единиц в L-ом слое совокупности, cpyl – выборочное среднее значение числа жителей для слоя L.

      cpy1=4885/8=610,625

    cpy2=2283/8=285,375

cpyst=(1/40)*(10*610,625+30*285,375)=366,69


)

1

2

3

4

5

8

9

10

yi1

917

708

668

677

535

501

444

435

4885

yi1- cpy1

306,375

97,375

57,375

66,375

-75,625

-109,625

-166,625

-175,625

-

(yi1- cpy1)2

93865,641

9481,891

3291,891

4405,641

5719,141

12017,641

27763,891

30844,141

187389,875


5

7

10

13

15

17

20

25

yi2

358

336

300

281

273

256

246

233

2283

yi2- cpy2

72,625

50,625

14,625

-4,375

-12,375

-29,375

-39,375

-52,375

-

(yi2- cpy2)2

5274,391

2562,89

213,891

19,141

153,141

862,891

1550,391

2743,141

13379,875


Аналогично пункту 1. рассчитаем σy2 ( несмещенная оценка дисперсии величины cpyst ) и среднюю ошибку σy:

    σ12=(1/n1-1)*∑(yi1- cpy1)2=1/7*187389,875=26769,98

    σ22=(1/n2-1)*∑(yi2- cpy2)2=1/7*13379,875=1911,41

    σy2=∑ NL(NL-nL)*σL2/ nL=1/40*(10*2*26769,98/8+30*22*1911,41/8)=5615,41

    σy=√σy2 =74,94

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(5615,41/16(1-16/40))1/2=29,02

45,92< σy<103,96


в) Оценка суммарного числа жителей всех 40 городов:

∑yst=∑NL*cpyL  ,   

cpy1 и cpy2 из пункта а).

yst =10*610,625+30*285,375=14667,5


г)Средняя ошибка σy:

    σy=√σy2,

   где σy2 – несмещенная оценка дисперсии величины ∑yst равна:

    σy2=∑ NL(NL-nL)*σL2/ nL,

  величины σ12 и σ22 из пункта б)

    σy2= 10*2*26769,98/8+30*22*1911,41/8=224616,4

    σy=473,94

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(224616,4/16*(1-16/40))1/2=184,72

289,22< σy<658,66




3.     Простая (нерасслоенная) случайную выборка.

Выбираем города из общей совокупности в N=40.

1

5

8

9

15(5)

22(12)

23(13)

27(17)

29(19)

30(20)

31(21)

y

917

535

501

444

358

283

281

256

250

246

241


33(23)

34(24)

35(25)

36(26)

39(29)

 ∑

238

236

233

230

224

5473


а) Оценка среднего числа жителей всех 40 городов (N) совпадает с выборочной средней значения числа жителей:

      cpyst=cpy

  cpy=5473/16=342,063

 cpyst= cpy=342,063


б)

1

5

8

9

15(5)

22(12)

23(13)

27(17)

29(19)

yi

917

535

501

444

358

283

281

256

250

yi- cpy

574,937

192,937

158,937

101,937

15,937

-59,063

-61,063

-86,063

-92,063

(yi- cpy)2

330553,129

37224,879

25261,129

10391,254

254,004

3488,379

3728,629

7406,754

8475,504

     

30(20)

31(21)

33(23)

34(24)

35(25)

36(26)

39(29)

246

241

238

236

233

230

224

5473

-96,063

-101,063

-104,063

-106,063

-109,063

-112,063

-118,063

-

9228,004

10213,629

10829,004

11249,254

11894,629

12558,004

13938,754

506694,938


Средняя ошибка σy:

    σy=√σy2,

   где σy2 – несмещенная оценка дисперсии величины cpyst равна:

    σy2=(N-n)*σ2/ n,

   где выборочная дисперсия σ2 равна:

   σ2=(1/n-1)*∑(yi- cpy)2=1/15*506694,938=33779,66

Значит:

    σy2=(40-16)* 33779,66/16=50669,49

    σy=225,10

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(33779,66/16(1-16/40))1/2=87,18

137,92< σy<312,28

в) Оценка суммарного числа жителей всех 40 городов:

      ∑yst=N*cpy=40*5473/16=13682,52

г)

Средняя ошибка σy:

    σy=√σy2,

   где σy2 – несмещенная оценка дисперсии величины ∑yst равна:

    σy2=N(N-n)*σ2/ n,

   где величина выборочной дисперсии σ2 из п. б)

Значит:

    σy2=40*(40-16)* 33779,66/16=2026779,75

    σy=1423,65

Доверительный интервал (95%-ый):

σy-∆<σyy+∆

t=2

∆=t (σy2/n*(1-n/N))1/2=2*(2026779,75/16(1-16/40))1/2=551,38

872,27< σy<1975,03


Истинное значение средней численности городов:

    cpy=(1/N)*∑yiL=1/40*(5913+8572)=362,125 тыс. жит.

   т.к. ∑yi1=5913 и  ∑yi2=8572

Истинное значение суммарного числа жителей всех 40 городов:

   ∑y=5913+8572=14485 тыс. жит.

Обобщим расчеты:

1.     cpyst=361,25

     ∑yst=14449,9

2.     cpyst=366,69

     ∑yst=14667,5

3.     cpyst=342,06

     ∑yst=13682,52

Таким образом, расслоенная выборка с пропорциональным размещением (п.1) дала самые точные результаты.







Задача 2  (выборочные оценки по регрессии).


Опытный фермер оценивает на глаз урожай персиков, xi, с каждого дерева в саду с N=V деревьев. Он определил, что их общий вес  X=50V фунтов. Для некоторой простой случайной выборки объемом n=10 деревьев все плоды были собраны и взвешены, что дало следующие результаты (см. таблицу). Вычислите оценку по регрессии действительного общего веса Y и найдите ее стандартную ошибку и 95% доверительный интервал.


 Номер

дерева

1

2

3

4

5

6

 Действи

тельный вес, y’

61*V/100

42*V/100

50*V/100

58*V/100

67*V/100

45*V/100

 Оценка веса, х’

59*V/100

47*V/100

52*V/100

60*V/100

67*V/100

48*V/100

7

8

9

10

 

39*V/100

57*V/100

71*V/100

63*V/100

 

44*V/100

58*V/100

76*V/100

58*V/100

 


Т.к. V=120, то N=120, X=6000  и исходная таблица примет вид:

 Номер

дерева

1

2

3

4

5

6

7

8

9

10

 Действи

тельный вес, y’

73,2

50,4

60

69,6

80,4

54

46,8

68,4

85,2

75,6

 Оценка веса, х’

70,8

56,4

62,4

72

80,4

57,6

52,8

69,6

91,2

69,6


 Номер

дерева

1

2

3

4

5

6

7

8

9

10

 Действи

тельный вес, yi

73,2

50,4

60

69,6

80,4

54

46,8

68,4

85,2

75,6

663,6

 Оценка веса, хi

70,8

56,4

62,4

72

80,4

57,6

52,8

69,6

91,2

69,6

682,8

 yi  -cpy

6,84

-15,96

-6,36

3,24

14,04

-12,36

-19,56

2,04

18,84

9,24

-

xi  -cpx

2,52

-11,88

-5,88

3,72

12,12

-10,68

-15,48

1,32

22,92

1,32

-

(yi  -cpy)*

(xi  -cpx)

17,237

189,605

37,397

12,053

170,165

132,005

302,789

2,693

431,813

12,197

1307,952

(xi  -cpx)2

6,350

141,134

34,574

13,838

146,894

114,062

239,630

1,742

525,326

1,742

1225,296

(yi  -cpy)-

b*(xi  -cpx)

4,150

-3,279

-0,083

-0,731

1,102

-0,960

-3,036

0,631

-5,626

7,831

-

((yi -cpy)-

b*(xi -cpx))2

17,223

10,749

0,007

0,534

1,215

0,921

9,216

0,398

31,653

61,324

133,240


cpy=∑y/n=663,6/10=66,36

cpx=∑x/n=682,8/10=68,28

Вычислим величину срylr-линейную оценку по регрессии величины срY (среднего значения Y для совокупности):

срylr= cpy+b*(cpX- cpx),

где cpX= X/N=50,

     b – коэффициент линейной регрессии, вычисленный методом наименьших квадратов:

      b=∑(yi -cpy)*(xi -cpx)/∑ (xi  -cpx)2=1307,952/1225,296=1,067

Значит:

       срylr=66,36+1,067*(50-68,28)=46,847

Тогда оценка по регрессии действительного общего веса Y будет равна:

Y’=N* срylr=120*46,847=5621,624

Дисперсия срylr вычисляется по приближенной формуле:

σ2(срylr)=(1-f)/n*s2,

где f – доля отбора,

      s2 – оценка остаточной дисперсии для регрессии:

s2=(1/n-1)*∑ ((yi -cpy)-b*(xi -cpx))2=1/9*133,24=14,804

Значит:

σ2(срylr)=(1-10/120)/10*14,804=1,357


Стандартная ошибка Y  равна:

σ (Y’)=N* σ(срylr)=120*√1,357=139,792


Доверительный интервал (95%-ый) для Y’:

     Y’=5621,624

Y’-∆< Y’< Y’+∆

t=2

∆=t* σ (Y’)*((1-n/N)/n)1/2=2*139,792*((1-10/120)/10)1/2=84,648

5536,976< Y’<5706,272

Список литературы


1.     Башкатов Б.И. Социально-экономическая статистика – М.: ЮНИТИ-ДАНА 2002. – 703 с.

2.     Боярский А.Я., Громыко Г.Л. “Общая теория статистики” М.: изд. Московские университеты, 1985 г. – 372 с

3.     Кокрен У Методы выборочного обследования Подю редю А.Г. Волкова М: ставтистика 1976.

4.     Дружинин Н.К. Выборочное обследование и эксперимент М: Статистика 1977

5.     Шварц Г. Выборочный метод Под. ред. И.Г. Венецкого и В.М. Ивановой М: Стптистика, 1978