Содержание



Исходные данные. 3

1. Проверка на нормальность. 3

2. Избавиться от выбросов. 5

3. Проверить гипотезу равенства средних. 6

4. Достоверность отличия каждого из средних от нуля. 7

5. Гипотетическая разность между средними. 7

6. Минимальное количество объектов. 8

Исходные данные

Дано два массива данных:

Х:      5       6       7       5,5    5,8

Y:      22     21     21,5  20     80


1. Проверка на нормальность

По Критерию Пирсона проверим две статистические гипотезы о том, что каждая из выборок имеет нормальное распределение. Сначала составим в пакете Excel вспомогательную таблицу:


Х

Y

Х*Х

Y*Y


5

22

25

484


6

21

36

441


7

21.5

49

462.25


5.5

20

30.25

400


5.8

80

33.64

6400

Сумма

29.3

164.5

173.89

8187.25

Среднее

5.86

32.9

34.778

1637.45


Используя данные этой таблицы найдем среднеквадратичные отклонения каждой из выборок:

СКО Х

0.740

СКО Y

26.340


Приведем формулы, по которым проводились эти вычисления в Excel:


Х

Y

Х*Х

Y*Y


5

22

=B2*B2

=C2*C2


6

21

=B3*B3

=C3*C3


7

21.5

=B4*B4

=C4*C4


5.5

20

=B5*B5

=C5*C5


5.8

80

=B6*B6

=C6*C6

Сумма

=СУММ(B2:B6)

=СУММ(C2:C6)

=СУММ(D2:D6)

=СУММ(E2:E6)

Среднее

=B7/5

=C7/5

=D7/5

=E7/5






СКО Х

=КОРЕНЬ((5/4)*(D8-B8*B8))




СКО Y

=КОРЕНЬ((5/4)*(E8-C8*C8))





Далее проведем основные вычисления по проверке гипотез. Для этого сгруппируем значения из этих выборок по интервалам. Для первой выборки этими интервалами будут (–¥;5), [5;6), [6;7), [7;8), [8;+¥). Для второй выборки этими интервалами будут (–¥;20), [20;21], (21;22], (22;80], (80;+¥).

Ниже приведены таблицы их Excel, в которых как для первой, так и для второй выборок приведены эмпирические частоты попадания элементов выборок в каждый интервал, центрированные и нормированные значения границ интервалов, значения стандартной функции Лапласа в центрированных и нормированных границах интервалов, значения функций нормального распределения в границах интервалов (для вычисления теоретических вероятностей попадания элементов выборки в указанные интервалы), теоретические частоты попадания элементов выборки в указанные интервалы, значения c2-критериев для каждой выборки.

Х

m(i) эмп

Z

Ф(Z)

F(x(I))

F(x(i+1))

m(i) теор

Хи-кв

 

0

 

-0.5

0

0.623

0

0

5

3

-1.162

0.123

0.623

0.813

0.954

4.392

6

1

0.189

0.575

1.075

1.438

1.816

0.367

7

1

1.540

0.938

1.438

1

-2.191

-4.647

 

0

 

0.5

1

 

0

0

Сумма

5

 

 

 

 

Сумма

0.11151









Y

m(i) эмп

Z

Ф(Z)

F(y(I))

F(y(i+1))

m(i) теор

Хи-кв

 

0

 

-0.5

0

0.623

0

0

20

3

-0.490

0.312

0.812

0.813

0.006

1471.928

22

1

-0.414

0.340

0.840

1.438

2.994

1.328

80

1

1.788

0.963

1.463

1

-2.316

-4.747

 

0

 

0.5

1

 

0

0

Сумма

5

 

 

 

 

Сумма

1468.508


Ниже приведем ту же таблицу из Excel? Только с указанием формул:

Х

m(i) эмп

Z

Ф(Z)

F(x(I))

F(x(i+1))

m(i) теор

Хи-кв

 

0

 

-0.5

=0.5+D14

0.62267

0

0

5

3

=(A15-B$8)/B$10

=НОРМРАСП(C15;0;1)

=0.5+D15

0.81337

=(F15-E15)*B$19

=СТЕПЕНЬ(B15-G15;2)/G15

6

1

=(A16-B$8)/B$10

=НОРМРАСП(C16;0;1)

=0.5+D16

1.43821

=(F16-E16)*B$19

=СТЕПЕНЬ(B16-G16;2)/G16

7

1

=(A17-B$8)/B$10

=НОРМРАСП(C17;0;1)

=0.5+D17

1

=(F17-E17)*B$19

=СТЕПЕНЬ(B17-G17;2)/G17

 

0

 

0.5

=0.5+D18

 

0

0


=СУММ(B14:B18)

 

 

 

 

Сумма

=СУММ(H14:H18)

Y

m(i) эмп

Z

Ф(Z)

F(y(I))

F(y(i+1))

m(i) теор

Хи-кв

 

0

 

-0.5

=0.5+D22

0.62267

0

0

20

3

=(A23-C$8)/B$11

=НОРМРАСП(C23;0;1)

=0.5+D23

0.81337

=(F23-E23)*B$27

=СТЕПЕНЬ(B23-G23;2)/G23

22

1

=(A24-C$8)/B$11

=НОРМРАСП(C24;0;1)

=0.5+D24

1.43821

=(F24-E24)*B$27

=СТЕПЕНЬ(B24-G24;2)/G24

80

1

=(A25-C$8)/B$11

=НОРМРАСП(C25;0;1)

=0.5+D25

1

=(F25-E25)*B$27

=СТЕПЕНЬ(B25-G25;2)/G25

 

0

 

0.5

=0.5+D26

 

0

0


=СУММ(B22:B26)

 

 

 

 

Сумма

=СУММ(H22:H26)


Итак, расчетные значения c2-критериев для обеих выборок 0,37311 и 163,551. Судя по таблице критических значений критерия Пирсона при п=5 элементах выборки и при k=2 степенях свободы, мы можем принять гипотезу о том, что первая выборка сделана из нормально распределенной генеральной совокупности только при уровне значимости a=0,9 (т.е. с 10%-ой надежностью), а для второй выборки аналогичную гипотезу можем принять при уровне значимости a=0,01 (т.е. с 99%-ой надежностью).


2. Избавиться от выбросов

Для избавления от выбросов в каждой выборке проведем экспоненциальное сглаживание и заменим элементы выборок на «сглаженные» значения. Экспоненциальное сглаживание проведем, получив соответствующие уравнения трендов на точечном (графическом) представлении выборок:

С помощью полученных уравнений вычислим «сглаженные» значения:

X

5

6

7

5.5

5.8

Сглаж Х

6.07381

6.2027086

6.3343

6.137921

6.1767119

Y

22

21

21.5

20

80

Сглаж Y

22.5009

21.938139

22.218

21.38943

47.7777


3. Проверить гипотезу равенства средних

Предполагая, что обе эти выборки сделаны независимо друг от друга из нормально распределенных генеральных совокупностей, проверим статистичекую гипотезу о равенстве средних при условии, что гипотеза о равенстве дисперсий не отвергается.

В качестве критерия используем функцию

,

где  п=т=5 – количество элементов во обеих выборках,  и  – выборочные дисперсии.

Вычислив в Excel эти значения, получим следующие значения (с указанием формул):

S=

18.6326

=КОРЕНЬ((B10*B10*4+B11*B11*4)/8)

Т=

-2.2946

=(B8-C8)/(C39*КОРЕНЬ(1/5+1/5))


Функция  Т  подчинена  t-распределению. По таблице  t-распределения для  п+т–2=8 степеней свободы и при уровне значимости a=0,05 двусторонняя критическая область (–¥;–1,86)È(1,86;+¥), т.е. значение  Т = –2,2946  попадает в критическую область, т.е. разность между средними несущественна и следует принять гипотезу о равенстве средних генеральных совокупностей.


4. Достоверность отличия каждого из средних от нуля

Для проверки достоверности отличия каждой средней от нуля по критерию Стьюдента проверим две статистические гипотезы о значениях средних:

Вычислим наблюдаемые значения критериев Стьюдента

, где  s – соответствующие с.к.о.:

t1=

17.701

=(B8/B10)*КОРЕНЬ(5)

t2=

2.7930

=(C8/B11)*КОРЕНЬ(5)


Двусторонние критические области определяем для уровня значимости a=0,05 и числе степеней свободы  п­–1=т–1=4 есть (–¥;–2,776)È(2,776;+¥). Это означает, что для обеих выборок следует принимать гипотезы об отличии каждой из средних от нуля.


5. Гипотетическая разность между средними

Для гипотетической разности между средними (d=1,2; a=5%; b=10%; D=0,5) определить минимальное количество экспериментов, необходимое для достоверного определения гипотетической разности между средними.

Минимальное число экспериментов найдем из следующих условий.

1) Стандартная ошибка разности между средними находится по формуле , где п и т – искомые минимальные значения экспериментов.

2) Наблюдаемое значение t-критерия Стьюдента, используемое при проверке статистической гипотезы о значении разности между средними вычисляется по формуле   с уровнями значимости a=5% и b=10% и числом степеней свободы N=(n-1)+ (m-1).

Используем эти два условия для составления двух уравнений относительно двух неизвестных п и т.

Первое уравнение  .

Для второго уравнения найдем в Excel с указанием формулы

Дельта=

1.2

t=

22.533

Дельта=

1.2

t=

=(C8-B8)/C45

Для того, чтобы гипотеза была принята с t=22,533 и a=5%, по таблице значений критерия Стьюдента находим минимально необходимое число степеней свободы N=1. Аналогичная картина и для уровня значимости b=10%.

Значит, достаточно использовать только первое уравнение для обоих случаев. Для простоты предположим, что п=т.

Тогда искомое минимальное число экспериментов :

n=

0.912870929

=КОРЕНЬ(1/1.2)


Ответ: минимальное число – 1 эксперимент.


6. Минимальное количество объектов

Для a=5% и b=5% определить минимальное количество объектов, которое необходимо взять в эксперимент, для того, чтобы определить разницу между двумя ожидаемыми частотами  p1=0,2;  p2=0,7.

Рассмотрим c2-критерию проверки статистической гипотезы о совпадении ожидаемой и наблюдаемой частот. Статистика этого критерия:

,

где   – ожидаемая частота, N – искомое минимальное число объектов, 1/N – наблюдаемая частота (частота появления 1 элемента с заданным свойством).

Критическое значение , где g – заданный уровень значимости при (N–1) степенях свободы.

Гипотеза о совпадении частот принимается при выполнении неравенства

.

Значит, эта гипотеза отвергается при неравенстве Подробнее:

.

Откуда  – с помощью Excel подбором решим это неравенство относительно искомого N. Для этого поместим в Excel часть табличных значений хи-квадрат-критерия для уровня значимости a=0,05 и для разных степеней свободы. Итак, для   вычисления выглядят:

Пи=

0,2





Хи-квадр

N

Левая часть

12,706

1


4,303

2

0,557378

3,182

3

0,886772

2,776

4

1,002258

2,571

5

1,05807

2,447

6

1,090421

2,365

7

1,111641

2,306

8

1,126443

2,262

9

1,137505

2,228

10

1,145991


Из этой таблицы видно что неравенство выполняется уже при N=2.

То же самое с формулами:



Пи

0,2





Хи-квадр

N

Левая часть неравенства

12,706

1


4,303

2

=1/(B$1+КОРЕНЬ(B$1*A4))

3,182

3

=1/(B$1+КОРЕНЬ(B$1*A5))

2,776

4

=1/(B$1+КОРЕНЬ(B$1*A6))

2,571

5

=1/(B$1+КОРЕНЬ(B$1*A7))

2,447

6

=1/(B$1+КОРЕНЬ(B$1*A8))

2,365

7

=1/(B$1+КОРЕНЬ(B$1*A9))

2,306

8

=1/(B$1+КОРЕНЬ(B$1*A10))

2,262

9

=1/(B$1+КОРЕНЬ(B$1*A11))

2,228

10

=1/(B$1+КОРЕНЬ(B$1*A12))


Аналогичные вычисления для  .

Пи

0,7





Хи-квадр

N

Левая часть

12,706

1

0

4,303

2

0,271568327

3,182

3

0,41058652

2,776

4

0,456111232

2,571

5

0,477557864

2,447

6

0,489828952

2,365

7

0,497815076

2,306

8

0,503356799

2,262

9

0,507482395

2,228

10

0,510638586


То же самое с формулами:





Пи

0,7





Хи-квадр

N

Левая часть неравенства

12,706

1


4,303

2

=1/(B$1+КОРЕНЬ(B$1*A4))

3,182

3

=1/(B$1+КОРЕНЬ(B$1*A5))

2,776

4

=1/(B$1+КОРЕНЬ(B$1*A6))

2,571

5

=1/(B$1+КОРЕНЬ(B$1*A7))

2,447

6

=1/(B$1+КОРЕНЬ(B$1*A8))

2,365

7

=1/(B$1+КОРЕНЬ(B$1*A9))

2,306

8

=1/(B$1+КОРЕНЬ(B$1*A10))

2,262

9

=1/(B$1+КОРЕНЬ(B$1*A11))

2,228

10

=1/(B$1+КОРЕНЬ(B$1*A12))


Также из этой таблицы видно, что неравенство выполняется уже при N=2.

Ответ: для   и   минимальное число объектов равно 2.