Глава 5. Непараметрические тесты. Команда Nonparametric tests.

Непараметрические тесты предназначены преимущественно для проверки статистических гипотез методами, не связанными с видом распределения совокупности. В частности, применение этих методов не требует предположения о нормальности распределения, которое необходимо для правомерного использования одномерного дисперсионного анализа, процедуры T-TEST, при определении значимости корреляций и т.д. К средствам непараметрического анализа относятся в числе прочих методов тест хи-квадрат, служащий для проверки взаимосвязи между номинальными переменными и коэффициенты ранговой корреляции, которым мы уже уделили некоторое внимание.

Непараметрические тесты не ограничиваются таким исследованием связи пар переменных; они включают множество других методов, реализованных командой синтаксиса NPAR TESTS. В меню SPSS непараметрические тесты реализует команда Nonparametric tests c множеством подкоманд.

Процедура NPAR TESTS включает большую группу критериев для проверки:

-     соответствия распределения выборочной совокупности заданному распределению;

-     случайного характера выборки объектов;

-     совпадения распределений в различных группах

-     совпадения распределений в связанных выборках (например, результатов повторных измерений).

Во всех критериях допускаются асимптотические, точные оценки значимости (EXACT) и оценки их методом Монте-Карло.

5.1. Одновыборочные тесты

Эти тесты служат для проверки соответствия распределения выборки заданному.

5.1.1. Тест Хи-квадрат

Критерий Хи-квадрат основан на статистике

,

где  - ожидаемая частота i-го значения переменной, Ni расчетная. Теоретическое распределение этой статистики при больших N совпадает с распределением Хи-квадрат. Число степеней свободы теоретического распределения полагается равным k-1, где k - число значений исследуемой переменной. Эмпирическое правило говорит о том, что некорректно применять критерий, если ожидаемые частоты меньше 5, поскольку его распределение в этом случае не будет близко к теоретическому. Но использование точных методов вычисления значимости (метод Монте-Карло) позволяет избежать этого ограничения.

Пример. Пусть, согласно статистическим данным, 30% трудоспособного населения имеют возраст до 30 лет, 30% - от 30 до 40 лет и 40% свыше 40 лет. Соответствует ли выборочное распределение признака "возраст" в обследовании "Курильские острова" распределению возраста в генеральной совокупности?

RECODE v9 (1 THR 30 =1)(31 THR 40 =2)(41 THRU HI =3) INTO w9.

NPAR TESTS /CHISQUARE = W9 /EXPECTED 3 3 4.

Подкоманда /CHISQUARE задает тестируемую переменную; в подкоманде /EXPECTED задаем через пробел ожидаемые пропорции распределения.

Выполнение этих команд позволяет получить значение  критерия и оценить степень соответствия нашей выборки распределению генеральной совокупности (табл. 5.1, 5.2).

Таблица 5.1. Наблюдаемые и ожидаемые частоты


Observed N

Expected N

Residual

1

175

210

-35

2

225

210

15

3

300

280

20

Total

700

 

 


Таблица 5.2. Статистика хи-квадрат


W9

Chi-Square

8.333

Df

2

Asymp. Sig.

0.016


Анализируя таблицу 5.1, уже по отклонениям расчетных значений от ожидаемых (см. столбец RESIDUAL), видим, что эмпирическое распределение сильно отличается от теоретического. Достаточно высокое значение критерия (Chi-Square =8.333, таблица 5.2) мало информативно. Ответ о совпадении нашего распределения с теоретическим заключен в анализе наблюдаемого уровня значимости. Его малая величина (Asymp. Sig.=0.016) показывает, что полученные отклонения значимы: вероятность получить большие значения Хи-квадрат равна 1.6%, гипотеза о соответствии выборки указанной генеральной совокупности может быть отвергнута на уровне значимости 5%.

Таким образом, для данного случая тест показал существенное различие теоретического и эмпирического распределений.

Приведем пример применения метода статистического моделирования Монте-Карло. В этом примере производится 100000 экспериментов по моделированию выборки из генеральной совокупности с заданными вероятностями (p1=0.3, p2=0.3, p3=0.4):

NPAR TEST /CHISQUARE=w9 /EXPECTED=3 3 4 /METHOD=MC CIN(99) SAMPLES(100000).

Естественно при такой большой выборке был получен тот же результат (таблица 5.3). Уровень значимости этим методом оценивается приближенно, на основе статистических экспериментов - чем больше экспериментов, тем точнее. Поскольку оценка значимости получена на основе случайных экспериментов, выдается доверительный интервал для уровня значимости (99%-й по умолчанию). Точечная оценка наблюдаемого уровня значимости (Monte Carlo Sig) совпадает с асимптотической оценкой (Asymp. Sig., табл.5.3), "оптимистическая" нижняя граница равна 0.015, "пессимистическая" верхняя - 0.017. Таким образом, со всех точек зрения отклонение распределения значимо.

Таблица 5.3. Значимость критерия хи-квадрат


 

 

W9

Chi-Square

 

 

8.333

Df

 

 

2

Asymp. Sig.

 

 

0.016

Monte Carlo Sig

Sig.

 

0.016

 

99% Confidence Interval

Lower Bound

0.015

 

 

Upper Bound

0.017



5.1.2. Тест, основанный на биномиальном распределении

Проверяется гипотеза о параметре биномиального распределения H0: p=p0. Например, проверим по нашей выборке, действительно ли в генеральной совокупности вероятность встретить мужчину p=0.5, , а молодежь не старше 30 лет - с вероятностью p=0.3 (см. предыдущий пример):

NPAR TESTS BINOMIAL(0.5) = V8(1,2).

NPAR TESTS BINOMIAL(0.3) = V9(30).

В скобках за ключевым словом BINOMIAL указывается вероятность "успеха". Далее следует тестируемая переменная. Если за ней в скобках следует два значения, то считается, что выборка ограничена двумя группами, соответствующими этим значениям, а успех соответствует первому значению. Если в скобках задано одно значение, то успех - принятие переменной значения, не большего этого числа. В диалоговом окне есть возможность задать как "точку разрыва", так и два кода.

Программа подсчитывает число объектов m, имеющих заданные значения (в первом случае m - число мужчин (код 1), во втором случае m - число респондентов не старше 30 лет). На основании свойств биномиального распределения подсчитывается двусторонняя наблюдаемая значимость - вероятность случайной величины в условиях биномиального распределения с параметром P отклониться от ожидаемого значения np больше, чем отклонилось выборочное значение m.

Наблюдаемый уровень значимости можно оценить с использованием теоремы Муавра-Лапласа, методом Монте-Карло, а также точно, по биномиальному распределению, используя возможность, представленную в SPSS в EXACT STATISTICS:

NPAR TEST /BINOMIAL (.50)= v8 /METHOD=EXACT TIMER(5).

Таблица 5.4. Значимость критерия хи-квадрат


Category

N

Observed Prop.

Test Prop.

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Group 1

1  муж.

362

0.508

0.5

0.708

0.708

Group 2

2  жен.

351

0.492

 

 

 

Total

 

713

1

 

 

 


В таблице 5.4 выдается расчетная 0.508 и заданная теоретическая вероятность Test Prop.=0.5. Выборочное распределение почти совпало с заданным. Этот результат окончательно подтверждает величина двусторонней значимости: 0.708 - вероятность случайно получить значение, большее полученного. Так как 70% - это большая вероятность, мы делаем вывод, что распределение совпадает с заданным. Двусторонний тест показал незначимое отличие доли мужчин в выборке от ожидаемой доли (нулевая гипотеза не отвергается).


5.1.3. Тест Колмогорова-Смирнова

Одно-выборочный тест предназначен для проверки гипотезы о распределении в генеральной совокупности. Статистика критерия - абсолютная величина разности эмпирической и теоретической функций распределения:

Команда задания теста Колмогорова-Смирнова имеет вид:

NPAR TESTS K-S(NORMAL,5,2)=X.

В скобках за ключевым словом K-S указывается предполагаемый вид распределения: NORMAL - нормальное; UNIFORM - равномерное; POISSON - распределение Пуассона; EXPONENTIAL - показательное распределение. За видом распределения в скобках можно указать его параметры: для нормального - среднее и среднеквадратичное отклонение; для равномерного - минимум и максимум; для распределения Пуассона - среднее. По умолчанию используются оценки параметров по выборочной совокупности.

Заметим, что оценка параметров по выборке дает смещение этого критерия. Поэтому ему стоит доверять только для больших выборок.

Таблица 5.5. Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.


 

V14 Душевой доход в семье

N

 

673

Normal Parameters

Mean

229.11


Std. Deviation

151.34

Most Extreme Differences

Absolute

0.187


Positive

0.187


Negative

-0.149

Kolmogorov-Smirnov Z

 

4.85

Asymp. Sig. (2-tailed)

 

0


В таблице результатов выдается двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики, фиксирующей отличие распределения от заданного.

Например, проверим нормальности распределения доходов командой:

NPAR TESTS K-S(NORMAL) = V14.

Поскольку двусторонняя значимость в таблице 5.5 (2-tailed P) равна нулю, то можем сделать вывод, что полученная разность фиксирует существенное отличие распределения по доходам от нормального. Во многих исследованиях используется вместо дохода используется его логарифм, распределение которого считается близким к нормальному. Проверим нормальность логарифма доходов:

compute lnv14=ln(v14).

npar test k-s(normal)=w14.

Таблица 5.6. Проверка лог-нормальности распределения доходов


 

LNV14

N

 

673

Normal Parameters

Mean

5.2812

 

Std. Deviation

0.5344

Most Extreme Differences

Absolute

0.098

 

Positive

0.098

 

Negative

-0.055

Kolmogorov-Smirnov Z

 

2.54

Asymp. Sig. (2-tailed)

 

0


Значение критерия несколько уменьшилось, но существенность различия сохранилось (таблица 5.6).

Иногда бывает необходимо проверить законы распределения не предусмотренные в NPAR TESTS. В этом случае вспомните, что распределение непрерывной случайной величины h=Fx(x), где F - функция распределения x, равномерно на отрезке (0,1). Таким образом, воспользовавшись статистическими функциями преобразования данных SPSS, из тестируемой переменной можно всегда получить переменную, имеющую теоретически равномерное распределение и проверив, действительно ли ее распределение равномерно, принять или отвергнуть гипотезу о виде распределения Fx(x).

5.2. Тесты сравнения нескольких выборок

Эти тесты предназначены для проверки гипотезы совпадения распределений в выборках. В отличие от t-теста и известных методов дисперсионного анализа, здесь не предполагается нормальность теоретического распределения.

Многие тесты основаны на поиске определенного типа противоречия с гипотезой совпадения распределений и не может обнаружить всех отличий. Например, тест медиан проверяет совпадение только медиан. Поэтому иногда полезно воспользоваться несколькими тестами.

5.2.1. Двухвыборочный тест Колмогорова-Смирнова

Двухвыборочный тест Колмогорова-Смирнова предназначен для проверки гипотезы о совпадении распределений в паре выборок:

NPAR TESTS K-S=V14 BY V4(1,3).

В команде за ключевым словом K-S следует тестируемая переменная (в нашем примере - V14), за ней после слова BY указываются сравниваемые группы - переменная, определяющая эти группы, и соответствующие этим группам значения: V4(1,3).

Статистика критерия - абсолютная величина разности эмпирических функций распределения в указанных выборках:

, где N1 и N2 - объемы выборок.

В листинге выдается статистика критерия Z=ks двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики.

Пример: сравнение распределений доходов групп готовых отдать острова или их часть и придерживающихся твердой позиции:

recode v4(1,2=1)(3=2) into W4.

Var lab W4 "отношение к передаче островов".

Val lab 1 "Отдать" 2 "нет".

npar  test  k-s=v14  by  w4(1,2).

Таблица 5.7. Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.


 

V14 Душевой доход в семье

Most Extreme Differences

Absolute

0.05

 

Positive

0.05

 

Negative

-0.028

Kolmogorov-Smirnov Z

 

0.455

Asymp. Sig. (2-tailed)

 

0.986


В приведенном примере (таблица 5.7) наблюдаемый уровень значимости велик (0.986). Поэтому, приходим к заключению, что на нашей учебной выборке критерием Колмогорова-Смирнова не удалось обнаружить различие распределений по душевому доходу в группах считающих, что нужно отдать острова или их часть, и противников такого решения. Это не означает достоверно, что распределения совпадают, возможны тонкие различия распределений, которые критерий не улавливает из-за малого объема данных.

5.2.2. Тест медиан

Этот тест позволяет сравнивать распределения исследуемой переменной сразу в нескольких группах. Тест весьма груб, но прост.

NPAR TESTS MEDIAN = V14 BY V1(1,3).

Внешне задание теста похоже на задания критерия Колмогорова-Смирнова.

Задание сравниваемых групп. После слова BY за именем переменной в скобках указывается интервал значений. В приведенном примере сравниваются распределения в трех группах. Тестом можно сравнить также и пару групп, если в скобках вначале указать большее значение, затем меньшее (при задании V4(3,1) сравниваются только 1-я и 3-я группы).

Суть проверки гипотезы состоит в следующем. Значения исследуемой переменной (в нашем примере - V14) делятся на две группы: больше медианы и меньше или равно медиане. Такое разделение можно считать заданием новой, дихотомической переменной. Вычисляется таблица сопряженности полученной дихотомической переменной и переменной, задающей группы. Далее применяется известный критерий Хи-квадрат. Если величина наблюдаемой значимости критерия мала, естественно предположить, что распределение исследуемой переменной в группах различается существенно.

Замечание. Для получения дихотомии можно, также, навязать точку "разрыва" переменной, не совпадающую с медианой, указав в скобках за словом MEDIAN соответствующее значение.

Пример. Курильское обследование проходило в 21 городе Западной Сибири. Экспертным путем все города разделены на 4 типа: 1 растущие, 2 стабильные, 3 крупные, 4 гиганты. Типу города в наших данных соответствует переменная TP.

Исследуется связь доходов и типа населенного пункта.:

npar test med=v14 by TP(1,4).

Таблица 5.8. Метод медиан. Разделение на две подвыборки.


 

TP  тип поселения 






Растущие

Стабильные

крупные

гигант

V14  Ср.мес. душевой доход в семье

> Median

84

104

62

12


<= Median

90

126

139

56

 Таблица 5.9. Метод медиан. Значимость критерия.


V14  Ср.мес. душевой доход в семье

N

673

Median

200

Chi-Square

28.698

Df

3

Asymp. Sig.

0


Анализируя величину наблюдаемой значимости, видим, что между точкой зрения на иностранную помощь и возрастом имеется существенная связь, т.е. обнаружено значимое различие распределения доходов в группах.

5.3. Тесты для ранговых переменных

В ряде методов по имеющимся числовым значениям исследуемой переменной объектам приписываются ранги. Для вычисления рангов объекты упорядочиваются от минимального значения переменной к максимальному, и порядковые номера объектов считаются рангами. Если для некоторых объектов числовые значения переменной повторяются, то всем этим объектам приписывается единый ранг, равный среднеарифметическому значению их порядковых номеров. Об объектах, ранги которых совпадают, говорят, что они имеют связанные ранги. Наличие связанных рангов в выдаче по ранговым тестам обозначается словом "ties" (связи). Обычно выводится число связей и статистика критерия, скорректированная для связей.

В качестве примера построения рангов возьмем упорядоченную информацию об успеваемости 7 студентов.

   Средний балл:  3.0  3.1  4.0  4.2  4.2  4.5  5.0

           Ранг:    1    2    3  4.5  4.5    6    7

Первые три  объекта имеют ранги 1, 2, 3; следующая пара -ранг 4.5 =(4+5)/2, следующая пара - 6 и 7.

5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-

Критерий предназначен для сравнения распределений переменных в двух группах на основе сравнения рангов.

NPAR TESTS M-W = V14 BY Tp(1,4).

Задание теста аналогично заданию критерия Колмогорова-Смирнова (вместо ключевого слова K-S используется слово M-W).

Статистикой критерия, является сумма рангов объектов в меньшей группе, хотя существует пара эквивалентных формул, обозначаемых U и W. Можно также считать, что критерием является средний ранг в указанной группе. Если он значительно отклоняется от ожидаемой величины (N+1)/2 (или средние ранги в группах существенно различны) - обнаруживается отличие распределений.

Если гипотеза о совпадении распределений не отвергается, то это означает близость средних рангов в группах, не гарантируется совпадение распределений не гарантируется.

Авторам теста удалось показать асимптотическую нормальность статистики в условиях выборки групп из одной совокупности, на основе чего отыскивается наблюдаемая значимость критерия - вероятность случайно отклониться от среднего (ожидаемого) значения ранга больше, чем отклонилось выборочное значение статистики.

В выдаче распечатывается значения статистик U и W, а также двусторонняя значимость критерия.

Пример. Используя ранговый критерий, требуется сравнить по возрасту группу считающих, что острова нужно отдать по юридическим причинам, и группу имеющих иное мнение.

count d2 = v6s1 to v6s8 (2).

if (d2>0) wd2=1.

If (v4=1 or v4=2) wd2 = 2.

npar test m-w=v9 by wd2(1,3).

По величине двусторонней значимости можем сделать вывод, что тест Манна-Уитни в указанных группах не обнаружил существенных различий между распределениями по возрасту (таблицы 5.10-11).

Таблица 5.10. Критерий Манна-Уитни. Суммы рангов.


WD2

N

Mean Rank

Sum of Ranks

V9   Возраст

1

117

116.7

13650.5

 

2

103

103.5

10659.5

 

Total

220

 

 

Таблица 5.11. Критерий Манна-Уитни. Значимость критерия.


V9   Возраст

Mann-Whitney U

5303.5

Wilcoxon W

10659.5

Z

-1.533

Asymp. Sig. (2-tailed)

0.125


5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)

В основе сравнения средних рангов заданного числа групп лежит одномерный дисперсионный анализ, в котором вместо значений переменных используются ранги объектов исследуемой переменной.

NPAR TESTS K-W = V14 BY V4(1,3).

В условиях гипотезы равенства распределений в группах нормированный межгрупповой разброс имеет распределение, близкое к распределению хи-квадрат. В выдаче распечатывается значимость этой статистики.

Следующий пример показывает различие доходов жителей населенных пунктов разного типа.

npar test k-w=v9 by tp(1,4).

Таблица 5.12. Тест Краскэла Уоллиса. Средние ранги.


TP  тип поселен

N

Mean Rank

V14  Ср.мес. душевой доход в семье

1.00  растущие

174

382

 

2.00  стабильные

230

365.2

 

3.00  крупные

201

304.6

 

4.00  гигант

68

222.2

 

Total

673

 

Таблица 5.13. Тест Краскэла-Уоллиса. Значимость критерия.


V14  Ср.мес. душевой доход в семье

Chi-Square

43.702

Df

3

Asymp. Sig.

0

Тест показывает (Sig=0), что точка зрения респондента на иностранную помощь существенно связана типом населенного пункта, в котором он проживает (таблицы 5.12-13).

5.4. Тесты для связанных выборок (related samples)

Напомним, что связанными выборками называются совокупности повторных измерений на одних и тех же объектах. Например, доходы семьи в различных волнах панельного обследования RLMS; психологические характеристики мужа и жены и т.п.

5.4.1. Двухвыборочный критерий знаков (Sign)

Для исследования связи пары измерений Х и Y рассматриваются знаки разностей di=Yi-Xi. В случае независимости измерений и отсутствии повторов значений di (связей) число знаков "+" (положительных di) должно подчиняться биномиальному распределению с параметром p=0.5. Именно эта гипотеза и проверяется с помощью статистики критерия - стандартизованной частоты положительных разностей.

В качестве примера по данным RLMS проверим, какой характер имели изменения веса (кг) мужчин старше 30 лет в 1994-95 гг.

COMPUTE filter_$=(a_age < 30 & ah5_1 = 1).

FILTER BY filter_$.

NPAR TEST / SIGN= am1  WITH bm1 (PAIRED).

Таблица 5.14. Тест знаков для парных наблюдений. Частоты

Frequencies





N

BM1  вес в 1995г. - AM1 вес в 1994г.

Negative Differences

877


Positive Differences

722


Ties

350


Total

1949

Судя по таблице 5.14, мужчины чаще худели, чем толстели, причем этот факт подтверждается отрицательным значением статистики критерия, наблюдаемая значимость которой равна 0.000118 (таблица 5.15.).

Таблица 5.15. Тест знаков для парных наблюдений. Значимость критерия.

Test Statistics



BM1  вес в 1995г. - AM1 вес в 1994г.

Z

-3.8512

Asymp. Sig. (2-tailed)

0.000118

5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)

Ранжируются абсолютные величины разностей di=Yi-Xi. Затем рассматривается сумма рангов положительных и сумма рангов отрицательных разностей. Если связь между X и Y отсутствует и распределение одинаково, то эти две суммы должны быть примерно равны. Статистика критерия - стандартизованная разность этих сумм.

По сути, это проверка, не произошло ли между измерениями событие, существенно изменившее иерархию объектов?

Обратимся к предыдущему примеру, но проверим, будет ли преобладать отрицательный ранг изменения веса мужчин старше 30 лет?

NPAR TEST /WILCOXON=am1  WITH bm1 (PAIRED).

Таблица 5.16 показывает, что преобладает уменьшение веса, что подтверждается наблюдаемой значимостью статистики критерия, равной 0.00053 (таблица 5.17).

Таблица 5.16. Знаково-ранговый тест Вилкоксона. Средние ранги.

BM1  вес в 1995г. - AM1 вес в 1994г.


N

Mean Rank

Sum of Ranks


Negative Ranks

877

802.2

703500


Positive Ranks

722

797.4

575700


Ties

350




Total

1949



Таблица 5.17. Знаково-ранговый тест Вилкоксона. Средние ранги.


BM1  вес в 1995г. - AM1 вес в 1994г.

Z

-3.46504

Asymp. Sig. (2-tailed)

0.00053

5.4.3. Критерий Фридмана (Friedman)

Имеется k переменных. На каждом объекте независимо производится их ранжировка (по строке матрицы данных), затем вычисляется средний ранг по каждой переменной (по столбцу). Если все измерения независимы и равноценны (одинаково распределены) то все эти средние должны быть приближенно равны (k+1)/2 - среднему рангу в строке. Статистикой критерия является нормированная сумма квадратов отклонений средних рангов по переменным от общего среднего (k+1)/2, которая имеет теоретическое распределение хи-квадрат.

Как ни странно, тест Фридмана, запущенный командой

NPAR TESTS /FRIEDMAN = am1 bm1 cm1.

не показал значимых различий в измерениях веса по трем годам (см. предыдущие два примера), так как наблюдаемая значимость статистики хи-квадрат равна 0.755.

Таблица 5.18. Tест Фридмана. Средние ранги.


Mean Rank

AM1  вес в 1994г.

2

BM1  вес в 1995г.

2.13

CM1  вес в 1996г.

1.87

Таблица 5.19. Tест Фридмана. Значимость.

N

15

Chi-Square

0.561

Df

2

Asymp. Sig.

0.755


Глава 5. Непараметрические тесты.................................................................................................... 69

5.1. Одновыборочные тесты.................................................................................................................... 69

Тест Хи-квадрат...................................................................................................................................... 69

Тест, основанный на биномиальном распределении.................................................................. 71

Тест Колмогорова-Смирнова............................................................................................................. 72

5.2. Тесты сравнения нескольких выборок.................................................................. 73

Двухвыборочный тест Колмогорова-Смирнова........................................................................... 74

Тест медиан.............................................................................................................................................. 74

5.3. Тесты для ранговых переменных............................................................................... 75

Двухвыборочный тест Манна-Уитни (Mann-Witney)-................................................................ 76

Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)............................ 77

5.4. Тесты для связанных выборок (related samples).................................... 77

Двухвыборочный критерий знаков (Sign)........................................................................................ 78

Двухвыборочный знаково-ранговый критерий Уилкоксона (Wilcoxon)................................ 78

Критерий Фридмана (Friedman)......................................................................................................... 79