Основные понятия статистики

/> - выборочная средняя квадратов вариант выборки.

После получения оценок с помощью любого из вышеприведенного метода остается нерешенным важнейший вопрос о несмещенности и эффективности оценок. Этот вопрос для математического ожидания решается положительно, т.е. - несмещенная оценка для Мх. Для дисперсии – отрицательно, т.е. d является смещенной оценкой для D = σ2.

Для устранения смещенности выборочной дисперсии её следует умножить на величину n/(n-1) и получим:


S2 = .


Величину S2 называют несмещенной или «исправленной» выборочной дисперсией

Пример. Покажем, что оценка математического ожидания с помощью выборочной средней является несмещенной.

Решение. Оценка параметра называется несмещенной, если математическое ожидание оценки равно оцениваемому параметру. Покажем , что математическое ожидание среднего арифметического равно математическому ожиданию генеральной совокупности.


М() = М() = ,


т.к.

Замечание. Мы воспользовались представлением выборочных значений как компонентов к – мерной случайной величины (x1, x2,…..xk) → (X1, X2,….Xk)

( см. начало обсуждение метода максимального правдоподобия).

Пример. Покажем, что оценка дисперсии является смещенной.

Воспользуемся расчётной формулой для вычисления оценки дисперсии, приведенной выше:

d = ,

d =


здесь n2 слагаемых здесь по n слагаемых

здесь n слагаемых

здесь (n2 – n) слагаемых


=


Вычислим математическое ожидание d, снова воспользовавшись представлением выборочных данных n –мерной случайной величиной (x1, x2,…..xn) → (X1, X2,….Xn):


М(d) = M() = - .


С учётом количества слагаемых (см. выше) и того, что М(Хi) = M(Xj) = M(X) и М(ХiXj) = М(Хi) M(Xj) в силу статистической независимости Хi и Xj получаем:


М(d) = - =

где использована формула для вычисления дисперсии: D =

Из полученного результата следует, что выборочная дисперсия d является смещенной оценкой для D, т.к. её математическое ожидание не равно D, а несколько меньше. Чтобы ликвидировать это смещение, достаточно умножить d на . Результат этого умножения обозначенный S2 и называется “исправленной эмпирической дисперсией”.

Пример. На предприятии изготовляется определённый вид продукции. Ежемесячный объём выпуска этой продукции является случайной величиной, для характеристики которой принят показательный закон распределения.


( x ≥ 0 )


В течение шести месяцев проводился замер объёмов выпуска продукции, получены следующие данные:


Месяц 1 2 3 4 5 6
Объём выпуска 25 34 23 28 32 30

Найти оценку параметру λ.

Решение. Так как закон распределения содержит лишь один параметр λ, то для его оценке надо составить одно уравнение, например, равенство теоретического и эмпирического первых начальных моментов. Находим выборочную среднюю - эмпирический первый начальный момент:

= (25+34+23+28+32+30)/6 = 28.7

Определяем математическое ожидание – теоретический первый начальный момент:

М(Х) = ,


Приравниваем теоретический и эмпирический первые начальные моменты:



откуда получаем оценку параметра λ:



Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора


Напомним, что любую функцию j = j (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Таким образом, все оценки являются статистиками, случайными величинами. В связи с таким свойствами оценок, они должны быть проверены на значимость. Для этого используются критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.


4. Проверка статистических гипотез


Стандартными задачами математической статистики являются задачи определения класса (вида) распределения генеральной совокупности и определение её основных числовых характеристик. Эти задачи математическая статистика решает в виде выдвижения гипотез, а не прямым расчетом. Это связано с тем, исходные данные для статистических расчетов являются случайными величинами и полученные результаты расчета тоже есть случайные величины. Поэтому каждый расчетный результат должен быть дополнен вероятностью его правильности (или ошибки), следовательно, он является гипотетическим.

Определение 1. Статистической гипотезой называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.

Наряду с данной гипотезой рассматривают и противоречащую ей гипотезу. В случае, когда выдвинутая гипотеза отвергается, обычно принимается противоречащая ей гипотеза.

Определение 2. Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.

Пример. Нулевая гипотеза H0 : генеральная совокупность распределена по нормальному закону, тогда гипотеза H1 : генеральная совокупность не распределена по нормальному закону.

Пример. Нулевая гипотеза H0 : Мх = 20 ( т.е. математическое ожидание нормально распределённой величины равно 20), тогда гипотеза H1 может иметь вид H1: Мх 20.

Проверку правильности или неправильности выдвинутой гипотезы проводят статистическими методами. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Идея, которая используется при проверке статистических гипотез, заключается в следующем.

Вводится некоторая вычисляемая случайная величина, называемая критерием, распределение которой заранее известно и которая характеризует отклонение выборочных характеристик от их гипотетических значений. В предположении о справедливости гипотезы H0 фиксируем заранее некоторый уровень значимости α (допустимую вероятность ошибки того, что принимается гипотеза H0, а на самом деле верна гипотеза H1) считая , что в одиночном эксперименте событие с вероятностью, меньшей α, практически не происходят. По α находим такое число, что бы выполнялось соотношение:


Пусть теперь КВ – вычисленное по выборке значение критерия. Если окажется , то в предположении о справедливости гипотезы H0 произошло «практически» невозможное событие и поэтому выдвинутую гипотезу H0 следует отвергнуть и принять гипотезу H1. В противном случае, можно считать, что наблюдения не противоречат гипотезе H0. На приведенных рисунках показано функция плотности распределения случайной величины – критерия χ2 (Рис. 1 ) и кривая уровню значимости для распределения χ2 ( Рис.2.). Уровень значимости равен интегралу от функции плотности распределения в пределах от до ∞, т.е.:



По заданному уровню значимости α находят значение нижнего предела =

Так, например, при α = 0.05 из графика (Рис. 1.) определяем = 7.814


Рис. 1.


Рис. 2.

Критерий Фишера. Проверка гипотезы о равенстве дисперсий.


Задача проверки «статистического» равенства дисперсий в двух выборках играет в математической статистике большую роль, т.к. именно дисперсия определяет такие исключительные важные конструктивные и технологические и экономические показатели, как точность машин и приборов, погрешность измерительных методик, точность технологических процессов, состояние экономической конъюнктуры. и т.д.

В качестве критерия F (критерий Фишера) для проверки гипотезы о равенстве дисперсий в двух генеральных совокупностях по независимым выборкам из них строится случайная величина, равная отношению двух «исправленных» дисперсий , предполагая, что генеральная совокупность распределена нормально.



Доказано, что эта случайная величина имеет распределение Фишера с к1 = n1 – 1 и k2 = n2 – 1 степенями свободы, где n1 и n2 – объёмы первой и второй выборок. Обычно в качестве числителя берут большую из «исправленных» дисперсий .

Чтобы проверить гипотезу о равенстве дисперсий, надо построить критическую область для критерия F. В качестве критической области принимаются два интервала: интервал больших значений критерия, удовлетворяющий неравенству F >F2 и интервал малых значений 0 < F < F1, причём критические точки занимают такое положение на оси критерия, чтобы удовлетворять следующим равенствам:



где – площади под кривой распределения (см. Рис.3).

Такой выбор критической области обеспечивает большую чувствительность критерия. Оказывается, что достаточно определить правую критическую точку F2; последнее объясняется тем, что если величина


имеет распределение Фишера ( с k1 и k2 степенями свободы), то и



также имеет распределение Фишера (с k1 и k2 степенями свободы). Поэтому в таблицах табулируются только правые точки этого распределения.

Если полученное по выборке значение критерия выходит за правую критическую точку F2, гипотезу о равенстве дисперсий следует отбросить, в противном случае гипотеза о равенстве дисперсий не противоречит наблюдениям.



Пример. При проведении тестирования на профессиональную пригодность были подвергнуты испытанию две группы: в первой группе – 10 человек, во второй группе – 15 человек. По данным этих тестов были посчитаны «исправленные» эмпирические дисперсии, оказавшиеся равными для первой группы и для второго . Требуются проверить с уровнем значимости α=0,1 гипотезу о равенстве дисперсий – уровнем подготовленности.

Р е ш е н и е.

Вычислим выборочное значение критерия


F =


По таблицам распределения Фишера и при α = 0,05 и степенях свободы k1 = n1 –1 = 9 и k2 = n2 –1 = 14 находим критическую точку F2 = 2,65. Выборочное значение критерия оказалось меньше критического, и, следовательно, предположение о равенстве дисперсий не противоречит наблюдениям. Иными словами, нет оснований считать, что две группы обладают разным уровнем подготовленности.

Пример. Оценивается валидность двух различных однотипных тестов. Подвергаются испытанию одна и та же группа с составе 20 человек. По данным тестирования были вычислены исправленные дисперсии, они оказались равными:


, .


Определить валидность однотипных тестов.

Р е ш е н и е.

Вычисляем выборочное значение критерия



По таблицам распределения Фишера и при α = 0,05 и степенях свободы k1 = n1 –1 = 19 и k2 = n2 –1 = 19 находим критическую точку F2 = 2,16. Таким образом, выборочное значение критерия попадает в критическую область и гипотезу о равенстве дисперсий следует отбросить, т.е. по данным двух выборок испытуемых валидность тестов существенно отличается друг от друга.

Критерий Пирсона χ2. Проверка гипотез о законе распределений .

В предыдущем параграфе были рассмотрены некоторые способы оценки параметров заранее известного закона распределения. Однако в ряде случае сам вид закона распределения является гипотетическим и нуждается в статистической проверке. Гипотезы о виде закона распределения выдвигаются на основе результатов построения эмпирических функций распределения или гистограмм.

Рассмотрим вопрос о критерии проверки по данным выборки гипотезы о том, что данная случайная величина Х имеет функцию распределения F(х). Необходимо ввести некоторую случайную величину- критерий К, основанный на выборе определённой меры расхождения эмпирического и теоретического распределений. Наиболее распространённым является критерий Пирсона χ2 (хи-квадрат). Суть критерия Пирсона состоит в следующем.. Область изменения случайной величины разбивается на конечное число интервалов:

Δх1, Δx2, …. Δxl (если это вся числовая ось, то первый и последний l-ый интервал будут бесконечными). Пусть mi – число значений выборки n, попавших в интервал Δхi , а pi – вероятность того, что случайная величина Х примет значения, принадлежащие Δхi при данном распределении F(x). Эта вероятность pi вычисляется по известным соотношениям:



где xi и xi+1 – начальная и конечная точка интервала Δхi. Очевидно, выполняются условия


По найденным pi находим математические ожидания попаданий случайной величины Х в интервал Δхi. при n испытаниях, которые равны npi. В качестве меры расхождения выборочных m1, m2, ….ml и теоретических np1,np2,….npl характеристик вводится следующая величина:



Доказано, что введенная таким образом случайная величина при неограниченном увеличении n распределена по закону с r степенями свободы, где r = l – 1 – k, а k равно числу параметров, оцениваемых по данным выборке. Если все параметры закона распределения известны заранее (не на основе выборки!, например, при равномерном распределении), то к = 0. Остаётся , задавшись определённым уровнем значимости α , указать критическую область критерия. Обозначим число, найденное из условия



В качестве критической области примем интервал .Определив по данным выборки, мы получим одно из двух: или (т.е. выборочное значение критерия попадает в критическую область и тогда расхождение выборочных данных с гипотетическим законом распределения существенно, а поэтому гипотеза H0 отвергается и принимается гипотеза H1. Если , то отличие эмпирического закона от теоретического считается несущественным и принимается гипотеза H0 о статистическом равенстве эмпирического и теоретического законов распределения.

Замечание. Случайная величина – критерий , вычисленная по выборочным данным, только при n →∞ распределена по закону . Возникает естественный вопрос о правомерности использования этого распределения при конечном n. Принято считать это приближение достаточным для практических расчетов, если для всех интервалов npi 10.Если же имеются интервалы, для которых npi <10, то рекомендуется их объединять с соседними так, чтобы новые интервалы уже удовлетворяли указанному условию.


Пример. Имеются опытные данные о числе звонков в службу аварийного помощи в течение рабочего дня – таблица 1.

Интервалы

(часы смены)

1 2 3 4 5 6 7 8
Число звонков 16 27 17 15 24 19 11 15

Проверить с помощью критерия Пирсона и при уровне значимости α = 0,05 гипотезу о равномерном распределении числа звонков в психологическую службу в течение дня.

Решение. Постоим эмпирическую функцию плотности распределения вызовов. Рис.4.


Рис.4

Приведённый рисунок позволяет выдвинуть гипотезу о равномерном распределении звонков в службу психологической помощи, т.к. плотность звонков колеблется около некоторого среднего значения.

В качестве интервалов Δхi берём соответствующие часы смены. Так как предполагается оценивать равномерное распределение, то все pi = и npi =144· = 18. Результаты дальнейших расчётов сводим в таблицу 2.


Таблица 2.

Интервалы

(часы смены)

1 2 3 4 5 6 7 8
Число звонков mi 16 27 17 15 24 19 11 15
Математические ожидания npi 18 18 18 18 18 18 18 18
mi - npi -2 9 -1 -3 6 1 -7 -3

0.22 4.5 0.06

0.5


2.00 0.06 2.72 0.5

Σ =10.56


Число степеней свободы равно r = l – 1 – k = 7 ( k = 0, т.к. единственный параметр распределения – рабочее время смены , т.е. длина отрезка b-a – заранее известно). При данном уровне значимости α = 0,05 по таблице находим соответствующее значение =14,07. Вычисленное значение = 10,56 лежит левее критического значения, т.е. в области допустимых значений, и поэтому нет оснований считать гипотезу H0 о равномерном распределении противоречащей наблюдениям.

Пример. Имеются результаты опроса группы молодёжи, состоящей из 200 человек, о возрасте первого употреблении наркотиков. Результаты представлены в виде интервального вариационного ряда (Таблица 1.):

Таблица 1.

Интервал возрастов 11-12 12-13 13-14 14-15 15-16 16-17 17-18 18-19 19-20 20-21
Количество человек в группе 7 12 14 25 48 42 24 13 10 5

Требуется с помощью критерия Пирсона и при уровне значимости α = 0,05 оценить гипотезу о нормальном распределении возрастов начала употребления наркотиков, тем самым подтвердив гипотезу, что явление наркомании порождено множеством различных причин.

Решение. Построим экспериментальную функцию плотности распределения распределение. Поскольку вариационный ряд интервальный следует перейти к серединам интервалов и заменить абсолютные частоты – частотами относительными. В результате получим (Таблица 2; Рис 2):


Таблица 2.

Середины интервалов 11,5 12,5 13,5 14,5 15,5 16,5 17,5 18,5 19,5 20,5
Относительные частоты 0,035 0,06 0,07 0,125 0,24 0,21 0,12 0,065 0,05 0,025

Рис.5


Полученная кривая имеет колоколообразную форму, поэтому есть основания к выдвижению гипотезы о нормальном распределении возрастов начала употребления наркотиков.

Результаты вычислений сведем в таблицу 3.


Таблица 3.

№ интервала Границы интервала x*i mi νi pi npi

1 11,12 11,5 7 0.035 0,0187 3,7383 2,8458
2 12,13 12,5 12 0.06 0,0485 9,6940 0,5486
3 13,14 13,5 14 0.07 0,0984 19,6702 1,6345
4 14,15 14,5 25 0.125 0,1562 31,2318 1,2435
5 15,16 15,5 48 0.24 0,1940 38,8031 2,1798
6 16,17 16,5 42 0.21 0,1886 37,7239 0,4847
7 17,18 17,5 24 0.12 0,1435 28,6978 0,7690
8 18,19 18,5 13 0.065 0,0854 17,0829 0,9758
9 19,20 19,5 10 0.05 0,0398 7,9571 0,5245
10 20,21 20,5 5 0.025 0,0145 2,9002 1,5203

Сумма: 12,72645

Среднее значение возраста, впервые употребляющие наркотики, равно 15,885

Подправленная дисперсия возрастов, впервые употребляющих наркотики, равна 4,077. Стандартное отклонение возрастов, впервые употребляющих наркотики, равно 2,019

Полученные характеристики позволяют с помощью таблиц гауссовой кривой вычислить вероятности средних возрастов, впервые употребляющих наркотики. Результаты вычислений представлены на рисунке 6. Графики экспериментальных относительных частот и теоретических вероятностей практически совпали друг с другом из-за масштабирования. Чтобы показать существующее расхождение между теоретическим и экспериментальным распределением построим графики абсолютных частот средних значений возрастов – рисунок 7.

Рис.6


Рис.7.


Вычислим значение критерия – случайной величины χ2. Оно равно сумме значений последнего столбца таблицы - 12,726. Критическое значение χ2 при уровне значимости 0,05 и степенях свободы, равных r = 10 – 1 – k = 10 – 1 – 2 = 7 , определяется значением 14,067. Таким образом, нет оснований отвергать гипотезу H0 о нормальном законе распределения возрастов лиц, впервые употребляющих наркотические вещества, тем самым мы