Основные понятия статистики
/> - выборочная средняя квадратов вариант выборки.После получения оценок с помощью любого из вышеприведенного метода остается нерешенным важнейший вопрос о несмещенности и эффективности оценок. Этот вопрос для математического ожидания решается положительно, т.е. - несмещенная оценка для Мх. Для дисперсии – отрицательно, т.е. d является смещенной оценкой для D = σ2.
Для устранения смещенности выборочной дисперсии её следует умножить на величину n/(n-1) и получим:
S2 = .
Величину S2 называют несмещенной или «исправленной» выборочной дисперсией
Пример. Покажем, что оценка математического ожидания с помощью выборочной средней является несмещенной.
Решение. Оценка параметра называется несмещенной, если математическое ожидание оценки равно оцениваемому параметру. Покажем , что математическое ожидание среднего арифметического равно математическому ожиданию генеральной совокупности.
М() = М() = ,
т.к.
Замечание. Мы воспользовались представлением выборочных значений как компонентов к – мерной случайной величины (x1, x2,…..xk) → (X1, X2,….Xk)
( см. начало обсуждение метода максимального правдоподобия).
Пример. Покажем, что оценка дисперсии является смещенной.
Воспользуемся расчётной формулой для вычисления оценки дисперсии, приведенной выше:
d = ,
d =
здесь n2 слагаемых здесь по n слагаемых
здесь n слагаемых
здесь (n2 – n) слагаемых
=
Вычислим математическое ожидание d, снова воспользовавшись представлением выборочных данных n –мерной случайной величиной (x1, x2,…..xn) → (X1, X2,….Xn):
М(d) = M() = - .
С учётом количества слагаемых (см. выше) и того, что М(Хi) = M(Xj) = M(X) и М(ХiXj) = М(Хi) M(Xj) в силу статистической независимости Хi и Xj получаем:
М(d) = - =
где использована формула для вычисления дисперсии: D =
Из полученного результата следует, что выборочная дисперсия d является смещенной оценкой для D, т.к. её математическое ожидание не равно D, а несколько меньше. Чтобы ликвидировать это смещение, достаточно умножить d на . Результат этого умножения обозначенный S2 и называется “исправленной эмпирической дисперсией”.
Пример. На предприятии изготовляется определённый вид продукции. Ежемесячный объём выпуска этой продукции является случайной величиной, для характеристики которой принят показательный закон распределения.
( x ≥ 0 )
В течение шести месяцев проводился замер объёмов выпуска продукции, получены следующие данные:
Месяц | 1 | 2 | 3 | 4 | 5 | 6 |
Объём выпуска | 25 | 34 | 23 | 28 | 32 | 30 |
Найти оценку параметру λ.
Решение. Так как закон распределения содержит лишь один параметр λ, то для его оценке надо составить одно уравнение, например, равенство теоретического и эмпирического первых начальных моментов. Находим выборочную среднюю - эмпирический первый начальный момент:
= (25+34+23+28+32+30)/6 = 28.7
Определяем математическое ожидание – теоретический первый начальный момент:
М(Х) = ,
Приравниваем теоретический и эмпирический первые начальные моменты:
откуда получаем оценку параметра λ:
Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора
Напомним, что любую функцию j = j (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Таким образом, все оценки являются статистиками, случайными величинами. В связи с таким свойствами оценок, они должны быть проверены на значимость. Для этого используются критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.
4. Проверка статистических гипотез
Стандартными задачами математической статистики являются задачи определения класса (вида) распределения генеральной совокупности и определение её основных числовых характеристик. Эти задачи математическая статистика решает в виде выдвижения гипотез, а не прямым расчетом. Это связано с тем, исходные данные для статистических расчетов являются случайными величинами и полученные результаты расчета тоже есть случайные величины. Поэтому каждый расчетный результат должен быть дополнен вероятностью его правильности (или ошибки), следовательно, он является гипотетическим.
Определение 1. Статистической гипотезой называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.
Наряду с данной гипотезой рассматривают и противоречащую ей гипотезу. В случае, когда выдвинутая гипотеза отвергается, обычно принимается противоречащая ей гипотеза.
Определение 2. Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.
Пример. Нулевая гипотеза H0 : генеральная совокупность распределена по нормальному закону, тогда гипотеза H1 : генеральная совокупность не распределена по нормальному закону.
Пример. Нулевая гипотеза H0 : Мх = 20 ( т.е. математическое ожидание нормально распределённой величины равно 20), тогда гипотеза H1 может иметь вид H1: Мх 20.
Проверку правильности или неправильности выдвинутой гипотезы проводят статистическими методами. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.
Идея, которая используется при проверке статистических гипотез, заключается в следующем.
Вводится некоторая вычисляемая случайная величина, называемая критерием, распределение которой заранее известно и которая характеризует отклонение выборочных характеристик от их гипотетических значений. В предположении о справедливости гипотезы H0 фиксируем заранее некоторый уровень значимости α (допустимую вероятность ошибки того, что принимается гипотеза H0, а на самом деле верна гипотеза H1) считая , что в одиночном эксперименте событие с вероятностью, меньшей α, практически не происходят. По α находим такое число, что бы выполнялось соотношение:
Пусть теперь КВ – вычисленное по выборке значение критерия. Если окажется , то в предположении о справедливости гипотезы H0 произошло «практически» невозможное событие и поэтому выдвинутую гипотезу H0 следует отвергнуть и принять гипотезу H1. В противном случае, можно считать, что наблюдения не противоречат гипотезе H0. На приведенных рисунках показано функция плотности распределения случайной величины – критерия χ2 (Рис. 1 ) и кривая уровню значимости для распределения χ2 ( Рис.2.). Уровень значимости равен интегралу от функции плотности распределения в пределах от до ∞, т.е.:
По заданному уровню значимости α находят значение нижнего предела =
Так, например, при α = 0.05 из графика (Рис. 1.) определяем = 7.814
Рис. 1.
Рис. 2.
Критерий Фишера. Проверка гипотезы о равенстве дисперсий.
Задача проверки «статистического» равенства дисперсий в двух выборках играет в математической статистике большую роль, т.к. именно дисперсия определяет такие исключительные важные конструктивные и технологические и экономические показатели, как точность машин и приборов, погрешность измерительных методик, точность технологических процессов, состояние экономической конъюнктуры. и т.д.
В качестве критерия F (критерий Фишера) для проверки гипотезы о равенстве дисперсий в двух генеральных совокупностях по независимым выборкам из них строится случайная величина, равная отношению двух «исправленных» дисперсий , предполагая, что генеральная совокупность распределена нормально.
Доказано, что эта случайная величина имеет распределение Фишера с к1 = n1 – 1 и k2 = n2 – 1 степенями свободы, где n1 и n2 – объёмы первой и второй выборок. Обычно в качестве числителя берут большую из «исправленных» дисперсий .
Чтобы проверить гипотезу о равенстве дисперсий, надо построить критическую область для критерия F. В качестве критической области принимаются два интервала: интервал больших значений критерия, удовлетворяющий неравенству F >F2 и интервал малых значений 0 < F < F1, причём критические точки занимают такое положение на оси критерия, чтобы удовлетворять следующим равенствам:
где – площади под кривой распределения (см. Рис.3).
Такой выбор критической области обеспечивает большую чувствительность критерия. Оказывается, что достаточно определить правую критическую точку F2; последнее объясняется тем, что если величина
имеет распределение Фишера ( с k1 и k2 степенями свободы), то и
также имеет распределение Фишера (с k1 и k2 степенями свободы). Поэтому в таблицах табулируются только правые точки этого распределения.
Если полученное по выборке значение критерия выходит за правую критическую точку F2, гипотезу о равенстве дисперсий следует отбросить, в противном случае гипотеза о равенстве дисперсий не противоречит наблюдениям.
Пример. При проведении тестирования на профессиональную пригодность были подвергнуты испытанию две группы: в первой группе – 10 человек, во второй группе – 15 человек. По данным этих тестов были посчитаны «исправленные» эмпирические дисперсии, оказавшиеся равными для первой группы и для второго . Требуются проверить с уровнем значимости α=0,1 гипотезу о равенстве дисперсий – уровнем подготовленности.
Р е ш е н и е.
Вычислим выборочное значение критерия
F =
По таблицам распределения Фишера и при α = 0,05 и степенях свободы k1 = n1 –1 = 9 и k2 = n2 –1 = 14 находим критическую точку F2 = 2,65. Выборочное значение критерия оказалось меньше критического, и, следовательно, предположение о равенстве дисперсий не противоречит наблюдениям. Иными словами, нет оснований считать, что две группы обладают разным уровнем подготовленности.
Пример. Оценивается валидность двух различных однотипных тестов. Подвергаются испытанию одна и та же группа с составе 20 человек. По данным тестирования были вычислены исправленные дисперсии, они оказались равными:
, .
Определить валидность однотипных тестов.
Р е ш е н и е.
Вычисляем выборочное значение критерия
По таблицам распределения Фишера и при α = 0,05 и степенях свободы k1 = n1 –1 = 19 и k2 = n2 –1 = 19 находим критическую точку F2 = 2,16. Таким образом, выборочное значение критерия попадает в критическую область и гипотезу о равенстве дисперсий следует отбросить, т.е. по данным двух выборок испытуемых валидность тестов существенно отличается друг от друга.
Критерий Пирсона χ2. Проверка гипотез о законе распределений .
В предыдущем параграфе были рассмотрены некоторые способы оценки параметров заранее известного закона распределения. Однако в ряде случае сам вид закона распределения является гипотетическим и нуждается в статистической проверке. Гипотезы о виде закона распределения выдвигаются на основе результатов построения эмпирических функций распределения или гистограмм.
Рассмотрим вопрос о критерии проверки по данным выборки гипотезы о том, что данная случайная величина Х имеет функцию распределения F(х). Необходимо ввести некоторую случайную величину- критерий К, основанный на выборе определённой меры расхождения эмпирического и теоретического распределений. Наиболее распространённым является критерий Пирсона χ2 (хи-квадрат). Суть критерия Пирсона состоит в следующем.. Область изменения случайной величины разбивается на конечное число интервалов:
Δх1, Δx2, …. Δxl (если это вся числовая ось, то первый и последний l-ый интервал будут бесконечными). Пусть mi – число значений выборки n, попавших в интервал Δхi , а pi – вероятность того, что случайная величина Х примет значения, принадлежащие Δхi при данном распределении F(x). Эта вероятность pi вычисляется по известным соотношениям:
где xi и xi+1 – начальная и конечная точка интервала Δхi. Очевидно, выполняются условия
По найденным pi находим математические ожидания попаданий случайной величины Х в интервал Δхi. при n испытаниях, которые равны npi. В качестве меры расхождения выборочных m1, m2, ….ml и теоретических np1,np2,….npl характеристик вводится следующая величина:
Доказано, что введенная таким образом случайная величина при неограниченном увеличении n распределена по закону с r степенями свободы, где r = l – 1 – k, а k равно числу параметров, оцениваемых по данным выборке. Если все параметры закона распределения известны заранее (не на основе выборки!, например, при равномерном распределении), то к = 0. Остаётся , задавшись определённым уровнем значимости α , указать критическую область критерия. Обозначим число, найденное из условия
В качестве критической области примем интервал .Определив по данным выборки, мы получим одно из двух: или (т.е. выборочное значение критерия попадает в критическую область и тогда расхождение выборочных данных с гипотетическим законом распределения существенно, а поэтому гипотеза H0 отвергается и принимается гипотеза H1. Если , то отличие эмпирического закона от теоретического считается несущественным и принимается гипотеза H0 о статистическом равенстве эмпирического и теоретического законов распределения.
Замечание. Случайная величина – критерий , вычисленная по выборочным данным, только при n →∞ распределена по закону . Возникает естественный вопрос о правомерности использования этого распределения при конечном n. Принято считать это приближение достаточным для практических расчетов, если для всех интервалов npi 10.Если же имеются интервалы, для которых npi <10, то рекомендуется их объединять с соседними так, чтобы новые интервалы уже удовлетворяли указанному условию.
Пример. Имеются опытные данные о числе звонков в службу аварийного помощи в течение рабочего дня – таблица 1.
Интервалы (часы смены) |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Число звонков | 16 | 27 | 17 | 15 | 24 | 19 | 11 | 15 |
Проверить с помощью критерия Пирсона и при уровне значимости α = 0,05 гипотезу о равномерном распределении числа звонков в психологическую службу в течение дня.
Решение. Постоим эмпирическую функцию плотности распределения вызовов. Рис.4.
Рис.4
Приведённый рисунок позволяет выдвинуть гипотезу о равномерном распределении звонков в службу психологической помощи, т.к. плотность звонков колеблется около некоторого среднего значения.
В качестве интервалов Δхi берём соответствующие часы смены. Так как предполагается оценивать равномерное распределение, то все pi = и npi =144· = 18. Результаты дальнейших расчётов сводим в таблицу 2.
Таблица 2.
Интервалы (часы смены) |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Число звонков mi | 16 | 27 | 17 | 15 | 24 | 19 | 11 | 15 |
Математические ожидания npi | 18 | 18 | 18 | 18 | 18 | 18 | 18 | 18 |
mi - npi | -2 | 9 | -1 | -3 | 6 | 1 | -7 | -3 |
0.22 | 4.5 | 0.06 |
0.5 |
2.00 | 0.06 | 2.72 | 0.5 |
Σ =10.56
Число степеней свободы равно r = l – 1 – k = 7 ( k = 0, т.к. единственный параметр распределения – рабочее время смены , т.е. длина отрезка b-a – заранее известно). При данном уровне значимости α = 0,05 по таблице находим соответствующее значение =14,07. Вычисленное значение = 10,56 лежит левее критического значения, т.е. в области допустимых значений, и поэтому нет оснований считать гипотезу H0 о равномерном распределении противоречащей наблюдениям.
Пример. Имеются результаты опроса группы молодёжи, состоящей из 200 человек, о возрасте первого употреблении наркотиков. Результаты представлены в виде интервального вариационного ряда (Таблица 1.):
Таблица 1.
Интервал возрастов | 11-12 | 12-13 | 13-14 | 14-15 | 15-16 | 16-17 | 17-18 | 18-19 | 19-20 | 20-21 |
Количество человек в группе | 7 | 12 | 14 | 25 | 48 | 42 | 24 | 13 | 10 | 5 |
Требуется с помощью критерия Пирсона и при уровне значимости α = 0,05 оценить гипотезу о нормальном распределении возрастов начала употребления наркотиков, тем самым подтвердив гипотезу, что явление наркомании порождено множеством различных причин.
Решение. Построим экспериментальную функцию плотности распределения распределение. Поскольку вариационный ряд интервальный следует перейти к серединам интервалов и заменить абсолютные частоты – частотами относительными. В результате получим (Таблица 2; Рис 2):
Таблица 2.
Середины интервалов | 11,5 | 12,5 | 13,5 | 14,5 | 15,5 | 16,5 | 17,5 | 18,5 | 19,5 | 20,5 |
Относительные частоты | 0,035 | 0,06 | 0,07 | 0,125 | 0,24 | 0,21 | 0,12 | 0,065 | 0,05 | 0,025 |
Рис.5
Полученная кривая имеет колоколообразную форму, поэтому есть основания к выдвижению гипотезы о нормальном распределении возрастов начала употребления наркотиков.
Результаты вычислений сведем в таблицу 3.
Таблица 3.
№ интервала | Границы интервала | x*i | mi | νi | pi | npi |
|
1 | 11,12 | 11,5 | 7 | 0.035 | 0,0187 | 3,7383 | 2,8458 |
2 | 12,13 | 12,5 | 12 | 0.06 | 0,0485 | 9,6940 | 0,5486 |
3 | 13,14 | 13,5 | 14 | 0.07 | 0,0984 | 19,6702 | 1,6345 |
4 | 14,15 | 14,5 | 25 | 0.125 | 0,1562 | 31,2318 | 1,2435 |
5 | 15,16 | 15,5 | 48 | 0.24 | 0,1940 | 38,8031 | 2,1798 |
6 | 16,17 | 16,5 | 42 | 0.21 | 0,1886 | 37,7239 | 0,4847 |
7 | 17,18 | 17,5 | 24 | 0.12 | 0,1435 | 28,6978 | 0,7690 |
8 | 18,19 | 18,5 | 13 | 0.065 | 0,0854 | 17,0829 | 0,9758 |
9 | 19,20 | 19,5 | 10 | 0.05 | 0,0398 | 7,9571 | 0,5245 |
10 | 20,21 | 20,5 | 5 | 0.025 | 0,0145 | 2,9002 | 1,5203 |
Сумма: 12,72645
Среднее значение возраста, впервые употребляющие наркотики, равно 15,885
Подправленная дисперсия возрастов, впервые употребляющих наркотики, равна 4,077. Стандартное отклонение возрастов, впервые употребляющих наркотики, равно 2,019
Полученные характеристики позволяют с помощью таблиц гауссовой кривой вычислить вероятности средних возрастов, впервые употребляющих наркотики. Результаты вычислений представлены на рисунке 6. Графики экспериментальных относительных частот и теоретических вероятностей практически совпали друг с другом из-за масштабирования. Чтобы показать существующее расхождение между теоретическим и экспериментальным распределением построим графики абсолютных частот средних значений возрастов – рисунок 7.
Рис.6
Рис.7.
Вычислим значение критерия – случайной величины χ2. Оно равно сумме значений последнего столбца таблицы - 12,726. Критическое значение χ2 при уровне значимости 0,05 и степенях свободы, равных r = 10 – 1 – k = 10 – 1 – 2 = 7 , определяется значением 14,067. Таким образом, нет оснований отвергать гипотезу H0 о нормальном законе распределения возрастов лиц, впервые употребляющих наркотические вещества, тем самым мы