Основные понятия статистики
/> - выборочная средняя квадратов вариант выборки.
После получения
оценок с помощью
любого из
вышеприведенного
метода остается
нерешенным
важнейший
вопрос о несмещенности
и эффективности
оценок. Этот
вопрос для
математического
ожидания решается
положительно,
т.е.
-
несмещенная
оценка для Мх.
Для дисперсии
– отрицательно,
т.е. d является
смещенной
оценкой для
D = σ2.
Для устранения смещенности выборочной дисперсии её следует умножить на величину n/(n-1) и получим:
S2 =
.
Величину S2 называют несмещенной или «исправленной» выборочной дисперсией
Пример. Покажем, что оценка математического ожидания с помощью выборочной средней является несмещенной.
Решение. Оценка параметра называется несмещенной, если математическое ожидание оценки равно оцениваемому параметру. Покажем , что математическое ожидание среднего арифметического равно математическому ожиданию генеральной совокупности.
М()
= М(
)
=
,
т.к.
Замечание. Мы воспользовались представлением выборочных значений как компонентов к – мерной случайной величины (x1, x2,…..xk) → (X1, X2,….Xk)
( см. начало обсуждение метода максимального правдоподобия).
Пример. Покажем, что оценка дисперсии является смещенной.
Воспользуемся расчётной формулой для вычисления оценки дисперсии, приведенной выше:
d =
,
d
=
здесь n2 слагаемых здесь по n слагаемых
здесь n слагаемых
здесь (n2 – n) слагаемых
=
Вычислим математическое ожидание d, снова воспользовавшись представлением выборочных данных n –мерной случайной величиной (x1, x2,…..xn) → (X1, X2,….Xn):
М(d) = M()
=
-
.
С учётом количества слагаемых (см. выше) и того, что М(Хi) = M(Xj) = M(X) и М(ХiXj) = М(Хi) M(Xj) в силу статистической независимости Хi и Xj получаем:
М(d) =
-
=
где использована
формула для
вычисления
дисперсии: D
=
Из полученного
результата
следует, что
выборочная
дисперсия d
является смещенной
оценкой для
D, т.к. её
математическое
ожидание не
равно D, а
несколько
меньше. Чтобы
ликвидировать
это смещение,
достаточно
умножить d
на
.
Результат этого
умножения
обозначенный
S2 и называется
“исправленной
эмпирической
дисперсией”.
Пример. На предприятии изготовляется определённый вид продукции. Ежемесячный объём выпуска этой продукции является случайной величиной, для характеристики которой принят показательный закон распределения.
( x ≥ 0 )
В течение шести месяцев проводился замер объёмов выпуска продукции, получены следующие данные:
Месяц | 1 | 2 | 3 | 4 | 5 | 6 |
Объём выпуска | 25 | 34 | 23 | 28 | 32 | 30 |
Найти оценку параметру λ.
Решение. Так как закон распределения содержит лишь один параметр λ, то для его оценке надо составить одно уравнение, например, равенство теоретического и эмпирического первых начальных моментов. Находим выборочную среднюю - эмпирический первый начальный момент:
= (25+34+23+28+32+30)/6 = 28.7
Определяем математическое ожидание – теоретический первый начальный момент:
М(Х) =
,
Приравниваем теоретический и эмпирический первые начальные моменты:
откуда получаем оценку параметра λ:
Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора
Напомним, что любую функцию j = j (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Таким образом, все оценки являются статистиками, случайными величинами. В связи с таким свойствами оценок, они должны быть проверены на значимость. Для этого используются критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.
4. Проверка статистических гипотез
Стандартными задачами математической статистики являются задачи определения класса (вида) распределения генеральной совокупности и определение её основных числовых характеристик. Эти задачи математическая статистика решает в виде выдвижения гипотез, а не прямым расчетом. Это связано с тем, исходные данные для статистических расчетов являются случайными величинами и полученные результаты расчета тоже есть случайные величины. Поэтому каждый расчетный результат должен быть дополнен вероятностью его правильности (или ошибки), следовательно, он является гипотетическим.
Определение 1. Статистической гипотезой называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.
Наряду с данной гипотезой рассматривают и противоречащую ей гипотезу. В случае, когда выдвинутая гипотеза отвергается, обычно принимается противоречащая ей гипотеза.
Определение 2. Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.
Пример. Нулевая гипотеза H0 : генеральная совокупность распределена по нормальному закону, тогда гипотеза H1 : генеральная совокупность не распределена по нормальному закону.
Пример. Нулевая
гипотеза H0
: Мх = 20 ( т.е. математическое
ожидание нормально
распределённой
величины равно
20), тогда гипотеза
H1 может иметь
вид H1: Мх
20.
Проверку правильности или неправильности выдвинутой гипотезы проводят статистическими методами. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.
Идея, которая используется при проверке статистических гипотез, заключается в следующем.
Вводится некоторая
вычисляемая
случайная
величина, называемая
критерием,
распределение
которой заранее
известно и
которая характеризует
отклонение
выборочных
характеристик
от их гипотетических
значений. В
предположении
о справедливости
гипотезы H0
фиксируем
заранее некоторый
уровень значимости
α (допустимую
вероятность
ошибки того,
что принимается
гипотеза H0,
а на самом деле
верна гипотеза
H1) считая
, что в одиночном
эксперименте
событие с
вероятностью,
меньшей α,
практически
не происходят.
По α
находим такое
число,
что бы выполнялось
соотношение:
Пусть теперь
КВ – вычисленное
по выборке
значение критерия.
Если окажется
,
то в предположении
о справедливости
гипотезы H0
произошло
«практически»
невозможное
событие и поэтому
выдвинутую
гипотезу H0
следует отвергнуть
и принять гипотезу
H1. В противном
случае, можно
считать, что
наблюдения
не противоречат
гипотезе H0.
На приведенных
рисунках показано
функция плотности
распределения
случайной
величины –
критерия χ2
(Рис. 1 ) и кривая
уровню значимости
для распределения
χ2 ( Рис.2.).
Уровень значимости
равен интегралу
от функции
плотности
распределения
в пределах от
до ∞, т.е.:
По заданному
уровню значимости
α
находят значение
нижнего предела
=
Так, например,
при α
= 0.05 из графика
(Рис. 1.) определяем
=
7.814
Рис. 1.
Рис. 2.
Критерий Фишера. Проверка гипотезы о равенстве дисперсий.
Задача проверки «статистического» равенства дисперсий в двух выборках играет в математической статистике большую роль, т.к. именно дисперсия определяет такие исключительные важные конструктивные и технологические и экономические показатели, как точность машин и приборов, погрешность измерительных методик, точность технологических процессов, состояние экономической конъюнктуры. и т.д.
В качестве критерия F (критерий Фишера) для проверки гипотезы о равенстве дисперсий в двух генеральных совокупностях по независимым выборкам из них строится случайная величина, равная отношению двух «исправленных» дисперсий , предполагая, что генеральная совокупность распределена нормально.
Доказано, что
эта случайная
величина имеет
распределение
Фишера с к1 = n1 –
1 и k2 = n2
– 1 степенями
свободы, где
n1 и n2 –
объёмы первой
и второй выборок.
Обычно в качестве
числителя берут
большую из
«исправленных»
дисперсий
.
Чтобы проверить гипотезу о равенстве дисперсий, надо построить критическую область для критерия F. В качестве критической области принимаются два интервала: интервал больших значений критерия, удовлетворяющий неравенству F >F2 и интервал малых значений 0 < F < F1, причём критические точки занимают такое положение на оси критерия, чтобы удовлетворять следующим равенствам:
где
– площади под
кривой распределения
(см. Рис.3).
Такой выбор критической области обеспечивает большую чувствительность критерия. Оказывается, что достаточно определить правую критическую точку F2; последнее объясняется тем, что если величина
имеет распределение Фишера ( с k1 и k2 степенями свободы), то и
также имеет распределение Фишера (с k1 и k2 степенями свободы). Поэтому в таблицах табулируются только правые точки этого распределения.
Если полученное по выборке значение критерия выходит за правую критическую точку F2, гипотезу о равенстве дисперсий следует отбросить, в противном случае гипотеза о равенстве дисперсий не противоречит наблюдениям.
Пример.
При проведении
тестирования
на профессиональную
пригодность
были подвергнуты
испытанию две
группы: в первой
группе – 10 человек,
во второй группе
– 15 человек. По
данным этих
тестов были
посчитаны
«исправленные»
эмпирические
дисперсии,
оказавшиеся
равными для
первой группы
и для второго
.
Требуются
проверить с
уровнем значимости
α=0,1
гипотезу
о равенстве
дисперсий –
уровнем подготовленности.
Р е ш е н и е.
Вычислим выборочное значение критерия
F
=
По таблицам
распределения
Фишера и при
α = 0,05 и
степенях свободы
k1 = n1 –1
= 9 и k2 = n2
–1 = 14 находим
критическую
точку F2 =
2,65. Выборочное
значение критерия
оказалось
меньше критического,
и, следовательно,
предположение
о равенстве
дисперсий не
противоречит
наблюдениям.
Иными словами,
нет оснований
считать, что
две группы
обладают
разным уровнем
подготовленности.
Пример. Оценивается валидность двух различных однотипных тестов. Подвергаются испытанию одна и та же группа с составе 20 человек. По данным тестирования были вычислены исправленные дисперсии, они оказались равными:
,
.
Определить валидность однотипных тестов.
Р е ш е н и е.
Вычисляем выборочное значение критерия
По таблицам распределения Фишера и при α = 0,05 и степенях свободы k1 = n1 –1 = 19 и k2 = n2 –1 = 19 находим критическую точку F2 = 2,16. Таким образом, выборочное значение критерия попадает в критическую область и гипотезу о равенстве дисперсий следует отбросить, т.е. по данным двух выборок испытуемых валидность тестов существенно отличается друг от друга.
Критерий Пирсона χ2. Проверка гипотез о законе распределений .
В предыдущем параграфе были рассмотрены некоторые способы оценки параметров заранее известного закона распределения. Однако в ряде случае сам вид закона распределения является гипотетическим и нуждается в статистической проверке. Гипотезы о виде закона распределения выдвигаются на основе результатов построения эмпирических функций распределения или гистограмм.
Рассмотрим
вопрос о критерии
проверки по
данным выборки
гипотезы о том,
что данная
случайная
величина Х
имеет функцию
распределения
F(х). Необходимо
ввести некоторую
случайную
величину- критерий
К, основанный
на выборе
определённой
меры расхождения
эмпирического
и теоретического
распределений.
Наиболее
распространённым
является критерий
Пирсона χ2
(хи-квадрат).
Суть критерия
Пирсона состоит
в следующем..
Область изменения
случайной
величины разбивается
на конечное
число интервалов:
Δх1, Δx2, …. Δxl (если это вся числовая ось, то первый и последний l-ый интервал будут бесконечными). Пусть mi – число значений выборки n, попавших в интервал Δхi , а pi – вероятность того, что случайная величина Х примет значения, принадлежащие Δхi при данном распределении F(x). Эта вероятность pi вычисляется по известным соотношениям:
где xi и xi+1 – начальная и конечная точка интервала Δхi. Очевидно, выполняются условия
По найденным pi находим математические ожидания попаданий случайной величины Х в интервал Δхi. при n испытаниях, которые равны npi. В качестве меры расхождения выборочных m1, m2, ….ml и теоретических np1,np2,….npl характеристик вводится следующая величина:
Доказано, что
введенная таким
образом случайная
величина при
неограниченном
увеличении
n распределена
по закону
с r степенями
свободы, где
r = l – 1 –
k, а k
равно числу
параметров,
оцениваемых
по данным выборке.
Если все параметры
закона распределения
известны заранее
(не на основе
выборки!, например,
при равномерном
распределении),
то к = 0. Остаётся
, задавшись
определённым
уровнем значимости
α , указать
критическую
область критерия.
Обозначим
число, найденное
из условия
В качестве
критической
области примем
интервал
.Определив
по данным выборки,
мы получим одно
из двух: или
(т.е. выборочное
значение критерия
попадает в
критическую
область и тогда
расхождение
выборочных
данных с гипотетическим
законом распределения
существенно,
а поэтому гипотеза
H0 отвергается
и принимается
гипотеза H1.
Если
, то отличие
эмпирического
закона от
теоретического
считается
несущественным
и принимается
гипотеза H0
о статистическом
равенстве
эмпирического
и теоретического
законов распределения.
Замечание.
Случайная
величина –
критерий
,
вычисленная
по выборочным
данным, только
при n →∞
распределена
по закону
.
Возникает
естественный
вопрос о правомерности
использования
этого распределения
при конечном
n. Принято
считать это
приближение
достаточным
для практических
расчетов, если
для всех интервалов
npi
10.Если
же имеются
интервалы, для
которых npi <10, то
рекомендуется
их объединять
с соседними
так, чтобы новые
интервалы уже
удовлетворяли
указанному
условию.
Пример. Имеются опытные данные о числе звонков в службу аварийного помощи в течение рабочего дня – таблица 1.
Интервалы (часы смены) |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Число звонков | 16 | 27 | 17 | 15 | 24 | 19 | 11 | 15 |
Проверить с помощью критерия Пирсона и при уровне значимости α = 0,05 гипотезу о равномерном распределении числа звонков в психологическую службу в течение дня.
Решение. Постоим эмпирическую функцию плотности распределения вызовов. Рис.4.
Рис.4
Приведённый рисунок позволяет выдвинуть гипотезу о равномерном распределении звонков в службу психологической помощи, т.к. плотность звонков колеблется около некоторого среднего значения.
В
качестве интервалов
Δхi
берём соответствующие
часы смены. Так
как предполагается
оценивать
равномерное
распределение,
то все pi
=
и npi
=144·
= 18. Результаты
дальнейших
расчётов сводим
в таблицу 2.
Таблица 2.
Интервалы (часы смены) |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Число звонков mi | 16 | 27 | 17 | 15 | 24 | 19 | 11 | 15 |
Математические ожидания npi | 18 | 18 | 18 | 18 | 18 | 18 | 18 | 18 |
mi - npi | -2 | 9 | -1 | -3 | 6 | 1 | -7 | -3 |
|
0.22 | 4.5 | 0.06 |
0.5 |
2.00 | 0.06 | 2.72 | 0.5 |
Σ =10.56
Число степеней
свободы равно
r = l – 1 –
k = 7 ( k = 0,
т.к. единственный
параметр
распределения
– рабочее время
смены , т.е. длина
отрезка b-a
– заранее известно).
При данном
уровне значимости
α = 0,05 по
таблице находим
соответствующее
значение
=14,07.
Вычисленное
значение
=
10,56 лежит левее
критического
значения, т.е.
в области допустимых
значений, и
поэтому нет
оснований
считать гипотезу
H0 о равномерном
распределении
противоречащей
наблюдениям.
Пример. Имеются результаты опроса группы молодёжи, состоящей из 200 человек, о возрасте первого употреблении наркотиков. Результаты представлены в виде интервального вариационного ряда (Таблица 1.):
Таблица 1.
Интервал возрастов | 11-12 | 12-13 | 13-14 | 14-15 | 15-16 | 16-17 | 17-18 | 18-19 | 19-20 | 20-21 |
Количество человек в группе | 7 | 12 | 14 | 25 | 48 | 42 | 24 | 13 | 10 | 5 |
Требуется с помощью критерия Пирсона и при уровне значимости α = 0,05 оценить гипотезу о нормальном распределении возрастов начала употребления наркотиков, тем самым подтвердив гипотезу, что явление наркомании порождено множеством различных причин.
Решение. Построим экспериментальную функцию плотности распределения распределение. Поскольку вариационный ряд интервальный следует перейти к серединам интервалов и заменить абсолютные частоты – частотами относительными. В результате получим (Таблица 2; Рис 2):
Таблица 2.
Середины интервалов | 11,5 | 12,5 | 13,5 | 14,5 | 15,5 | 16,5 | 17,5 | 18,5 | 19,5 | 20,5 |
Относительные частоты | 0,035 | 0,06 | 0,07 | 0,125 | 0,24 | 0,21 | 0,12 | 0,065 | 0,05 | 0,025 |
Рис.5
Полученная кривая имеет колоколообразную форму, поэтому есть основания к выдвижению гипотезы о нормальном распределении возрастов начала употребления наркотиков.
Результаты вычислений сведем в таблицу 3.
Таблица 3.
№ интервала | Границы интервала | x*i | mi | νi | pi | npi |
|
1 | 11,12 | 11,5 | 7 | 0.035 | 0,0187 | 3,7383 | 2,8458 |
2 | 12,13 | 12,5 | 12 | 0.06 | 0,0485 | 9,6940 | 0,5486 |
3 | 13,14 | 13,5 | 14 | 0.07 | 0,0984 | 19,6702 | 1,6345 |
4 | 14,15 | 14,5 | 25 | 0.125 | 0,1562 | 31,2318 | 1,2435 |
5 | 15,16 | 15,5 | 48 | 0.24 | 0,1940 | 38,8031 | 2,1798 |
6 | 16,17 | 16,5 | 42 | 0.21 | 0,1886 | 37,7239 | 0,4847 |
7 | 17,18 | 17,5 | 24 | 0.12 | 0,1435 | 28,6978 | 0,7690 |
8 | 18,19 | 18,5 | 13 | 0.065 | 0,0854 | 17,0829 | 0,9758 |
9 | 19,20 | 19,5 | 10 | 0.05 | 0,0398 | 7,9571 | 0,5245 |
10 | 20,21 | 20,5 | 5 | 0.025 | 0,0145 | 2,9002 | 1,5203 |
Сумма: 12,72645
Среднее значение возраста, впервые употребляющие наркотики, равно 15,885
Подправленная дисперсия возрастов, впервые употребляющих наркотики, равна 4,077. Стандартное отклонение возрастов, впервые употребляющих наркотики, равно 2,019
Полученные характеристики позволяют с помощью таблиц гауссовой кривой вычислить вероятности средних возрастов, впервые употребляющих наркотики. Результаты вычислений представлены на рисунке 6. Графики экспериментальных относительных частот и теоретических вероятностей практически совпали друг с другом из-за масштабирования. Чтобы показать существующее расхождение между теоретическим и экспериментальным распределением построим графики абсолютных частот средних значений возрастов – рисунок 7.
Рис.6
Рис.7.
Вычислим значение критерия – случайной величины χ2. Оно равно сумме значений последнего столбца таблицы - 12,726. Критическое значение χ2 при уровне значимости 0,05 и степенях свободы, равных r = 10 – 1 – k = 10 – 1 – 2 = 7 , определяется значением 14,067. Таким образом, нет оснований отвергать гипотезу H0 о нормальном законе распределения возрастов лиц, впервые употребляющих наркотические вещества, тем самым мы