Основные понятия статистики
третий вычисляются аналогично расчету медианы. При расчете i-го квартиля сначала по относительным частотам определяют соответствующий квартильный интервал – первый по счету интервал, накопленная частота которого больше (n – сумма частот). Затем значение квартиля рассчитывают по формуле, аналогичной формуле для нахождения медианы, i =1, 2, 3,
где i – номер квартильного интервала;
– нижняя граница i-го квартильного интервала;
– величина i-го квартильного интервала;
– накопленная частота интервала, предшествующего i-му квартильному интервалу;
– частота i-го квартильного интервала.
Отношение третьего и первого квартилей называется квартильным коэффициентом
=
и показывает, во сколько раз значение признака у четверти вариантов, имеющих наибольшие значения признака, превышает значение признака у другой четверти с наименьшими значениями.
Значения признака, которые делят вариационный ряд на десять равных частей, называются децилями. Расчет значений децилей проводится аналогично расчету квартилей. Отношение девятого и первого децилей – децильный коэффициент = показывает, во сколько раз величина признака у 10% совокупности с наибольшими значениями превышает такую же величину у 10% совокупности с наименьшими значениями признака.
В статистике используются также перцентили – значения признака, которые делят вариационный ряд на сто равных частей.
В ряде случаев в математической статистике вычисляют показатели формы распределения частот по вариантам: асимметрию и эксцесс. Характеристика симметричности распределения – коэффициент асимметрии – рассчитывается по формуле
,
где – центральный момент третьего порядка;
– куб среднего квадратического отклонения.
Если варианты распределены симметрично относительно средней величины , т.е. равноудаленные от варианты имеют одинаковые частоты, коэффициент асимметрии равен нулю. Если < 0, в вариационном ряду преобладают варианты, которые меньше, чем средняя величина. В этом случае говорят о наличии левосторонней асимметрии. И, наоборот, при > 0 преобладают варианты, которые больше . Это указывает на правостороннюю симметрию.
Пример. Рис. 1 иллюстрирует зависимость вида кривой распределения от асимметрии.
Рис. 1
Для симметричных распределений рассчитывается также эксцесс распределения – показатель островершинности распределения. Эксцесс рассчитывается по формуле
,
где – центральный момент четвертого порядка.
При расчете экцесса эталоном является нормальное распределение, для которого , и, следовательно . Для распределений, у которых , кривая более островершинная, чем нормальная кривая. Если , кривая будет более плосковершинной.
Пример. Рис. 2 иллюстрирует зависимость вида кривой распределения от эксцесса
Рис. 2
Контрольные вопросы
Что называется средней величиной?
Какие виды средних величин вы знаете?
Какие виды средней арифметической вам известны?
Как вычисляется средняя геометрическая величина?
Что представляет собой средняя гармоническая?
Чем характеризуется понятие «размах вариации»?
Что такое среднее линейное отклонение?
Что такое дисперсия и как она может быть вычислена?
Что называется средним квадратическим отклонением?
Что называется коэффициентом вариации?
Что такое мода?
Как определяется мода для дискретных и интервальных вариационных рядов?
Что такое медиана?
Как определяется медиана для дискретных и интервальных вариационных рядов?
4.Графическое представление вариационных рядов
В математической статистике широко используется геометрическая интерпретация результатов первичной статистической обработки экспериментальных данных. Графическое представление сгруппированного дискретного вариационного ряда в осях – признак и частота - называется полигоном частот. Графическое представление интервального вариационного ряда в виде прямоугольников, с основаниями, равными длине интервалов и с высотой, равной соответствующей относительной частоте, называется гистограммой.
Пример. Имеются данные наблюдения над числом посетителей сайта академии в течение 40 дней:
70, 75, 100, 120, 75, 60, 100, 120, 70, 60, 65, 100, 65, 100, 70, 75, 60, 100, 100, 120, 70, 75, 70, 120, 65, 70, 75, 70, 100, 100, 120, 120, 100, 75, 75, 70, 70, 100, 100, 75.
Число посетителей Х является дискретным признаком, полученные данные представляют собой выборку из n = 40 наблюдений.
Требуется составить вариационный ряд, найти относительные частоты, построить эмпирическую функцию плотности распределения и эмпирическую функцию распределения.
Сначала составим вариационный ряд:
60, 60, 60, 65, 65, 65 70, 70, 70, 70, 70, 70, 70, 75, 75, 75, 75, 75, 75, 75, 75, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 120, 120, 120, 120, 120, 120.
Сгруппированный вариационный ряд представим в виде таблиц
Номер группы | i | 1 | 2 | 3 | 4 | 5 | 6 |
Число посетителей | хi | 60 | 65 | 70 | 75 | 100 | 120 |
Частота | ni | 3 | 3 | 9 | 8 | 11 | 6 |
Относительная частота | pi* | 0.075 | 0.075 | 0.225 | 0.2 | 0.275 | 0.15 |
Графическое изображение результатов представлено на рис.1 и рис.2
Рис. 3
Рис.4
Построим эмпирическую функцию распределения. Исходными данными для её построения являются множество значений признака и множество относительных частот:
хi | 50 | 60 | 65 | 70 | 75 | 100 | 120 |
pi* | 0 | 0.075 | 0.075 | 0.225 | 0.2 | 0.275 | 0.15 |
xi | 50 | 60 | 65 | 70 | 75 | 100 | 120 |
Pi* | 0 | 0,075 | 0,075 | 0,225 | 0,200 | 0,275 | 0,150 |
F ( xi ) | 0 | 0,075 | 0,15 | 0,375 | 0,575 | 0,85 | 1 |
Пример. В таблице 1 приведена выборка результатов отчетности однотипных 60 предприятий по прибыли (млн. руб.). Составить интервальный вариационный ряд. Построить гистограмму.
Таблица 1.
Результаты решения задачи приведены в таблице 2.
Таблица 2.
Контрольные вопросы:
Дайте определения основным категориям математической статистике: генеральная совокупность, выборка, статистическая совокупность, признак, оценка.
Что называется вариационным рядом? Классификация вариационных рядов.
Выпишите основные соотношения для вычисления количественных статистических характеристик вариационного ряда: среднего арифметического значения, дисперсии, среднего квадратического значения, коэффициента вариации, коэффициента асимметрии, коэффициента эксцесса, моды, медианы
4. Сформулируйте определения полигона частот, гистограммы и кумуляты.
5.На основе данных о результатах анализа эффективности работы 50 и предприятий города по изменению реальной заработной платы на этих предприятиях в отчетном году (в % к предыдущему году) сформировать
Таблица 3.
No | Эр[%] | No | Эр[%] | No | Эр[%] | No | Эр[%] | No | Эр[%] |
1 | 91 | 11 | 100 | 21 | 102 | 31 | 104 | 41 | 108 |
2 | 93 | 12 | 100 | 22 | 102 | 32 | 104 | 42 | 109 |
3 | 95 | 13 | 101 | 23 | 103 | 33 | 105 | 43 | 109 |
4 | 96 | 14 | 101 | 24 | 103 | 34 | 105 | 44 | 110 |
5 | 97 | 15 | 101 | 25 | 103 | 35 | 106 | 45 | 111 |
6 | 97 | 16 | 101 | 26 | 103 | 36 | 106 | 46 | 112 |
7 | 97 | 17 | 101 | 27 | 103 | 37 | 106 | 47 | 113 |
8 | 97 | 18 | 102 | 28 | 103 | 38 | 107 | 48 | 103 |
9 | 98 | 19 | 102 | 29 | 104 | 39 | 107 | 49 | 108 |
10 | 98 | 20 | 102 | 30 | 104 | 40 | 107 | 50 | 98 |
интервальный вариационный ряд значений темпов роста реальной заработной платы для равноотстоящих вариант, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.
4. Построить таблицу значений относительных частот для равноотстоящих вариант, таблицу значений эмпирической плотности относительных частот и эмпирической функции распределения, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.
5. Построить полигон и гистограмму относительных частот и график эмпирической функции распределения.
6. Назовите основные характеристики вариационного ряда и выпишите основные соотношения для их определения.
7. Вычислить выборочную среднюю арифметическую выборки, её дисперсию, выборочное среднее квадратическое отклонение, коэффициент асимметрии и выборочные коэффициенты асимметрии и эксцесса, отобразив выборочную среднюю и выборочное среднее квадратическое отклонение на полигоне и гистограмме относительных частот. Найти моду, медиану. Накопленные частоты интервалов, построить кумуляты.
Тема 2.2. Статистическое оценивание
Статистическое оценивание. Точечные и интервальные оценки. Требование к оценкам: несмещенность, состоятельность и эффективность.
Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов.
Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.
Проверка статистических гипотез Н0 и HI. Уровень значимости. Ошибки 1-го и 2-го рода.
Статистическое оценивание
Задача оценивания параметров теоретического распределения состоит в построении приближенных формул для вычисления значений этих параметров, зависящих от выборочных значений х1, ….хn. Любую функцию j = j (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Для того, чтобы оценки неизвестных параметров, т.е. статистики, давали хорошие приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определенным требованиям:
Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра (как предписывает теория вероятностей). Оценку, удовлетворяющую этому требованию, называют несмещенной.
При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной.
Оценка параметра представляет собой случайную величину, зависящую от выборки, поэтому естественный интерес представляет разброс этой оценки, т.е. её дисперсия. Оценку называют эффективной, если при заданном объёме выборки эта оценка имеет наименьшую дисперсию.
Поскольку в качестве оценки мы ищем число – точку на координатной оси – то такие оценки называются точечными.
Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов
Известны три основных метода нахождения приближенных формул вычисления точечных оценок: метод максимального правдоподобия, метод моментов и метод наименьших квадратов.
Метод максимального правдоподобия (Фишера)
Пусть исследуемый нами признак Х имеете непрерывное распределение, зависящее от m параметров Θ1….Θm из некоторого множества Θ. В этом случае плотность вероятности генеральной совокупности будет зависеть от значения признака х и этих параметров, т.е. ƒ(х, Θ1….Θm). Пусть теперь из генеральной совокупности получена выборка объёмом n: х1, …..хn. Рассмотрим представленную выборку с позиции того, что каждое значение её хi есть реализация некоторой случайной величины Хi, полученное в i-ом наблюдении, причем в силу репрезентативности выборки Хi имеет то же распределение, что и вся генеральная совокупность. В результате выборку можно рассматривать как n –мерную случайную величину (Х1, …. Хn) или выборочный вектор Х = (Х1…. Хn), все компоненты которого представляют независимые случайные величины с одинаковыми функциями плотности вероятности, совпадающими с плотностью вероятности генеральной совокупности, т.е.
ƒ Хi (хi, Θ1….Θm) = ƒ(хi, Θ1….Θm)
Из теории вероятностей известно, что плотность вероятностей совместного распределения независимых случайных величин равна произведению плотностей вероятностей каждой из случайных величин, т.е.
ƒ(х1, х2, ….хn, Θ1….Θm) = ƒ(х1, Θ1….Θm) ƒ(х2, Θ1….Θm)….. ƒ(хn, Θ1….Θm)
Метод максимального правдоподобия оценки неизвестных параметров распределения
Θ1….Θm основан на свойстве случайной величины реализовывать в эксперименте в основном те свои значения (Х1, …. Хn) , вероятность которых максимальная.
Таким образом, в качестве оценки неизвестных параметров распределения Θ1….Θm принимаются те значения, которые доставляют max функции ƒ(х1, х2, ….хn, Θ1….Θm), т.е. решения уравнения :
ƒ(х1, х2, ….хn, ) = max ƒ(х1, х2, ….хn, Θ1….Θm),
( Θ1….Θm ) Θ
если решения этого уравнения существуют.
Во многих случаях вместо функции ƒ(х1, х2, ….хn, Θ1….Θm) рассматривают её натуральный логарифм, достигающий максимума в тех же точках, что и сама функция ƒ(х1, х2, ….хn, Θ1….Θm). В результате нахождение оценок сводится к известной задаче математического анализа - отыскания максимума функции m переменных. Для отыскания точек экстремумов получаем уравнения максимального правдоподобия:
или i = 1….m
Пример. Пусть время t до выхода из строя группы компьютеров на испытательном стенде описывается показательным распределением:
,
единственный параметр которого λ неизвестен. Найти методом максимального правдоподобия оценку параметра λ
Р е ш е н и е. Испытав n компьютеров, мы получим выборку объёмом n : t1, ….tn. Функция плотности вероятности совместного распределения значений t1, ….tn имеет вид:
ƒ(t1, t2, ….tn, λ) = λe-λt1 λe-λt2…. λe-λtn = λn e-λt1 e-λt2…. e-λtn
поскольку выражение для функции плотности вероятности представляет собой произведение экспонент, то лучше воспользоваться логарифмической формой функции правдоподобия:
ln ƒ(t1, t2, ….tn, λ) = ln [λn e-λt1 e-λt2…. e-λtn ] = n lnλ – λ (t1 + t2 + ….+ tn).
Уравнение максимального правдоподобия будет иметь вид:
– (t1 + t2 + ….+ tn) = 0
Как было установлено в теории вероятностей, математическое ожидание для показательного распределения равно М(Х) = и обозначая , получим:
Пример. Пусть интересующая нас случайная величина распределена по нормальному закону с неизвестными параметрами Мх и σ (математическое ожидание и среднеквадратическое отклонение) и получена выборка на основе опытов объёмом n : х1, …..хn. Найти методом максимального правдоподобия оценку параметров Мх и σ.
Р е ш е н ие. Плотность вероятности совместного распределения значений х1, …..хn независимых нормально распределённых случайных величин имеет вид:
ƒ(х1, х2, ….хn, Мх, σ) =
….. =
=
Воспользуемся логарифмической формой представления функции правдоподобия:
ln ƒ(х1, х2, ….хn, Мх, σ) = - ln 2π - ln σ2 =
- ln 2π - ln D
Обозначим σ2 = D – дисперсию распределения признака Х. Уравнения максимального правдоподобия для оценки параметров Мх и σ2 = D имеют вид:
-= 0
Решения этой системы дают оценки параметров:
Пример. Найти методом максимального правдоподобия оценку параметра λ в распределении Пуассона на основе проведенных опытов.
Решение. Будем называть опытом группу из n испытаний. При этом в каждом опыте фиксируем число появления рассматриваемого события. Пусть таких независимых опытов будет к. Обозначим число появлений события в i-м опыте mi.Функция плотности вероятности совместного распределения количества появления рассматриваемого события m1, m2,…. mk имеет вид:
ƒ(m1, m2, ….mn, λ) =
……. =
Находим логарифм этой функции:
Ln ƒ(m1, m2, ….mn, λ) =
Возьмём первую производную по λ и приравняем её к нулю. Получим уравнение максимального правдоподобия:
,
откуда
Если взять вторую производную
то оказывается, что она отрицательная. Это значит, что при полученном значении функция правдоподобия lnƒ(m1, m2, ….mn, λ) достигает максимума.
Вывод. Метод максимального правдоподобия является эффективным в случае малых выборок, но часто требует довольно сложных вычислений.
Метод моментов (Пирсона)
Идея метода моментов заключается в приравнивании теоретических и соответствующих им эмпирических моментов, причём число моментов и, следовательно, число уравнений для определения неизвестных параметров распределений берется равным числу параметров. Покажем применение метода на тех же примерах, что и предыдущем пункте.
Напомним, что для случайной величины определены её числовые характеристики – начальные и центральные моменты. Для дискретной случайной величины:
теоретическим моментом к-го порядка называется соотношение вида:
Мкт = .
Эмпирическим моментом к-го порядка для несгруппированных данных называется соотношение вида:
Мкэ =
Если принять А = 0, то моменты в этом случае называются начальными. Обычно их обозначают малыми латинскими буквами.
, .
Например, начальный момент первого порядка m1 - есть математическое ожидание.
Если принять А = m1, то моменты называются центральными. Обычно их обозначают малыми греческими буквами.
μк T =, μк Э =.
Например, μ2 - есть дисперсия.
В случае непрерывных случайных величин в теоретических моментах суммы заменяются интегралами с бесконечными пределами.
Пример. Для показательного распределения единственным параметром является λ. Для его оценивания нужно одно уравнения. Возьмем, например, приравняем первые начальные моменты – теоретический и эмпирический.
Первый начальный теоретический момент получается интегрированием по частям выражения:
m1Т =
Первый начальный эмпирический момент имеет вид: m1Э =
Приравняем их:
m1Э = m1Т = =
Пример. Для нормального распределения, определенного двумя параметрами, Мх и σ, приравняем теоретический и эмпирический моменты первого порядка и центральные моменты второго порядка: m1T = Mx, μ2T = σ2
m1Э = , μ2Э =
отсюда
, =
или
В ы в о д ы. В рассмотренных примерах оценки, полученные методом максимального правдоподобия и моментов, совпали, однако этот факт не является общим. Для других распределений оценки, полученные различными методами, могут не совпадать.
Итак, оценками двух основных параметров генеральной совокупности,– математического ожидания и дисперсии являются:
- для математического ожидания - выборочная средняя, определяемая как среднее арифметическое полученных по выборке значений:
,
где xi – варианта выборки, ni – частота повторяемости варианты, n – объём выборки
собой среднюю арифметическую квадратов отклонений вариант от их выборочной для дисперсии – выборочная дисперсия, представляющая средней:
d = .
Для расчетов может быть использована также эквивалентная формула, получающаяся после возведения в квадрат и почленного суммирования:
d = ,
где