Основные понятия статистики

A.M. Ляпунова.

Раздел 2. Математическая статистика


Аннотация


Математическая статистика изучает, как и теория вероятностей, случайные явления, использует одинаковые с ней определения, понятия и методы и основана на той же самой аксиоматике А.Н. Колмогорова. Однако задачи, решаемые математической статистикой , носят специфический характер.

Теория вероятностей исследует явления, заданные полностью их моделью, и выявляет еще до опыта те статистические закономерности, которые будут иметь место после его проведения

В математической статистике вероятностная модель явления определена с точностью до неизвестных параметров. Отсутствие сведений о параметрах компенсируется тем, что позволяется проводить «пробные» испытания и на их основе восстанавливать недостающую информацию


Тема 2.1. Описательная статистика


Два основных направления исследований в статистике.

Основные категории статистики.

Методы первичного анализа экспериментальных данных. Построение вариационных рядов и определение их основных характеристик

Графическое представление вариационных рядов.


Два основных направления исследований в статистике


В математической статистике принято выделять два направления: параметрическая статистика и непараметрическая (дескриптивная) статистика.

Первое направление связано с оценкой (определением) неизвестных параметров законов распределения случайных величин на основе экспериментальных наблюдений за значениями случайной величины. Поскольку в качестве оценки выступает число, а числу на числовой прямой соответствует точка, такие оценки называют точечными.

Поскольку точечная оценка получается в результате математических операций над полученными из эксперимента значениями случайной величины она (оценка) сама есть случайная величина, имеющая определенную функцию распределения. Следовательно, точечная оценка должна быть дополнена интервалом, содержащим точечную оценку и возможный разброс её (оценки) значений, которые допустим с наперёд заданной вероятностью, которую называют доверительной. Поэтому наряду с точечными оценками в математической статистике принято определять интервальные оценки или , иными словами, доверительные интервалы, опираясь на уровень доверия или доверительную вероятность

Второе направление в математической статистике связано с проверкой некоторых априорных предположений или статистических гипотез об основных характеристиках экспериментально полученных распределениях случайных величин. Принято называть одну из этих гипотез ( как правило, более важную с практической точки зрения) основной H0, а вторую альтернативной или конкурирующей H1. Индекс 0 буквы H указывает, что гипотеза H0 предполагает несущественное отличие между гипотетическим и истинным значении оцениваемых параметрах, и, наоборот, индекс 1 указывает на существенную разницу между оценкой и истинном значением статистического параметра. Задача проверки статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить, справедливость этих гипотез и принять одну из них. Так же, как и при точечной оценке неизвестных параметров, мы не застрахованы от неверного решения, так называемых ошибок первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу H1, в то время, как справедлива основная гипотеза H0. Аналогично определяется ошибка второго рода: принимаем основная гипотезу H0, в то время, как справедлива конкурирующая гипотеза H1.

В математической статистике исследуются также байесовские и небайесовские модели. Байесовская модель возникает тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Этот подход использует формулу Байеса.

Небайесовские модели появляются тогда, когда неизвестный параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели в основном рассматриваются в математической статистике.

В математической статистике употребляют также понятие параметрической и непараметрической модели. Параметрическая модель возникает тогда, когда нам известен вид функции распределения наблюдаемого признака, но неизвестны её параметры и необходимо по результатам испытаний определить эти параметры (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача проверки статистических гипотез). Непараметрическая модель – когда неизвестен вид закона распределения и необходимо с помощью специальных критериев определить к какому классу распределений он относится.


Основные категории статистики


Основными категориями математической статистики являются: генеральная совокупность, выборка, теоретическая и эмпирическая функции распределения.

Определение 1. Пусть имеется совокупность N объектов любой природы, над которыми проводятся наблюдения или совокупность всех возможных наблюдений. Каждое из наблюдений характеризуется определенным значением хi (среди которых могут быть и одинаковые) некоторого общего для всех объектов признака (характеристики) Х. Назовём множество всех изучаемых объектов генеральной совокупностью, где N - объём генеральной совокупности.

В математической статистике обычно рассматривается генеральная совокупность бесконечно большого объёма.

Определение 2. Выборочной совокупностью или выборкой назовем n объектов, отобранных из генеральной совокупности и подвергнутые исследованию, число n – объёмом выборки.

Выборка должна обладать свойством репрезентативности, В силу закона больших чисел, можно утверждать, что выборка репрезентативна, если каждый её объект выбран из генеральной совокупности случайным образом, т.е. все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку.

Определение 3. Эмпирическая функция распределения. Пусть из генеральной совокупности извлечена выборка объёма n , причём количественный признак х1 наблюдался n1 раз, …хk - nk раз. Очевидно,


.


Наблюдаемые значения количественного признака хi называются вариантами, а ранжированная (записанная в порядке возрастания) последовательность вариант,, - вариационным рядом. Если исследуемый признак принимает дискретные значения, то такой ряд называется дискретным вариационным рядом; если же значения признака являются непрерывными, то вводят интервалы значений признака [хi, хi+1 ] и вариационный ряд называют интервальным. В вычислительных процедурах с интервальными вариационными рядами интервалы [хi, хi+1 ] заменяются серединами интервалов – х*i.

Числа ni называются частотами, а отношение ni к объёму выборки n –относительной частотой. В случае дискретного ряда ni – число повторения значения признака хi , в случае же интервального вариационного ряда ni число вариант, попавших в интервал [хi, хi+1 ]


Сумма относительных частот


Соответствие между вариантами, записанных в порядке возрастания и относительными частотами называется эмпирическим (статистическим) распределением выборки


Х х1 х2 ….. хк
P* p1* p2* ….. pк*

Существует полная аналогия между эмпирическим распределением и законом распределения дискретной случайной величины, но в данном случае вместо значений случайной величины фигурируют варианты, а вместо вероятностей – относительные частоты. Если обозначить n(x) – число вариант, меньших x, то эмпирическая функция распределения будет иметь вид:


F*(x) = p* ( X < x ) =


Итак, выборочной (эмпирической) функцией распределения называется функция F*(x), задающая для каждого значения х относительную частоту события Х < x. Выборочную (эмпирическую) функцию распределения можно задать таблично или графически.

Определение 4. Функция распределения генеральной совокупности F (x) называется теоретической функцией распределения.

В отличие от эмпирической функции F*(x) теоретической функцией распределения

F (x) определяет вероятность события X < x , а F*(x) его относительную частоту. Относительные частоты pi* в соответствии с теоремой Бернулли при стремлении объёма выборки n → ∞ сходится по вероятности к вероятности pi. Поэтому в математической статистике эмпирическую функцию F*(x) используют для приближённого представления теоретической функции распределения F (х).


Методы первичного анализа экспериментальных данных. Построение вариационных рядов и определение их основных характеристик


Выборочные данные, упорядоченные по возрастанию или убыванию, получают название вариационного ряда.

Важнейшими числовыми характеристиками вариационных рядов являются средние показатели. Средней величиной в статистике называется обобщающая характеристика совокупности однотипных по некоторому количественно варьируемому признаку явлений. Средняя величина отражает то общее, типическое, что характерно для всех этих единиц. Применяют простые и взвешенные средние величины. При вычислении простой средней величины каждый вариант совокупности учитывается один раз. Взвешенная средняя величина вычисляется, когда варианты повторяются. При вычислении средней этого вида вес каждого из вариантов выбираются пропорциональным частоте повторений этого варианта.

В математической статистике используют различные виды средних величин. Наиболее часто применяются средняя арифметическая, средняя гармоническая и средняя геометрическая величины.

Чаще других средних величин используют средние арифметические . По данным не сгруппированного вариационного ряда вычисляется средняя арифметическая простая величина, представляющая собой сумму всех вариантов ряда, деленную на число вариантов


. (1)


Здесь: x – варианты, n – число вариантов.

По данным сгруппированного вариационного ряда рассчитывается средняя арифметическая взвешенная, представляющая сумму попарных произведений вариантов на соответствующие им частоты, деленную на число вариантов


. (2)


При решении некоторых задач статистики используют понятие доли – отношения числа единиц совокупности, обладающих изучаемым признаком, к общему числу единиц совокупности. Доля единиц совокупности, объединенных по некоторому признаку в i-ю группу, определяется формулой


.


Формула для средней арифметической, записанная с использованием доли, имеет вид


.


Примечание. При расчете средних величин по данным интервального вариационного ряда вместо варианта x следует использовать значение x*i – абсциссу середины i-го интервала.

В теории вероятностей аналогом средней взвешенной величины является математическое ожидание случайной величины.

Помимо средней арифметической в математической статистике применяется средняя гармоническая величина . – средняя величина из обратных значений признака.

Средняя гармоническая простая вычисляется по формуле


. (3)


Средняя гармоническая взвешенная используется тогда, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение , и определяется по формуле


. (4)


Пример. В таблице представлены данные о заработных платах.


Группы рабочих

Зар. плата ()

Фонд оплаты труда ()

1 1500 48000
2 1300 58500
3 1700 39100

Определить среднюю заработную плату по цеху.

Средняя заработная плата по цеху равна суммарному фонду оплаты труда , деленному на общее число рабочих , т.е. вычисляется по формуле (4.4) средней гармонической взвешенной


руб.

При анализе динамики явлений, когда рассматриваются относительные величины, используют среднюю геометрическую величину – корень n-ой степени из произведения n значений признака, позволяющую определить средний коэффициент роста явления. Средняя геометрическая простая определяется по формуле


. (5)


Средняя геометрическая взвешенная вычисляется по формуле


. (6)


Если какой-либо количественный признак имеет разные значения у различных единиц совокупности, говорят, что он имеет вариацию. Для характеристики размера вариации в статистике применяются показатели вариации: размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение (стандарт).

Размах вариации R представляет собой разность между максимальным и минимальным значениями признака в совокупности


R = x.


Среднее линейное отклонение d представляет собой среднее арифметическое абсолютных значений отклонений вариантов от средней арифметической и рассчитывается по формуле

.


Дисперсия (от лат. dispersus – рассеянный, рассыпанный) представляет собой среднее арифметическое квадратов отклонений вариантов от среднего значения.

Дисперсия, рассчитанная по данным несгруппированного вариационного ряда, записыва-ется в виде


.


Для сгруппированного вариационного ряда формула вычисления дисперсии имеет вид


. (7)


Преобразовав выражение (7), получим иной вид записи дисперсии


.


Среднее квадратическое отклонение (стандарт) S представляет собой квадратный корень из дисперсии


.

Коэффициент вариации V – выраженное в процентах отношение среднего квадратического отклонения и среднего арифметического:


.


Коэффициент вариации является критерием типичности, достоверности средней. Если коэффициент вариации не велик (не превышает 35%), это значит, что средняя величина характеризует совокупность по признаку, который мало изменяется при переходе от одной единицы совокупности к другой. Типичность такой средней высока, и в последующих вычислениях и выводах вариационный ряд может быть заменён своим средним значением. Если коэффициент вариации превышает 35%, то среднее арифметическое не является типичным значением вариационного ряда, и использование его в качестве средней характеристики некорректно.

Пример. Имеются данные о средней месячной выработке изделий рабочими бригады


Средняя месячная выработка

Изделий рабочим (штук) (X)

140-160 160-180 180-200 200-220
Число рабочих (F) 1 3 4 2

Определить показатели вариации.


Сформируем вспомогательную таблицу, обозначив середину i-го интервала


X F

140-160 1 150 150 -34 34 1156 1156
160-180 3 170 510 -14 42 196 588
180-200 4 190 760 +6 24 36 144
200-220 2 210 420 +26 52 676 1352
Итого 10
1840
152
3240

Cредняя арифметическая месячная выработка =шт.

По данным таблицы вычислим показатели вариации

Размах вариации R = 210 – 150 = 60 шт.

Среднее линейное отклонение = шт.

Дисперсия = 324.

Среднее квадратическое отклонение = 18 шт.

6. Коэффициент вариации % = 9,8%.

Как видно из расчётов, коэффициент вариации составляет 9,8% и, следовательно, типичность среднего значения высока.

В ряде задач статистическая совокупность оказывается разделенной на несколько групп. В этом случае вычисляют три вида дисперсий: общую , межгрупповую и среднюю внутригрупповую дисперсию .

Рассмотрим статистическую совокупность, которая разделена на m групп. (Это разделение может совпадать или не совпадать с группировкой той же совокупности, представленной вариационным рядом, в котором совокупность разделена на k групп). Обозначим количество элементов, попавших в i-ю группу через ().

Общая дисперсия характеризует рассеяние признака по всей изучаемой совокупности под влиянием всех факторов, формирующих уровень признака у единиц совокупности, и определяется по формуле (5.1)

, (8)


где – общая средняя арифметическая для всей изучаемой совокупности.

Межгрупповая дисперсия отражает различия в величине изучаемого признака, возникающие под влиянием фактора, положенного в основу группировки, и показывает рассеяние групповых средних вокруг средней величины признака в совокупности


, (9)


где – средняя арифметическая по i-й группе.

Внутригрупповая дисперсия используется для оценки рассеяния признака внутри группы. Она характеризует вариацию, не зависящую от значений признака, положенного в основу группировки (факторного признака), и возникающую под влиянием других факторов. Средняя внутригрупповая дисперсия вычисляется по формуле


, (10)

Здесь – дисперсия признака в i-й группе, где – частота признака в i-й группе.

Общая, межгрупповая и средняя внутригрупповая дисперсии связаны правилом сложения дисперсий


=.


Смысл этого соотношения заключается в том, что общая дисперсия, определяемая влиянием всех факторов, равна дисперсии, определяемой фактором группировки, и дисперсии, возникающей под влиянием прочих факторов.

В статистическом анализе вычисляют характеристики, зависящие от распределения частот по вариантам – от структуры распределения. Поэтому эти характеристики получили название структурных средних величин. К таким показателям относятся мода и медиана.

Мода – значение признака, наиболее часто встречающееся в ряду распределения. Мода определяется различными способами в зависимости от вида вариационного ряда. В дискретном вариационном ряду мода – вариант с максимальной частотой в изучаемой совокупности.

Пример. По данным статистического наблюдения получены значения величины X = {5, 3, 1, 2, 1, 4, 1, 5, 2, 1, 4, 2, 1, 1, 6}. Определить моду.


Построим вариационный ряд

X 1 1 1 1 1 1 2 2 2 3 4 4 5 5 6

Соответствующий сгруппированный вариационный ряд имеет вид:


X 1 2 3 4 5 6
F 6 3 1 2 2 1

Значение признака Х, имеющего наибольшую частоту (6) равно 1. Следовательно, для данного вариационного ряда = 1.

При отыскании моды в интервальном ряду сначала определяют модальный интервал – интервал, имеющий наибольшую частоту. Затем мода рассчитывается по формуле


, (11)


где – нижняя граница модального интервала; – величина модального интервала; – частота модального интервала, fm-1 – частота интервала, предшествующего модальному, fm+1 – частота интервала, следующего за модальным.

Пример. По данным статистического наблюдения построен интервальный ряд распределения рабочих по заработной плате


Зар. плата (руб.) 1300-1400 1400-1500 1500-1600 1600-1700 1700-1800
Число рабочих (частота) 20 40 55 60 35
Кумулятивная частота 20 60 115 175 210

Найти моду.

Модальным интервалом является интервал (1600-1700). Подставив данные таблицы в формулу (5.5), получим

o = 1616,7 руб.

Медиана – значение признака (вариант), которое делит вариационный ряд на две равные части, одна из которых – со значениями признака меньше медианы, вторая – со значениями признака больше медианы.

Медиана для дискретных и интервальных вариационных рядов определяется по-разному. Если дан дискретный несгруппированный вариационный ряд и число вариантов n нечетно, то =, где ; если число вариантов n четное, = ( x+ x ) / 2, где.

Пример. По данным примера 5.2 найти медиану дискретного вариационного ряда.

Число вариантов n несгруппированного ряда равно 15, следовательно, k = (n + 1)/2 = 8, и медиана равна 2.


Пример 5.3. Определить медиану по данным, приведенным в таблице

Размер заработной платы (тыс. руб.) Число работников (частота)
Накопленная частота
5800 30
30
6000 45
75
6200 80
155
6400 60
215
6600 35
250

Решение. Сумма частот n = 250 – четно, = 125. = 6200.

В интервальном вариационном ряду для определения медианы сначала нужно найти медианный интервал – первый по счету интервал, в котором накопленная частота равна или превышает полусумму частот вариационного ряда. После этого медиана определяется по формуле


,

где – нижняя граница медианного интервала;

– величина медианного интервала;

– накопленная частота интервала, предшествующего медианному;

– частота медианного интервала.

Пример. По данным примера 5.3 определить медиану интервального ряда.

Медианным является интервал (1500-1600), так как это первый по счету интервал, сумма накопленных частот которого (115) больше полусуммы накопленных частот интервального ряда (0.5∙210 = 105). Подставив данные примера в формулу для медианы интервального ряда, получим

.

В математической статистике используют структурные характеристики, делящие вариационный ряд на большее число частей, – квантили – показатели дифференциации признаков по частотам. Различают несколько видов квантилей.

Квартили – значения признака, которые делят вариационный ряд на четыре равные части. Второй квартиль равен медиане, первый и