Вариационные ряды и их числовые характеристики

Тема 5. Вариационные ряды и их числовые характеристики.

Задачи математической статистики.
Генеральная и выборочная совокупности.
Способы отбора.
Понятие вариационного ряда.
Эмпирическая функция распределения.
Графические методы изображения вариационных рядов.
Средняя арифметическая вариационного ряда и ее свойства.
Меры вариации. Дисперсия и ее свойства.
Частные средние и частные дисперсии. Правило сложения дисперсий.
Начальные и центральные моменты вариационного ряда.
Оценка отклонения теоретического распределения от нормального. Асимметрия и эксцесс.
Методы расчета характеристик вариационного ряда.

5.1. Задачи математической статистики.

Математическая статистика – наука, позволяющая распространять выводы, сделанные на основе изучения части совокупности (случайной выборки), на всю совокупность (генеральную совокупность). Ее определяют также как науку о принятии решений в условиях неопределенности.

Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и др.;

б) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.

Математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи.

Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Ученые, внесшие наибольший вклад в развитие математической статистики: П.Л. Чебышев, А.А. Марков, А.М. Ляпунов, К. Гаусс, Ф. Гальтон, К. Пирсен и др. (вторая половина 19 – начало 20 века), В.И. Романовский, Е.Е. Слуцкий, А.Н. Колмогоров, Н.В. Смирнов, Стьюдент, Р. Фишер, Э. Пирсон, Ю. Нейман, А. Вальд, С.А. Айвазян, В.С. Мхитарян (20 век).

5.2. Генеральная и выборочная совокупности.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным - контролируемый размер детали.

Иногда проводят сплошное обследование, т.е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.

Выборочной совокупностью или просто выборкой называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.

Выборки подразделяют на повторные и бесповторные. Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

5.3. Способы отбора.

На практике применяются различные способы отбора. Принципиально эти способы можно подразделить на два вида:

1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относятся: а) простой случайный бесповторный отбор; б) простой случайный повторный отбор.

2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся: а) типический отбор; б) механический отбор; в) серийный отбор.

Простым случайным называют такой отбор, при котором объекты извлекают по одному из всей генеральной совокупности. Осуществить простой отбор можно различными способами. Например, для извлечения n объектов из генеральной совокупности объема N поступают так: выписывают номера от 1 до N на карточках, которые тщательно перемешивают; и наугад вынимают одну карточку; объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию; затем карточку возвращают в пачку и процесс повторяют; т.е. карточки перемешивают, наугад вынимают одну из них и т.д. Так поступают n раз; в итоге получают простую случайную повторную выборку объема n.

Если извлеченные карточки не возвращать в пачку, то выборка является простой случайной бесповторной.

При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке. Для того чтобы отобрать, например, 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если бы оказалось, что случайное число таблицы превышает число N, то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить.

Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесоо6разен.

Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если, требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь, и т.д. Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки. Например, если отбирают каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае следует устранить совпадение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати обточенных.

Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

На практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты.

5.4. Понятие вариационного ряда.

Пусть из генеральной совокупности извлечена выборка, причем значение х1 наблюдалось m1 раз, х2 – m2 раз, хk – mk раз и – объем выборки. Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке, - вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки mi/n = Wi – относительными частотами или частостью.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал). Непрерывный вариационный ряд для такого признака называется интервальным. Рекомендуемое число интервалов находится по формуле Стэрджеса , а оптимальная величина интервала вычисляется по формуле .

При изучении вариационных рядов используется понятие накопленной частоты (или частости).

Накопленная частота показывает, сколько наблюдалось вариантов со значением признака, меньшим определенного данного значения х.

В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике – соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами.

Медиана – это значение признака ряда, относительно которого вариационный ряд делится на две равные по числу вариантов части. Ее можно определить также как значение признака, приходящееся на середину ранжированного ряда.

Для дискретного ряда с нечетным числом вариантов (2К+1) медиана равна серединному варианту, т.е. , а для ряда с четным числом вариантов медиана равна полусумме двух срединных вариантов, т.е. .

Для расчета значения медианы в интервальном вариационном ряду вначале находят интервал, содержащий медиану. Внутри медианного интервала расчет значения медианы производится по формуле

где - нижняя граница медианного интервала;

- величина медианного интервала;

- накопленная частота или частость интервала, предшествующего медианному;

- половина суммы всех частот;

- частота медианного интервала.

Мода – это значение признака, наиболее часто встречающееся в вариационном ряду.

Для дискретного вариационного ряда мода определяется по наибольшей частоте.

В случае интервального вариационного ряда по наибольшей частоте определяется модальный интервал, а затем мода по формуле

где - нижняя граница модального интервала;

- частота модального интервала;

- частота интервала, предшествующего модальному;

- частота интервала, последующего за модальным;

- величина модального интервала.

5.5. Эмпирическая функция распределения.

Эмпирической функцией распределения совокупности по признаку Х называется функция F*(x), выражающая для каждого х частость тех ее значений, у которых признак Х имеет значения, меньше х.

По определению, , где mx – число вариант, меньших х; n – объем выборки.

Функцию распределения генеральной совокупности называют теоретической функцией распределения.

Свойства функции распределения.

Значения эмпирической функции распределения принадлежат отрезку [0; 1].
Эмпирическая функция распределения – неубывающая функция.

5.6. Графические методы изображения вариационных рядов.

Дискретный вариационный ряд графически можно представить в виде полигона распределения частот (частостей), представляющего ломаную, соединяющую точки с координатами (xi, mi).

При построении полигона для интервального ряда необходимо предварительно преобразовать его в дискретный, заменив каждый интервал его серединой.

Интервальные вариационные ряды графически можно представить с помощью гистограммы. Для ее построения откладываются по оси абсцисс концы интервалов, а по оси ординат частоты или частости (масштаб по обеим осям выбирается произвольный). На отрезках оси абсцисс, соответствующих построенным интервалам, как на основаниях, строятся прямоугольники, высота которых равна частоте (частоти) данного интервала.

В том случае, когда интервалы различны, на оси ординат откладываются значения абсолютной или относительной плотности распределения.

Абсолютная плотность интервала – это отношение частоты интервала к его величине:

где ki – величина интервала, mi – его частота.

Абсолютная плотность показывает, сколько единиц совокупности приходится на единицу интервала.

Относительная плотность интервала – это отношение частости интервала к его величине:

где ki – величина интервала, wi – его частость.

Относительная плотность показывает, какая часть единиц совокупности приходится на единицу интервала.

Дискретные и интервальные вариационные ряды графически можно представить в виде кумуляты и огивы.

При построении кумуляты дискретного вариационного ряда на оси абсцисс откладываются значения признака, а по оси ординат – соответствующие им накопительные частоты (или частости). Кумулята представляет собой ступенчатую разрывную линию, имеющую конечные разрывы в точках, соответствующих значениям признака, вариантам.

Для интервального вариационного ряда кумулята представляет собой ломаную, начинающуюся с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Другие точки этой ломаной соответствуют концам интервалов.

Огива строится аналогично кумуляте с той лишь разницей, что на оси абсцисс откладываются значения, соответствующие накопленным частотам (частостям), а на оси ординат – значения признака (варианты). График огивы симметричен кумуляте относительно биссектрисы координатного угла.

Полигон, кумулята и огива применяются для изображения как дискретных, так и интервальных статистических рядов, гистограмма для изображения только интервальных рядов.

5.7. Средняя арифметическая вариационного ряда и ее свойства.

Средняя арифметическая взвешенная – это отношение суммы произведений значений вариантов на соответствующие частоты к сумме всех частот.

или

Средняя арифметическая простая равна частному от деления суммы значений всех вариантов на число всех вариантов в ряду.

Средняя арифметическая – величина той же размерности, что и значение признака.

Свойства средней арифметической.

Если находят среднюю арифметическую для интервального вариационного ряда, то в качестве значения признака для каждого интервала условно принимают его середину:

или .

Средняя арифметическая постоянной величины равна этой постоянной, то есть .
Если все варианты ряда уменьшить (увеличить) на одно и то же число с, то средняя арифметическая уменьшится (увеличится) на то же число.
Если все варианты ряда уменьшить (увеличить) в одно и то же число раз, то средняя арифметическая уменьшится (увеличится) во столько же раз.
Если частоты (частости) средней взвешенной разделить или умножить на постоянное число, то средняя арифметическая не изменится.
Сумма отклонений вариантов ряда от средней арифметической равна нулю.
Если вариационный ряд состоит из l непересекающихся групп наблюдений, то средняя арифметическая всего ряда равна взвешенной средней арифметической групповых средних. Причем весами являются объемы групп (N1, N2, …, Nl), где l – число групп.

5.8. Меры вариации. Дисперсия и ее свойства.

Размах вариации – это разность между наибольшим и наименьшим значениями признака. .

Среднее линейное отклонение – средняя арифметическая из абсолютных значений отклонений вариантов от средней.

Различают среднее линейное отклонение невзвешенное и взвешенное:

или .

Дисперсия вариационного ряда – средняя арифметическая квадрата отклонения значений признака ряда от их средней арифметической.

или .

Для вычисления дисперсии часто применяется формула дисперсии следующего вида: .

Свойства дисперсии:

Дисперсия постоянной величины равна нулю.
Если все значения вариантов уменьшить на постоянную величину, то дисперсия не изменится.
Если все значения вариантов увеличить (уменьшить) в с раз, то дисперсия увеличится (уменьшится) в с2 раз.

Среднее квадратическое отклонение есть арифметический квадратный корень из дисперсии.

Среднее квадратическое отклонение – это абсолютная мера рассеяния вариантов ряда. Относительной мерой рассеяния является коэффициент вариации.

Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к средней арифметической:

5.9. Частные средние и частные дисперсии. Правило сложения дисперсий.

Пусть некоторая совокупность разбита на l непересекающихся групп, не обязательно одинаковых по объему. Группы называются непересекающимися, если каждый вариант принадлежит только одной группе. Для каждой группы вариантов вариационного ряда можно вычислить средние, которые называются частными (групповыми) средними (). Тогда среднюю арифметическую всей совокупности называют общей средней.

Пусть n1, n2, …, nl – число вариантов в группах: n1 + n2 + …+ nl = k.

Частная средняя j-ой группы вычисляется по формуле

Общую среднюю можно выразить через частные средние:

, где Nj – объем j-ой группы.

Если объемы всех групп одинаковы, то общая средняя может быть получена и как простая средняя из частных средних

Дисперсия для распределения вариантов j-й группы относительно их средней называется частной (внутригрупповой) дисперсией и вычисляется по формуле

Дисперсия по этому же признаку всей совокупности относительно общей средней называется общей дисперсией и обозначается .

Частные средние могут и не совпадать с общей средней. Мерой колеблемости частных средних вокруг общей средней является межгрупповая дисперсия, которая вычисляется по формуле:

Межгрупповая дисперсия характеризует колеблемость групповых или частных средних около общей средней, т.е. характеризует систематическую вариацию, которая возникает под влиянием фактора (признака), положенного в основу группировки.

Из частных (внутригрупповых) дисперсий может быть найдена средняя, которая обозначается и вычисляется по формуле:

Средняя из частных дисперсий служит для характеристики среднего рассеяния признака внутри групп. Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе. Она возникает вод влиянием других, неучитываемых факторов и не зависит от условий, положенных в основу группировки.

Правило сложения дисперсий. Если статистической распределение состоит из суммы нескольких других распределений, то дисперсия этого общего распределения равна сумме средней арифметической дисперсий входящих с него распределений (средней дисперсии групп) и дисперсии их средних арифметических (дисперсия групповых средних).

5.10. Начальные и центральные моменты вариационного ряда.

Средняя из r-х степеней отклонений вариантов хi от некоторой постоянной величины А называется эмпирическим моментом r-го порядка

Если А=0, то эмпирический момент r-го порядка называется начальным моментом r-го порядка

При r=0 .

При r=1 , т.е. средняя арифметическая – это начальный момент первого порядка.

Если , то эмпирический момент r-го порядка называется центральным моментом r-го порядка

При r=0 .

При r=1 .

При r=2 , т.е. дисперсия – это центральный момент 2-го порядка.

5.11. Оценка отклонения теоретического распределения от нормального. Асимметрия и эксцесс.

Эмпирическим называют распределение относительных частот. Эмпирические распределения изучает математическая статистика.

Теоретическим называют распределение вероятностей. Теоретические распределения изучает теория вероятностей.

Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадратического отклонения:

Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания (правостороння скошенность); асимметрия отрицательна, если «длинная часть» кривой распределения расположена слева от математического ожидания (левосторонняя скошенность).

Эксцессом теоретического распределения называют характеристику, которая определяется равенством

Если эксцесс положительный, то кривая имеет более высокую и «острую» вершину, чем нормальная кривая; если эксцесс отрицательный, то кривая имеет более низкую и «плоскую» вершину, чем нормальная кривая. Значения коэффициента эксцесса принадлежат промежутку [-3; +).

Для нормального распределения эти характеристики равны нулю. Их используют для того, чтобы определить близость некоторого эмпирического распределения к нормальному.

5.12. Методы расчета характеристик вариационного ряда.

Метод произведений вычисления выборочных средней и дисперсии.

Задача 1.

Найти методом произведений выборочную среднюю и выборочную дисперсию по заданному распределению выборки:

xi 10 20 30 40 50 60 70

ni 4 11 25 30 15 10 5

Решение. Составим расчетную таблицу. Для этого:

запишем варианты в первый столбец;
запишем частоты во второй столбец;
в качестве ложного нуля С выберем варианту, которая имеет наибольшую частоту; в клетке третьего столбца, которая принадлежит строке, содержащей ложный нуль, пишем 0; над нулем последовательно записываем -1, -2, …, в под нулем 1, 2, …;
в четвертый столбец записываем произведения частот ni на условные варианты ui; отдельно находим сумму отрицательных и положительных значений;
в пятый столбец записываем произведения частот на квадраты условных вариант;
в шестой столбец записываем произведения частот на квадраты условных вариант, увеличенных на единицу;
вычисляем итоговые суммы по всем столбцам кроме первого и третьего;
выполняем контроль вычислений: ;
вычисляем условные моменты первого и второго порядков: , .
вычисляем искомые выборочную среднюю и выборочную дисперсию: , .

1	2	3	4	5	6

10	4	-3	-12	36	16
20	11	-2	-22	44	11
30	25	-1	-25	25	0
40	30	0	0	0	30
50	15	1	15	15	60
60	10	2	20	40	90
70	5	3	15	45	80
	100		-9	205	287

Контроль: 287 = 205 + 2 * (-9) +100; 287 = 287.

С=40; h=10;

Если первоначальные варианты не являются равноотстоящими, то интервал, в котором заключены все варианты выборки, делят на несколько равных, длины h, частичных интервалов. Затем находят середины частичных интервалов, которые и образуют последовательность равноотстоящих вариант. В качестве частоты каждой середины интервала принимают сумму частот вариант, которые попали в соответствующий частичный интервал.

При вычислении выборочной дисперсии для уменьшения ошибки, вызванной группировкой (особенно при малом числе интервалов), делают поправку Шеппарда, а именно вычитают из вычисленной дисперсии 1/12 квадрата длины частичного интервала: .

Метод сумм вычисления выборочных средней и дисперсии.

Задача 2.

Найти методом сумм выборочную среднюю и выборочную дисперсию по заданному распределению выборки:

xi 10 20 30 40 50 60 70

ni 4 11 25 30 15 10 5

Решение. Составим расчетную таблицу. Для этого:

запишем варианты в первый столбец;
запишем частоты во второй столбец;
в качестве ложного нуля С выберем варианту, которая имеет наибольшую частоту; в клетках строки, содержащей ложный нуль, пишем нули; в четвертом столбце над и под уже помещенным нулем запишем еще по одному нулю;
в оставшихся незаполненными над нулем и под ним клетками третьего столбца запишем последовательно накопленные частоты;
аналогично заполним четвертый столбец;
вычислим итоговые суммы в верхней и нижней частях таблицы;
найдем величины , , ;
вычисляем условные моменты первого и второго порядков: , .
вычисляем искомые выборочную среднюю и выборочную дисперсию: , .

1	2	3	4
		b1=59	b2=23
10	4	4	4
20	11	15	19
30	25	40	0
40	30	0	0
50	15	30	0
60	10	15	20
70	5	5	5
	n=100	a1=50	a2=25

С=40; h=10;

PAGE 2

Вариационные ряды и их числовые характеристики

1	2	3	4	5	6

10	4	-3	-12	36	16
20	11	-2	-22	44	11
30	25	-1	-25	25	0
40	30	0	0	0	30
50	15	1	15	15	60
60	10	2	20	40	90
70	5	3	15	45	80
	100		-9	205	287

1	2	3	4	5	6

10	4	-3	-12	36	16
20	11	-2	-22	44	11
30	25	-1	-25	25	0
40	30	0	0	0	30
50	15	1	15	15	60
60	10	2	20	40	90
70	5	3	15	45	80
	100		-9	205	287

1	2	3	4	5	6

10	4	-3	-12	36	16
20	11	-2	-22	44	11
30	25	-1	-25	25	0
40	30	0	0	0	30
50	15	1	15	15	60
60	10	2	20	40	90
70	5	3	15	45	80
	100		-9	205	287