КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант № 4
Выполнил: ст. III курса
Володина Т.Н.
Проверил:
Корецкий Г.А.
Владимир,
Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C35. Для демонстрационного примера (ДП) выборочные данные приведены в табл. 1-ДП.
Таблица 1
Исходные данные демонстрационного примера
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
1. Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
В результате визуального анализа диаграммы рассеяния признаков единиц наблюдаемой совокупности выявлены две аномальные единицы наблюдения (Таблица 2)
Приведенные в таблице аномальные единицы наблюдения удалены из изучаемой совокупности.
2. Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (), моду (Мо), медиану (Ме), размах вариации (R), дисперсию(), средние отклонения – линейное () и квадратическое (σn), коэффициент вариации (Vσ), структурный коэффициент асимметрии К.Пирсона (Asп).
Выборочные показатели в результате расчетов представлены в двух таблицах — таблица 3 и таблица 5. На основе этих таблиц сформирована единая Таблица 8.
Таблица 8.
«Описательные статистики выборочной совокупности».
Наименование показателя |
|
Среднегодовая стоимость основных производственных фондов, млн.руб.» |
«Выпуск продукции, млн.руб» |
Среднее |
|
410 |
391,3 |
Медиана |
Me |
414,5 |
388,5 |
Мода |
Мо |
425 300 |
390 |
Размах вариации, |
R |
300 |
360 |
Минимум |
|
260 |
210 |
Максимум |
|
560 |
570 |
Уровень надежности(95,4%) |
|
27,619 |
32,947 |
Стандартное отклонение, о„ |
|
72,562 |
86,560 |
Дисперсия |
5089,8 |
7243,01 |
|
Среднее линейное отклонение |
57,4 |
65,56 |
|
Коэффициент вариации, % |
Vσ |
17,698 |
22,121 |
Коэффициент асимметрии |
Asn |
-0,206 |
0,015 |
3.На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
После удаления аномальных значений коэффициент вариации признака «Среднегодовая стоимость основных производственных фондов» составляет 17,698 %, исходя из оценочной шкалы находится в диапазоне 0%<<40% ,что свидетельствует о незначительной степени колеблемости признака.
Коэффициент вариации признака «Выпуск продукции» составляет 22,121 %, исходя из оценочной шкалы находится в диапазоне 0%<<40% что свидетельствует о незначительной степени колеблемости признака.
Б) степень однородности совокупности по изучаемым признакам;
Однородность совокупности для нормального и близких к нормальному распределений устанавливается по условию
Vσ ≤ 33 %
Коэффициент вариации Vσ признака «Среднегодовая стоимость основных производственных фондов» составляет 17,698 %, что свидетельствует об однородности изучаемой совокупности.
Коэффициент вариации признака «Выпуск продукции» составляет 22,121%, что свидетельствует об однородности изучаемой совокупности. Чем однороднее изучаемая совокупность, тем надежнее полученная средняя.
В) устойчивость индивидуальных значений признаков;
Сопоставление средних отклонений – квадратического σ и линейного позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений.
Таблица 9.
Расчет устойчивости данных
По столбцу «Среднегодовая стоимость основных производственных фондов, млн. руб.» |
По столбцу «Выпуск продукции млн. рублей. |
/σ 0,8 |
/σ 0,77 |
В условиях симметричного и нормального, а также близких к ним распределений между показателем σ и имеют место равенства -
σ ≈ l,25, или ≈ 0,8σ
поэтому отношение показателей и σ может служить индикатором устойчивости данных: если
/ σ (=0, 8столбец 1, 0,77 столбец 2)<= 0,8, (1)
значения признака устойчивы, в них не имеется «аномальных» выбросов.
г) количество попаданий индивидуальных значений признаков в диапазоны (), (), ().
границы диапазонов рассеяния значений признаков относительно средней и количество попаданий индивидуальных значений в тот или иной выделенный диапазон (Таблица 10).
Таблица 10.
Распределение значений признака по диапазонам рассеяния признака относительно
Признаки |
Количество значений признака х;, находящихся в диапазоне |
||
- σn <Хi<+ σn стп |
-2 σn <Хi<+ 2σn |
-3 σn <Хi<+ 3σn |
|
Первый признак |
20 |
28 |
30 |
Второй признак |
20 |
28 |
30 |
По значениям показателей и σ можно определить границы интервалов вариации признака, т.е. установить, какая доля единиц совокупности попадает в тот или иной интервал отклонений значений признака от .
Согласно вероятностной теореме П.Л.Чебышева следует ожидать, что независимо от формы распределения 75% значений признака будут находиться в интервале ±2σ, а 89% значений – в интервале ±3σ .
В нормально распределенных и близких к ним рядах вероятностные оценки границ интервалов таковы:
68,3% значений признака войдет в интервал ± σ, 95,4% значений признака попадет в интервал ±2σ, (2)
99,7% значений признака появится в интервале ± Зσ.
Соотношение (2) известно как правило «трех сигм».
Для выборочной совокупности значения и σ п рассчитаны и являются точными, поэтому, основываясь на правиле «трех сигм», можно точно оценить границы всех трех вероятностных интервалов отклонений значений признака от средней.
Ожидаемые границы вариации выборки для признака «Среднегодовая стоимость основных производственных фондов» соответствуют:
±σ с вероятностью Р=68,3%, т. е. ± 72,562;
±2σ с вероятностью Р=95,4%, т. е. ±145,124;
±3σ с вероятностью Р=99,7%, т. е. ±217,686.
Ожидаемые границы вариации выборки для признака «Выпуск продукции» соответствуют:
±σ с вероятностью Р=68,3%, т. е. ±86,560;
±2σ с вероятностью Р=95,4%, т. е. ±173,12;
±3σ с вероятностью Р=99,7%, т. е. ±259,68.
Для генеральной совокупности точно известна только величина σN, a величина рассчитывается, поэтому прогнозные оценки попадания значений признака в тот или иной интервал является прогнозным и обычно задается в форме (2) с учетом известного значения σN. Ожидаемые границы вариации генеральной совокупности для признака «Среднегодовая стоимость основных производственных фондов» соответствуют:
±σ с вероятностью Р=68,3%, т. е. ± 72,562;
±2σ с вероятностью Р=95,4%, т. е. ±145,124;
±3σ с вероятностью Р=99,7%, т. е. ±217,686.
Ожидаемые границы вариации генеральной совокупности для признака «Выпуск продукции» соответствуют:
±σ с вероятностью Р=68,3%, т. е. ±86,560;
±2σ с вероятностью Р=95,4%, т. е. ±173,12;
±3σ с вероятностью Р=99,7%, т. е. ±259,68.
Учитывая правило «трех сигм», в статистической практике величину Зσ считают в условиях нормального и близких к нему распределений максимально допустимой ошибкой наблюдения и отбрасывают результаты наблюдений для которых
|хi-х|>3σ (3)
Для нормального распределения справедливо равенство
R=6σ (4)
4. Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
Важная функция обобщающих показателей вариации , σ2, σ, - оценка надежности (типичности) средней величины. Для «Среднегодовая стоимость основных производственных фондов» значения показателей = 57,4, σ2 = 5089,8, σ = 72,562, = 17,698 невелики, индивидуальные значения признака ряда мало отличаются друг от друга, единицы наблюдения количественно однородны и, следовательно, среднее арифметическая величина является надежной характеристикой данной совокупности.
Для «Выпуск продукции» значения показателей = 65,56, σ2 = 7243,01, σ=86,560, = 22,121 невелики, индивидуальные значения признака ряда мало отличаются друг от друга , единицы наблюдения количественно однородны и, следовательно, среднее арифметическая величина является надежной характеристикой данной совокупности.
5.Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Возможность отнесения кривой распределения эмпирических данных к типу кривых нормального распределения устанавливается путем анализа формы гистограммы вариационного ряда распределения с учетом оценок показателей особенностей формы распределения.
При анализе формы гистограммы прежде всего следует оценить распределение вариантов значений признака по интервалам (группам).
Гистограмма имеет одновершинную форму, есть основания считать выборку однородной по данному признаку, (рис.2 ).
Установив однородность совокупности, для дальнейшего анализа формы распределения используются описательные параметры выборки. Анализируются параметры и σп, выступающие в качестве статистических оценок соответствующих параметров нормального распределения – математического ожидания М[] и стандартного отклонения σ n генеральной совокупности.
Графический анализ позволяет судить о близости эмпирического распределения нормальному закону распределения.
Результаты визуального анализа не противоречат значениям полученных коэффициентов эксцесса и асимметрии, которые приведены в таблице:
Таблица 11.
Значения коэффициентов.
Коэффициент |
Значение коэффициента |
Анализ значения коэффициента |
Эксцесса |
-0,345 |
Распределение пологое |
Асимметрии |
-0,153 |
Асимметрия низкая |
Для полученного интервального ряда значение моды М0 рассчитывается по формуле:
f Мо – fМо-1
Мо = Хо + h ------------------------------- ,
(fМо – fМо-1)+ (fМо – fМо+1)
где Хо – нижняя граница модального интервала;
h – величина модального интервала;
f Мо – частота модального интервала;
fМо-1 – частота интервала, предшествующего модальному;
fМо+1 – частота интервала, следующего за модальным.
11-5
Мо = 380 + 60-------------------- = 395 млн.руб.
(11-5)+(11+7)
Полученные значения (395 млн.руб.) отличаются от моды из таблицы 8 (425 млн.руб.) на 30 млн.руб.
Статистический анализ генеральной совокупности
1. Рассчитать генеральную дисперсию , генеральное среднее квадратическое отклонение и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
Генеральные показатели , , As, Ek рассчитаны с помощью инструмента Описательная статистика и их значение представлены в табл.3. Для этих показателей сформирована отдельная таблица 12.
Таблица 12.
«Описательные статистики генеральной совокупности».
Наименование показателя |
|
Среднегодовая стоимость основных производственных фондов, млн.руб." |
"Выпуск продукции, млн.руб" |
|
Асимметричность |
|
-0,153 |
0,043 |
|
Эксцесс |
|
-0,345 |
-0,205 |
|
Дисперсия выборки |
|
5265,310 |
7492,768 |
|
Стандартное отклонение, σn |
|
72,56 |
86,56 |
|
Дисперсия |
σ2n \ |
5089,8 |
7243,01 |
|
Коэффициент асимметрии |
Asn |
-0,20 |
0,01 |
|
Ожидаемый размах вариации |
RN |
435,36 |
519,36 |
|
RN =6σ.
Прогнозное значение RN по признаку Среднегодовая стоимость основных производственных фондов больше, чем Rn на 135,36.
Прогнозное значение RN по признаку Выпуск продукции больше, чем Rn на 159,36.
Проверить выполнимость для показателей σ2n, ,равенства = σ2n
Для «Среднегодовой стоимости основных производственных фондов»
5265,310=(30/29)* 5089,8
5265,310= 5265,310
Для «Выпуск продукции» значения показателей
7492,768= (30/29)* 7243,01
7492,768= 7492,768
Равенство выполняется.
2.Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
Средние ошибки выборки для средних значений приведены в табл.3.
Значения предельных ошибок выборки имеются в табл.3, табл.4а и табл.4б. На основе этих данных следует сформирована таблица 13.
Таблица 13.
Предельные ошибки выборки и ожидаемые границы для генеральных средних
Доверительная вероят-ность Р |
Коэффициент дове-рия t |
Предельные ошибки выборки |
Ожидаемые границы для средних |
||
Для первого признака |
Для второго признака |
Для первого признака |
Для второго признака |
||
0,683 |
1 |
13,489 |
16,091 |
396,511 ≤≤423,489 |
375,209 ≤≤ 407,391 |
0,954 |
2 |
27,619 |
32,947 |
382,381≤≤437,619 |
358,353≤≤424,247 |
0,997 |
3 |
42,915 |
51,194 |
367,085 ≤≤452,915 |
340,106 ≤≤442,494 |
3.Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Значения коэффициентов асимметрии As и эксцесса Ек представлены в таблице 11.
«Среднегодовой стоимости основных производственных фондов»
Коэффициент |
Значение коэффициента |
Анализ значения коэффициента |
Эксцесса |
-0,345 |
Распределение пологое |
Асимметрии |
-0,153 |
Асимметрия низкая |
«Выпуск продукции» |
||
Коэффициент |
Значение коэффициента |
Анализ значения коэффициента |
Эксцесса |
0,043 |
Распределение пологое |
Асимметрии |
-0,205 |
Асимметрия низкая |
Вывод:
В данной лабораторной работе был осуществлен расчет целого ряда статистических показателей, вследствие группирования исходных данных по признаку «Среднегодовая стоимость основных производственных фондов» был получен ряд распределения, и по этому ряду распределения были построены гистограмма и кумулята. В результате проведенного графического анализа было установлено, что полученное эмпирическое распределение близко к нормальному закону распределения. Этот вывод получил подтверждение после расчета показателей As (коэффициента асимметрии) и Ек (коэффициента эксцесса). Рассчитанное значение коэффициента As свидетельствует о том, что асимметрия распределения является незначительной, а полученное значение коэффициента Ек говорит о том, что данное распределение по сравнению с кривой нормального распределения является пологим, т. е. значения признака рассеянны от xmin до хmaх.
2. Рабочий файл с результативными таблицами и графиками
Рис.1. Аномальные значения признаков на диаграмме рассеяния.
Рис. 2. Гистограмма и кумулята интервального ряда распределения для демонстрационного примера