ПРИЛОЖЕНИЕ 1
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант №____
Выполнил: ст. III курса гр.________
_____________________
Ф.И.О.
Проверил:________ ___________
Должность Ф.И.О.
Москва, 2005 г.
Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C35. Для демонстрационного примера (ДП) выборочные данные приведены в табл. 1-ДП.
Таблица 1-ДП
Исходные данные демонстрационного примера
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
Номер предприятия |
1 |
18026 |
17201 |
1 |
2 |
21199 |
18871 |
2 |
3 |
21867 |
21042 |
3 |
4 |
23036 |
23380 |
4 |
5 |
15020 |
11690 |
5 |
6 |
24205 |
20040 |
6 |
7 |
24873 |
27054 |
7 |
8 |
18694 |
18370 |
8 |
9 |
22869 |
21543 |
9 |
10 |
26376 |
26887 |
10 |
11 |
28881 |
28390 |
11 |
12 |
10010 |
25050 |
12 |
13 |
22034 |
22378 |
13 |
14 |
24205 |
24382 |
14 |
15 |
27712 |
29559 |
15 |
16 |
31720 |
31730 |
16 |
17 |
23704 |
21376 |
17 |
18 |
26209 |
25384 |
18 |
19 |
20865 |
15865 |
19 |
20 |
26543 |
21710 |
20 |
21 |
29549 |
29225 |
21 |
22 |
20364 |
16533 |
22 |
23 |
16189 |
15531 |
23 |
24 |
27044 |
24883 |
24 |
25 |
24205 |
21710 |
25 |
26 |
22535 |
20541 |
26 |
27 |
17525 |
13360 |
27 |
28 |
23537 |
20875 |
28 |
29 |
27211 |
22879 |
29 |
30 |
25875 |
21710 |
30 |
31 |
31720 |
8350 |
31 |
32 |
19028 |
19372 |
32 |
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
1. Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
2.
Рассчитать обобщающие статистические показатели
совокупности по изучаемым признакам: среднюю арифметическую (
3. На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г)
количество попаданий индивидуальных значений признаков в диапазоны (
4. Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
5. Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности
1.
Рассчитать генеральную дисперсию
2. Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
3. Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Решение задачи в MS Excel
РЕШЕНИЕ
1. Анализ показал, что в исходных данных имеются аномальные значения.
|
|
Таблица 2 |
Аномальные единицы наблюдения |
||
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
12 |
10010 |
25050 |
31 |
31720 |
8350 |
Для проведения анализа исключим эти аномальные значения признаков из совокупности.
2. Анализ статистических показателей совокупности по показателю «Среднегодовая стоимость основных производственных фондов, тыс.руб.» представлен в таблицах 3 – 5 файлов MS Excel.
Описательная (дескриптивная) статистика является инструментом статистического описания данных, представляющих всю наблюдаемую совокупность в целом. Цель описательной статистики – получение сводных (обобщающих) показателей, характеризующих исходную совокупность данных как генеральную (а не как выборку из некоторой другой совокупности большего объема).
Показатели, вычисляемые с помощью описательных статистик (так называемые описательные параметры), можно разбить на 3 группы - показатели положения вариантов значений признака, вариации признака и особенностей формы его распределения.
Показатели положения описывают положение в первичном ряде данных тех или иных вариантов значений признака, характеризующих ряд. К ним относятся:
· максимальное xmax и минимальное xmin значения признака;
· средняя
арифметическая величина
· мода Мо - наиболее часто встречающийся вариант значений признака или тот вариант, который соответствует максимальной ординате эмпирической кривой распределения;
· медиана Ме - серединное значение ранжированного ряда вариантов значений признака;
· нижний и верхний квартили Q1 и Q3, ограничивающие центральную зону ранжированного ряда, в которую попадают 50% вариантов значений признака: 25% вариантов значений меньших серединного значения Ме и 25% вариантов значений больших Ме
Среди показателей этой группы наиболее часто используются показатели
центра распределения -
Для
Показатели
вариации (колеблемости) признака описывают степень рассеяния вариантов
значений признака относительно своего центра
· размах вариации R= xmax - xmin, устанавливающий предельное значение амплитуды колебаний признака;
· межквартильный размах Q3─Q1, определяющий максимальную амплитуду колебаний в центральной зоне ряда (ограниченной квартилями Q1 и Q3);
·
среднее линейное отклонение
дисперсия s2 (или D), рассчитываемая как среднее арифметическое из квадратов
отклонений (xi -
· среднее квадратическое (стандартное) отклонение s, вычисляемое как корень квадратный из дисперсии s2:
Интенсивность вариации признака измеряется относительными показателями
Vs=
Показатели R,
Показатели s2, s,
основанные на учете отклонений (xi-
Дисперсия s2
оценивает средний квадрат
отклонений (xi
-
Среднее квадратическое отклонение s
показывает, на сколько в среднем отклоняются индивидуальные
значения признака xi от их средней
величины
Интенсивность вариации обычно измеряют коэффициентом вариации Vs , который выражается в процентах и вычисляется по формуле
Величина Vs оценивает интенсивность колебаний вариантов относительно их средней величины. Принята следующая оценочная шкала колеблемости признака:
0%<Vs
40%< Vs
Vs>60% - колеблемость значительная.
Для нормальных и близких к нормальному распределений показатель Vs служит индикатором однородности совокупности: принято считать, что при выполнимости неравенства
Vs
совокупность является количественно однородной по данному признаку.
Коэффициент вариации Vs часто
используется для сравнения колеблемости признаков в различных рядах
распределения, когда сравнивается вариация разных признаков в одной и
той же совокупности или же вариация одного и того же признака в различных
совокупностях, имеющих разные средние
Показатели особенностей формы распределения. Для определения типа закономерности эмпирического распределения оно приближенно описывается подходящим теоретическим (вероятностным) распределением, форму кривой которого называют формой распределения. В тех случаях, когда форма распределения анализируется на ее близость к нормальной форме, расхождение между ними оценивается показателями асимметрии и эксцесса.
Показатели асимметрии оценивают смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения.
В симметричном распределении максимальная ордината прямой располагается точно в середине кривой, а соответствующие ей характеристики центра распределения совпадают:
В случае асимметричного распределения вершина кривой находится не в середине, а сдвинута либо влево, либо вправо
Если вершина сдвинута влево, то правая часть кривой оказывается длиннее левой, т.е. имеет место правосторонняя асимметрия, характеризующаяся неравенством
что означает преимущественное появление в распределении более высоких значений признака.
Если же вершина кривой сдвинута вправо и левая часть оказывается длиннее правой, то асимметрия левосторонняя, для которой справедливо неравенство
означающее, что в распределении чаще встречаются более низкие значения признака.
Чем больше
величина расхождения между
В
нормальном и близких к нему распределениях основная масса единиц (почти 70%)
располагается в центральной зоне ряда, в диапазоне (
При правосторонней асимметрии Asп>0, при левосторонней Asп<0. Если Asп=0, вариационный ряд симметричен.
Наиболее точным показателем асимметрии распределения является коэффициент асимметрии As, вычисляемый по формуле
где n – число единиц совокупности. Как и в случае коэффициента Пирсона, при As>0 имеет место правосторонняя асимметрия при As<0 – левосторонняя. В симметричных распределениях As=0.
Чем больше величина |As|, тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности:
|As|
0,25<|As|
|As|>0,5 - асимметрия существенная.
Поскольку коэффициенты Asп и As являются относительными безразмерными величинами, они часто применяются для сравнительного анализа асимметричности различных рядов распределения.
Показатель эксцесса характеризует крутизну кривой распределения - ее заостренность или пологость по сравнению с нормальной кривой.
Для оценки расхождений в степени крутизны кривых (при одинаковой силе вариации) применяется коэффициент эксцесса Ek:
Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений. Это объясняется тем, что за базу сравнения принята кривая нормального распределения, являющаяся симметричной. Относительно вершины нормальной кривой и определяется выпад вверх или вниз вершины теоретической кривой эмпирического распределения. При этом:
· если Ek>0, то вершина кривой распределения располагается выше вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений близких к средним;
· если Ek<0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от xmax до xmin.
Для нормального распределения Ek=0, поэтому чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального. В частности большая отрицательная величина Ek означает преобладание у признака крайних значений, причем одновременно и более низких, и более высоких. При этом в центральной части распределения может образоваться «впадина», превращающая распределение в двухвершинное (U – образной формы), что является индикатором неоднородности совокупности.
Таким образом, можно сделать следующие выводы:
· Средняя арифметическая признака равна 23370 тыс.руб.
· Стандартное отклонение – 737,47 тыс.руб.
· Мода –24205 тыс.руб.;
· Медиана – 23620,5 тыс.руб.
· Дисперсия -16316026,69 тыс.руб.;
· Среднее квадратическое отклонение – 4039,31 тыс.руб.;
· Коэффициент вариации – 16,99%;
· Коэффициент ассиметрии - -0,15.
· Эксцесс – -0,34
Для показателя среднегодовой стоимости основных производственных фондов средняя арифметическая равна 23370 тыс.руб. Наиболее часто встречаются предприятия со среднегодовой стоимостью в размере 24205 тыс.руб. Половина предприятия имеют среднегодовую стоимость основных фондов больше 23620,5 тыс.руб., а у половины – меньше этого значения.
Значение коэффициента вариации составляет 16,99%, то есть меньше 33 %, что свидетельствует, что колеблемость признака незначительна, распределение признака близко к нормальному, совокупность является количественно однородной по данному признаку.
Значение коэффициента ассиметрии по модулю меньше 0,25, что свидетельствует о том, что ассиметрия незначительна.
Учитывая, что х (23370) < Me (23620,5) < Mo (24205), то можно говорить о том, что имеет место левосторонняя ассметрия. То есть вершина гистограммы сдвинута вправо и левая часть графика длиннее правой.
Анализ статистических показателей совокупности по показателю «Выпуск продукции, тыс.руб.» (таблицы 3 - 5) позволяет сделать следующие выводы:
· Средняя арифметическая признака равна 21782,37 тыс.руб.
· Стандартное отклонение – 879,74тыс.руб.
· Мода – 21710 тыс.руб.;
· Медиана – 21626,50 тыс.руб.
· Дисперсия -23218425,96 тыс.руб.;
· Среднее квадратическое отклонение – 4818,55 тыс.руб.;
· Коэффициент вариации – 21,75%;
· Коэффициент ассиметрии – +0,04.
· Эксцесс – -0,21.
Для показателя выпуска продукции средняя арифметическая равна 21782,37 тыс.руб. Наиболее часто встречаются предприятия с выпуском продукции в размере 21710 тыс.руб. Половина предприятия выпускают продукции на сумму большую 21626,50 тыс.руб., а у половины – меньше этого значения.
Значение коэффициента вариации составляет 21,75%, то есть меньше 33 %, что свидетельствует, что колеблемость признака незначительна, распределение признака близко к нормальному, совокупность является количественно однородной по данному признаку.
Значение коэффициента ассиметрии по модулю меньше 0,25, что свидетельствует о том, что ассиметрия незначительна.
3. На основе рассчитанных показателей оценим:
Для показателя «Среднегодовая стоимость основных производственных фондов, тыс.руб.»
а) показатель колеблемости признака незначительна, т.к. коэффициент вариации равен 16,99 % т.е. находится в пределах 0 – 40 %.
б) совокупность признаков однородна, так как коэффициент вариации вариации равен 16,99 %, т.е. меньше 33 %. Таким образом можно говорить о высокой надежности среднего значения признака.
в) Об устойчивости индивидуальных значений признака свидетельствует отношение линейного и квадратического отклонений.
Для совокупности признака: d / σ = 0,80
Индивидуальные значения признака устойчивы, то есть в рассматриваемой совокупности отсутствуют аномальные значения признаков.
г) Посчитаем количество индивидуальных значений признаков, попадающих в диапазоны:
Интервал |
Границы диапазонов, тыс.руб. |
Количество значений xj, находящихся в диапазоне |
Частота признака, % |
|
верхняя |
нижняя |
|||
х – σ ≤ xi + σ |
19330,69 |
27409,31 |
20 |
66,6 |
х – 2σ ≤ xi + 2σ |
15291,38 |
31448,62 |
28 |
93,3 |
х – 3σ ≤ xi + 3σ |
11252,07 |
35487,93 |
30 |
100 |
Таким образом, соблюдается правило трех σ – в пределах этого диапазона находится 100 % рассматриваемого признака.
Для показателя «Выпуск продукции, тыс.руб.»
а) показатель колеблемости признака незначительна, т.к. коэффициент вариации равен 21,75, т.е. находится в пределах 0 – 40 %.
б) совокупность признаков однородна, так как коэффициент вариации равен 21,75, т.е. меньше 33 %. Таким образом можно говорить о высокой надежности среднего значения признака.
в) Об устойчивости индивидуальных значений признака свидетельствует отношение линейного и квадратического отклонений.
Для совокупности признака: d / σ = 0,77
Индивидуальные значения признака устойчивы, то есть в рассматриваемой совокупности отсутствуют аномальные значения признаков.
г) Посчитаем количество индивидуальных значений признаков, попадающих в диапазоны:
Интервал |
Границы диапазонов, тыс.руб. |
Количество значений xj, находящихся в диапазоне |
Частота признака, % |
|
верхняя |
нижняя |
|||
х – σ ≤ xi + σ |
16963,82 |
26600,92 |
19 |
63,3 |
х – 2σ ≤ xi + 2σ |
12145,27 |
31419,47 |
28 |
93,3 |
х – 3σ ≤ xi + 3σ |
7326,72 |
36238,02 |
30 |
100 |
Таким образом, соблюдается правило трех σ – в пределах этого диапазона находится 100 % рассматриваемого признака.
4. Сравнительная характеристика распределений.
показатель |
«Среднегодовая стоимость основных производственных фондов, тыс.руб.» |
«Выпуск продукции, тыс.руб.» |
V, % |
16,99 |
21,75 |
d |
0.80 |
0.7 |
As |
-0.15 |
0.04 |
4.1. Показатели колеблемости выше у показателя «Выпуск продукции, тыс.руб.», так как коэффициент вариации этого признака равен 21,75% (по сравнению с 17,07 %).
4.2. Совокупность признаков «Среднегодовая стоимость основных производственных фондов, тыс.руб.» более однородна, так как коэффициент вариации этого признака меньше и равен 16,99 % (по сравнению с 21,75 %).
4.3. Индивидуальные значения признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.» более устойчивы, т.к. отношение линейного и квадратического отклонений у этого признака болеьше (0,8 по сравнению с 0,77).
4.4. Показатели симметрии лучше у показателя «Выпуск продукции, тыс.руб.». Так, коэффициент ассиметрии у данного признака 0,04, т.е. график распределения практически симметричен. Для признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.» имеет место левосторонняя ассметрия (т.к. х < Me < Mo), то есть вершина гистограммы сдвинута вправо и левая часть графика длиннее правой.
5. Построим интервальный вариационный ряд и гистограмму распределений единиц совокупности по признаку «Среднегодовая стоимость основных производственных фондов, тыс.руб.».
Интервальный ряд распределения предприятий по стоимости основных производственных фондов |
||
Группа предприятий по стоимости основных фондов |
Число предприятий в группе |
Накопленная частость группы.% |
15020 - 18360 |
4 |
13% |
18360 - 21700 |
5 |
30% |
21700 - 25040 |
11 |
67% |
25040 - 28380 |
7 |
90% |
28380 - 31720 |
3 |
100% |
ИТОГО |
30 |
|
fmo = 11
fmo-1 = 5
fmo+1 = 7
Mo = 21700 + 3340 ∙ (11-5)/ ((11-5) + (11 - 7)) = 23704 тыс.руб.
Значение моды, рассчитанное для сгруппированного ряда (23704 тыс.руб.), отличается от размера моды, рассчитанного для обыкновенного ряда (24205 тыс.руб.) и менее точно в связи с тем, что такой метод расчета является менее точным и служит для упрощения расчетов при большой выборке.
4. Рассчитаем:
-
генеральную дисперсию
для признака «Среднегодовая
стоимость основных производственных фондов, тыс.руб.»:
для признака «Выпуск
продукции, тыс.руб.»:
-
генеральное среднее квадратическое отклонение
для
признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.»:
для
признака «Выпуск продукции, тыс.руб.»:
- ожидаемый размах вариации признаков RN.
для признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.»: R= 6 * σN = 6 * 332 = 24650,2 тыс.руб.
для признака «Выпуск продукции, тыс.руб.»: R = 6 * σN = 6 * 4900,9 = = 29405,4 тыс.руб.
Значение дисперсии генеральной совокупности и выборочной совокупности различаются незначительно.
5. Для изучаемых признаков рассчитаем:
а) среднюю ошибку выборки:
для признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.» 737,47 тыс.руб.
для признака «Выпуск продукции, тыс.руб.» 879,74 тыс.руб.
б) предельную ошибку выборки:
найдем по формуле
t – коэффициент доверия,
для признака «Среднегодовая стоимость основных производственных фондов, тыс.руб.»
- при вероятности p=0,683
t =1,
- при вероятности p=0,954
t =2,
- при вероятности p=0,997
t =3,
для признака «Выпуск продукции, тыс.руб.»
- при вероятности p=0,683
t =1,
- при вероятности p=0,954
t =2,
- при вероятности p=0,997
t =3,
Доверительная вероятность, р |
Коэффициент доверия, t |
Предельные ошибки выборки |
Ожидаемые границы для средних х |
||||
Первый признак |
Второй признак |
Первый признак |
Второй признак |
||||
Верхняя граница |
Нижняя граница |
Верхняя граница |
Нижняя граница |
||||
0,683 |
1 |
699,6 |
848,9 |
22670,40 |
24069,60 |
20933,47 |
22631,27 |
0,954 |
2 |
1399,2 |
1697,8 |
21970,80 |
24769,20 |
20084,57 |
23480,17 |
0,997 |
3 |
2098,8 |
2546,7 |
21271,20 |
25468,80 |
19235,67 |
24329,07 |
6. Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Показатель |
«Среднегодовая стоимость основных производственных фондов, тыс.руб.» |
«Выпуск продукции, тыс.руб.» |
Эксцесс |
-0,34 |
-0,21 |
Асимметричность |
-0,15 |
0,04 |
Выборка предприятий по признаку «Среднегодовая стоимость основных производственных фондов, тыс.руб.» репрезентативна, т.к. дисперсия генеральной совокупности и выборочной совокупности различаются незначительно.
В распределении имеет место левосторонняя ассиметрия. Вершина графика распределения лежит ниже нормальной кривой.
Выборка предприятий по признаку «Выпуск продукции, тыс.руб.» репрезентативна, т.к. дисперсия генеральной совокупности и выборочной совокупности различаются незначительно.
В распределение симметрично, вершина графика распределения лежит ниже нормальной кривой.
Литература
1. Гусаров В.М. Теория статистики. – М.: Аудит, ЮНИТИ, 1998;
2. Едронова В.Н., Едронова М.В. Общая теория статистики: Учебник. – М.: Юристь, 2001;
3. Ефимова М.Р., Петрова Е.В,, Румянцев В.Н. Общая теория статистики: Учебник. – М.: Инфра-М, 1999;
4. Курс социально-экономической статистики / Под ред. Башкатова Б.И. – М.: Юнити-Дана, 2000;
5. Практикум по статистике: Учебное пособие для вузов / Под ред. В.М. Симчеры / ВЗФЭИ. – М.:? ЗАО «Финстатинформ», 1999;
6. Статистика. Компьютерные лабораторные работы: Методические указания к лабораторной работе № 1 «Автоматизированный априорный анализ статистической совокупности в среде MS Excel». – М.: Вузовский учебник, 2005.