Группировка в статистике

4

ТЕМА 4. Группировка

Вопросы

  1. Сводка как один из этапов статистического наблюдения.
  2. Группировка, как составная часть сводки.
  3. Виды группировок:
  • типографическая,
  • структурная,
  • аналитическая.
  1. Виды интервалов группировок и их определение.
  2. Равночастотные группировки и их использование.
  3. Система группировок. Перегруппировка.
  4. Использование дисперсионного анализа в группировках.
  5. Правила оформления таблиц.

Вопрос 1. Статистическая информация фиксируется по мере ее поступления и сбора. Поэтому в первичной информации отсутствует какая-либо закономерность. Исходная информация после проверки ее на достоверность подвергается систематизации. При рассмотрении понятия статистического исследования и его этапов было определено понятие сводки, как второго этапа исследования.

Например, из годовых отчетов выписана информация из формы №9-АПК "Производство и себестоимость продукции растениеводства" по сахарной свекле в хозяйствах Гродненского района, которая фиксировалась без системы. Необходимо установить связи факторов и закономерности в этой информации. Для этого следует как-то систематизировать выписанную информацию, т.е. произвести ее сводку.

Сводка представляет собой комплекс последовательных действий по обобщению конкретных единичных данных, образующих совокупность в целях выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.

Задача сводки – охарактеризовать исследуемый предмет с помощью систем статистических показателей, выявить и измерить существенные черты и особенности изучаемой совокупности.

Эта задача решается на трёх этапах:

  1. систематизация данных, их группировка,
  2. уточнение системы показателей,
  3. исчисление системы показателей и их обобщение.

Сводки различают по глубине обработки статистической информации:

  • простой сводкой является итоговый результат по совокупности наблюдаемых единиц;
  • сложной является сводка не только по всему объекту, но и по частям (группам) объекта, т.е. промежуточным результатам.

Вопрос 2. Впервые необходимость упорядочения большого количества информации возникла в 19 веке в России. Земскими статистиками за 15 лет к концу 1894 года были собраны, обработаны и опубликованы данные подворных переписей крестьянских дворов по 172 уездам (около 4 миллионов дворов). Большой объем информации необходимо было систематизировать для анализа, что и явилось толчком для разработки самого распространенного сегодня статистического метода "Статистические группировки".

Статистическая группировка – это метод, позволяющий выделить из массы первичной статистической информации, однородные группы, обладающие общим сходством в количественном и качественном отношении и позволяющий выделить социально-экономические типы, изучить структуру совокупности и проанализировать связи между отдельными признаками.

Среди разработчиков этого метода можно назвать Орлова Василия Ивановича (1848-1885, Москва), Червинского Петра Петровича (1849-1931, Чернигов) и др.

Группировка как метод сложилась к концу 19 и началу 20 века. Этот метод в своих работах широко использовал В.И.Ленин. В полном собрании сочинений можно найти много цифрового материала, отражающего экономическую или политическую ситуацию в различных государствах того времени. Примером может служить группировка фермерских хозяйств США по размеру земельной площади и стоимости производимого продукта (В.И.Ленин, полн.собр. соч., т 27,с 190).

Таблица.

Влияние размеров ферм на уровень интенсивности земледелия (США, 1900 г.).

Группы ферм по размеру земельной площади

Приходится на 1 акр всей земли в долларах

Расходы на наемный труд

Расходы на удобрения

Стоимости всего скота

Стоимости орудий и машин

До 3 акров

40,30

2,36

456,76

27,57

От 3 до 10 акров

2,95

0,60

16,32

6,71

10-20

1,12

0,33

8,30

2,95

20-50

0,55

0,20

5,21

1,65

50-100

0,46

0,12

4,51

1,47

100-175

0,45

0,07

4,09

1,14

175-260

0,52

0,07

3,96

1,00

260-500

0,48

0,04

3,61

0,77

500-1000

0,47

0,03

3,16

0,57

1000 и более

0,25

0,02

2,15

0,29


Таблица.

Влияние размеров ферм на уровень интенсивности земледелия (США, 1900 г.).

Группы ферм по стоимости продукта, долл.

Приходится на 1 акр всей земли, долларов

расход на наемный труд

расход на удобрение

стоимости всего скота

стоимости орудий и машин

0

0,08

0,01

2,97

0,19

1-50

0,06

0,01

1,78

0,38

50-100

0,08

0,03

2,01

0,48

100-250

0,11

0,05

2,46

0,62

250-500

0,19

0,07

3,00

0,82

500-1000

0,36

0,07

3,75

1,07

1000-2500

0,67

0,08

4,63

1,21

2500 и более

0,72

0,06

3,98

0,72

Эти таблицы позволяют сделать определенные выводы о том, насколько крупные фермерские хозяйства и эффективно ли они работают.

Как метод статистического анализа группировка позволяет решить следующие задачи:

1.выделить социально-экономические типы,

2.изучить структуру однотипной совокупности,

3.обнаружить и изучить существующие связи и зависимости между признаками исследуемого явления.

Исходя из этого, определяется три вида или типа группировок:

  1. типологическая,
  2. структурная,
  3. аналитическая.

Признак (статистический показатель), который положен в основу проведения группировки, называют группировочным признаком. Как правило, это наиболее важный технологический или экономический показатель, соответствующий целям исследования. От степени сложности изучаемого массового явления и от задач анализа группировки могут быть простыми, то есть по одному группировочному признаку и сложными или комбинационными (по двум или более группировочным признакам)

Рассмотрим все виды группировок.

Типологической принято считать группировку совокупности на классы, социально-экономические типы, однородные группы

Например, группировка студентов по полу и анализ успеваемости по различным дисциплинам.


Таблица

Успеваемость студентов экономического факультета.

Пол

Количество, чел.

Средний балл успеваемости по предметам

Высшая математика

Философия

Микроэкономика

Экономическая теория

Девушки

81

3,75

4,27

4,21

4,09

Юноши

49

4,01

4,00

4,19

3,96

В данном примере группировка студентов проведена по признаку, который не имеет числового значения, причем пол студента рассматривается как факторный признак, а успеваемость – как результативный. По результатам группировки можно сказать, что в данной группе студентов девушки более добросовестно относятся к учебе, но юноши превосходят их в точных науках (математике).

Но выбор типа не так прост, как кажется на первый взгляд. Например, как произвести группировку продукции по сортам? Здесь надо учитывать много показателей и государственные стандарты на их величину. Поэтому в типологических группировках группировочные признаки делят на атрибутивные и количественные.

Если группировочный признак атрибутивный (сорт, порода, форма собственности, и др.), то единица совокупности или обладает этим признаком или нет.

Если группировочный признак числовой, то возникает проблема:

  1. как определить число групп (интервалов),
  2. какие должны быть границы группировочного признака.

Поэтому

  1. Число интервалов при типологической группировке должно соответствовать числу предварительно намеченных частных совокупностей.
  2. Границы интервалов подбирают и устанавливают такими, что переход через них означает переход к иному типу или в новое качество.

Примером такой группировки могут служить группировки продукции по ее качеству или сортам. Государственными стандартами на сельскохозяйственную продукцию предусмотрены параметры по очень многим показателям, отражающим чистоту продукции от химических элементов, которые могут в последствии принести вред здоровью человека.

Следующий вид группировки – это структурная группировка.

Группировка, расчленяющая однородную совокупность единиц по долям признака, выраженного в процентах, называется структурной или вариационной.

Примером может служить группировка работников по стажу работы.


Таблица

Группировка рабочих по стажу работы

Группы по стажу работы, лет

Удельный вес численности работников, %

Базисный год

Текущий год

0 – 4

21,7

23,2

5 – 9

15,5

9,1

10 – 14

13,8

9,1

15 – 19

20,4

12,1

20 – 24

22,7

22,7

25 – 29

4,7

19,2

30 – 34

1,5

4,6

Итого

100%

100%

Для построения такой группировки необходимо знать численность рабочих каждого интервала по стажу работы. Анализ таблицы позволяет сделать вывод о том, что на предприятии увеличились доли работников с небольшим стажем и людей предпенсионного и пенсионного возраста, что для предприятия не может считаться положительной динамикой, так как производительность труда этих групп работников всегда минимальна.

В аналитической группировке группировочный признак Хi может принимать любое числовое значение на каком-то промежутке от Хmin до Xmax. Группировочный признак выбирается с учетом цели и задач исследования.

Аналитическая группировка позволяет установить связи и зависимости между явлениями и признаками. В аналитической группировке выделяют два вида признаков:

  1. факторные,
  2. результативные.

Факторным является тот признак, который оказывает влияние на изменение других показателей.

Результативные признаки сами изменяются под влиянием факторных.

Чаще всего в аналитической группировке в качестве группировочного показателя выбирают факторный признак. Однако это необязательно. В аналитической группировке устанавливается:

  1. наличие связей между показателями,
  2. достоверность установленных связей,
  3. направление связи (прямая или обратная),
  4. тесноту связи.

Независимо от вида группировки в каждой из них должно быть указано:

  1. количество единиц совокупности в каждой группе,
  2. группировочный признак, и если он числовой, то его интервал и среднее значение для каждой группы,
  3. система технолого-экономических показателей, характеризующих совокупность и отражающих связи признаков,
  4. итоговые строки и (или) графы.

Группировка должна быть оформлена в виде таблицы с учетом всех требований ГОСТа (см. вопрос 8).

Вопрос 4. Проблема интервала группировочного признака и количества групп в группировке решается в зависимости от типа (вида) группировки.

В типологической группировке по атрибутивному показателю число групп соответствует количеству признака, и каждая единица совокупности проверяется на наличие признака (например, период лактации у коров, или наличие сортов растениеводческой культуры). Если группировочный признак числовой, то, как правило, он принимает 1-4 значения, установленных нормативными документами (например, базисная жирность молока).

В структурной или вариационной группировке, как правило, весь объем группировочного признака принимается за 100% или 1, а затем находятся его доли, которые и определяют число групп.

В аналитической группировке по количественному признаку число групп и величины интервалов зависят от задачи исследования и колеблемости группировочного признака и может быть определёно несколькими способами:

экспериментатором – исследователем, используя формулу

2) с использованием формулы Г.С.Стерджесса (америк.)

пусть N – число единиц анализируемой совокупности, тогда число групп найдем по формуле n = 1 +3.322 lgN, а величина интервала тогда определится по формуле:

Эта формула даёт хорошие результаты, когда N – достаточно велико, а распределение группировочного показателя подчиняется нормальному закону (Гаусса).

3) С произвольными интервалами разбивается совокупность, если она мала по объему или группировочный признак имеет сильную колеблемость и неравномерность.

Интервалы группировок бывают:

Равные и неравные; открытые и закрытые, например:

0–10 0–10 до10

10–20 10–15 10–15

20–30 15–27 15–27

........ 27–40 свыше 27

80–90

ПРИМЕЧАНИЯ:

Числа, повторяющие границу, входят в интервал, где они являются нижней границей.

Группировка не допускает групп, где число единиц совокупности равно 1 или 0. Такая ситуация возникает, если распределение группировочного признака крайне неравномерно.

При проведении группировки по количественному признаку удобно использовать ранжировку группировочного признака, то есть упорядочение единиц совокупности в порядке возрастания или убывания группировочного показателя.

Вопрос 5. Чаще всего в экономическом анализе одну и туже совокупность нужно систематизировать (группировать) по различным существенным показателям, т.е. образовать систему группировок.

Система группировок – это ряд взаимосвязанных статистических группировок по наиболее характерным, существенным признакам, всесторонне отражающим важнейшие стороны изучаемых процессов и явлений.

Например, совокупность колхозов Гродненской области можно группировать по площади сельскохозяйственных угодий, по баллу пашни, по поголовью животных и т.д., т.е. получить систему группировок, оценивающих наличие ресурсов и эффективность их использования.

При сравнении различных совокупностей или одной и той же совокупности, но за разные периоды времени может возникнуть проблема: сравнение различных группировок с разными интервалами.

Например:

Распределение рабочих двух сельскохозяйственных предприятий по уровню средней заработной платы, денежных единиц.

Таблица

Сравнительный анализ по оплате труда

Колхоз "Заря"

Колхоз "Победа"

Группы по заработной плате

Удельный вес, %

Группы по заработной плате

Удельный вес, %

До 100

1

До 100

1

100 - 120

1

100 - 150

27

120 -140

10

150 – 200

36

140 - 160

14

200 - 250

24

160 - 180

10

250 - 300

8

180 - 200

18

Свыше 300

4

200 - 220

13

220 - 240

12

240 - 260

6

260 - 280

4

280 - 300

5

Свыше 300

6

итого

100

итого

100

По имеющимся результатам сложно произвести сравнение и оценить, где оплата труда выше. Следует привести информацию к сопоставимому виду. Если имеется вся исходная информация и группировка проводится на персональном компьютере, то перегруппировку можно произвести для обеих совокупностей и с любым одинаковым интервалом. В нашем случае это невозможно.

Получение новых групп на основании имеющихся возможно двумя способами:

  1. перегруппировка по величине интервалов первичной группировки,
  2. перегруппировка по удельному весу отдельных групп, в общем их итоге.

В нашем случае есть возможность произвести перегруппировку информации, укрупнив интервалы в первой совокупности (колхоз Заря).

В таблице видно, что первые группы совпадают, а далее трансформируем интервалы первого хозяйства в интервалы второго колхоза. Там, где границы совпадают, оставляем их без изменения. Если интервал необходимо разделить на две части, то делим его пополам. В результате получим вторичную группировку с укрупненными интервалами по колхозу "Заря".

Таблица

Вторичная группировка по средней заработной плате

Группы по оплате труда

Колхоз "Заря", %

Колхоз "Победа", %

До 100

1

1

100–150

1+10+7=18

27

150–200

7+10+18=35

36

200–250

13+12+3=28

24

250–300

3+4+5=12

8

Свыше 300

6

4

Итого

100

100

По результатам вторичной группировки можно сделать вывод, что оплата труда выше в колхозе "Заря", так как там больше доля работников с более высокой оплатой труда.

Вопрос 6. Иногда приходится проводить исследование в совокупности, где распределение группировочного признака крайне неравномерно. Например,

В журнале «Финансовые известия» № 5, 1994, дана информация по пятистам крупнейшим компаниям Европы по размеру капитала, в млрд. $. Эти компании могут быть сгруппированы следующим образом с использованием формулы Стерджесса:


Таблица

Распределение компаний по размеру капитала

№ п/п

Группа по размеру капитала, млрд. $

Число компаний

Доля в % к итогу

1

До 9

439

87.8

2

9-18

41

8.2

3

18-27

12

2.4

4

27-36

6

1.2

5

36-45

1

0.2

6-9

45-81

-

-

10

81 и более

1

0.2

итого

500

100

Компании распределились по группам неравномерно, а четыре группы являются пустым множеством. Однако рассматривать совокупность без последней компании нельзя, так как на рынке производства и сбыта продукции эта компания может быть "законодателем моды". Поэтому в анализе таких совокупностей прибегают к равночастотным группировкам, т.е. таким, когда в каждой группе одинаковое или почти одинаковое число единиц. Следовательно, в рассматриваемом примере компании можно распределить иначе.

Таблица

Равночастотная группировка компаний.

№ п/п

Число компаний

Интервал капитала, млрд. $,

Сумма их капитала в млрд. $

Доля к итогу капитала 500 компаний в %

1

50

0.93–1.08

50

2.12

2

50

1.08–1.33

60

2.54

3

50

1.33–1.55

72

3.05

4

50

1.55–1.95

86

3.51

5

50

1.95–2.24

103

4.33

6

50

2.24–2.83

126

5.34

7

50

2.83–3.85

167

7.08

8

50

3.88–5.73

229

9.70

9

50

5.78–10.50

379

16.06

10

50

10.50–80.78

1092

46.27

Всего

500

2364

100

При наличии такой группировки можно проводить более глубокий анализ. Видно, что даже среди крупнейших компаний капитал распределён крайне не равномерно. В первой группе всего 2,12% всего капитала, то в десятой – 46,27%.

Вопрос 7. В результате проведения анализа показателей, включенных в группировку можно установить наличие связей межу ними. Однако наши выводы о наличии связей могут оказаться ошибочными. Поэтому установленные связи должны быть подтверждены с помощью критериев достоверности или другими статистическими методами. Если группировочный признак является факторным, а остальные показатели, включенные в анализ – результативные признаки, то достоверность зависимости результатов от фактора можно доказать с помощью критерия Фишера.

В экономическом анализе принято предполагаемое утверждение называть рабочей гипотезой. В противовес рабочей гипотезе о наличии связей между признаками может быть установлена "нуль-гипотеза", утверждающая отсутствие достоверных связей между анализируемыми показателями.

Немецкий статистик и экономист Вильгельм Лексис (1837–1914) вывел широко известное правило сложения дисперсий, которое было центральным местом в теории устойчивости (теории дисперсий).

В предыдущих темах мы уже рассмотрели показатели вариации, особое место среди которых занимает дисперсия. Но вариация результативного показателя обычно обусловлена многими факторами, которые могут быть разделены на две большие группы: систематические и случайные. И очень важно уметь из общего объёма влияния выделить вариацию за счёт постоянно действующих факторов.

Из темы "Показатели вариации" мы знаем, как определить общую дисперсию признака, отражающую объем вариации показателя независимо от факторов на него влияющих. Используем ту же систему обозначений, что и теме "Средние величины и показатели вариации".

где Хi – значение анализируемого показателя у каждой единицы объекта, Хобщ – среднее значение показателя по всей совокупности,

f– частота значений анализируемого показателя.

Дисперсия, отражающая вариацию результата под воздействием какого-то фактора, называется межгрупповой или факторной. Ее вычисляют по формуле:

где - среднее значение показателя в каждой группе.

Однако на результативный показатель влияет не только группировочный фактор, рассматриваемый в анализе, но и другие факторы. Кроме того, всегда присутствует случайная колеблемость анализируемого показателя. Сила случайной (остаточной) колеблемости оценивается по величине остаточной дисперсии, которую можно вычислить двумя способами.

При первом – используем правило сложения дисперсий, которое рассматривается в курсе математической статистики:

Из нее получаем формулу для расчета остаточной дисперсии:

Однако, такая последовательность расчетов дисперсий не позволяет выявить ошибки расчетов. Поэтому лучше остаточную дисперсию вычислить по формуле средней взвешенной из внутригрупповых дисперсий, а затем проверить правильность расчетов по формуле сложения дисперсий.

На базе полученных дисперсий вычисляют значение F–критерия (критерия Фишера) по одной из формул:

Символом "" обозначается "число степеней свободы". В группировке

м.г. = m – 1, m – число групп

ост. = n – m , n – объём изучаемой совокупности

Значение F–критерия можно вычислить по одной из формул:

В учебниках по теории статистики для обозначения числа степеней свободы часто используют следующие символы:

k1, или 1, или м.г.

k2, или 2 , или ост.(случ)

Отношение называется средним квадратом и часто обозначается как , тогда

F-критерий можно рассчитать, используя значение такого показателя тесноты связи, как индекс детерминации (см. ниже по тексту):

Расчетное значение F-критерия необходимо сравнить с табличным значением критерия Фишера. Табличное значение F-критерия находим по таблицам Фишера, определив столбец по значению м.г. и строку по ост.

Если Fрасчетное > Fтабл., то подтверждается рабочая гипотеза о наличии связи между показателями и опровергается "нуль-гипотеза".

Если Fтабл. F расч. , то подтверждается "нуль-гипотеза" и опровергается рабочая.

Если установлена достоверная связь показателей, то нужно установить тесноту связи, используя эмпирические коэффициенты корреляции и детерминации.

Эмпирический коэффициент корреляции отражает силу связи.

Если 0< 0.3 – связь слабая

0.3 ‹ 0.7 – связь средняя

0.7 ‹ 1 – связь тесная

Эмпирический коэффициент корреляции вычисляют по формуле:

Эмпирический коэффициент детерминации 2 показывает, какая часть вариации результативного показателя зависит от вариации факторного признака. Он может быть выражен в процентах.

Например, среди работников на предприятии есть прошедшие обучение в СПТУ и есть прошедшие обучение непосредственно в хозяйстве. Известна производительность труда всех молодых механизаторов и необходимо установить зависит ли их производительность труда от формы подготовки.

Таблица

Анализ производительности труда

Способ подготовки механизаторов

Произведено продукции, усл. ед.

Число механизаторов, человек

Общий объем выполненных работ, усл.ед.

Расчетные показатели

Обозначения

i

xi

fi

xi·fi

xi-

(xi-·fi

(xi-·fi

(xi-·fi

СПТУ

1

8

8

64

-2,73

59,623

Х

39,605

2

9

11

99

-1,73

32,922

16,507

3

11

6

66

+0,27

0,437

3,604

4

12

15

180

+1,27

24,194

47,259

Итого и в среднем

10,225

40

409

Х

Х

10,201

106,975

Ученичество

5

9

17

153

-1,73

50,879

Х

74,970

6

10

18

180

-0,73

9,592

21,780

7

12

14

168

+1,27

22,581

11,340

8

15

11

165

+4,27

200,562

167,310

Итого и в среднем

11,100

60

666

Х

Х

8,214

275,400

Всего и в среднем

10,730

100

1075

Х

400,790

18,415

382,375

Расчеты по группировке.

Средние значения производительности труда в группах и в целом по совокупности найдем по формуле средней арифметической взвешенной:

=

Вычислим все необходимые дисперсии. Причем остаточную дисперсию рассчитаем двумя способами и проверим выполнение правила сложения дисперсий.

или

Установим достоверность зависимости производительности труда молодых механизаторов от формы подготовки, используя F-критерий.

Fрасч>Fтабл

Поскольку Fрасч. > Fтабл., можно утверждать, что действительно, производительность труда молодых механизаторов зависит от формы подготовки, т.е. "нуль-гипотеза" является несостоятельной.

Эмпирические коэффициенты корреляции и детерминации показывают, что связь между анализируемыми показателями слабая (=0,214) и вариация производительности труда только на 5% зависит от формы подготовки механизаторов.

Вопрос 8.

Статистическая таблица является наиболее компактной формой представления информации. Кроме того, в статистических исследованиях используются промежуточные расчетные таблицы, которые позволяют упростить математические вычисления или использовать электронные таблицы ПК. Виды таблиц весьма разнообразны, но ко всем предъявляются некоторые стандартные требования.

  1. Если таблиц много, то они должны быть пронумерованы.
  2. Каждая таблица должна иметь заголовок, отражающий ее суть. Заголовок может содержать указание на объект, время и место исследования.
  3. Заголовки граф и строк должны быть краткими и не допускают сокращений, кроме общепринятых.
  4. Графы и строки должны содержать единицы измерения проставленные через запятую (например: Численность работников, чел.)
  5. Округление чисел в пределах одной и той же строки или графы следует проводить с одинаковой степенью точности.
  6. Отсутствие числового значения в зависимости от причины может быть отмечено следующими символами:

а) "Х" – если позиция в таблице не подлежит заполнению,

в) "…" или "нет свед.", или "н.св." – если отсутствуют сведения,

с) "–" при отсутствии явления.

  1. Если числовое значение показателя очень мало по сравнению с другими значениями, то используют обозначения "0,0" или "0,00".
  2. Таблицы должны содержать итоговые строки и графы.
  3. Желательно, чтобы таблица целиком размещалась на странице.
  4. Допускается расположение таблицы поперек страницы.
  5. Если таблица не помещается на одной странице, то допускается перенос ее части на другую страницу с указанием на то, что это продолжение таблицы с номерами граф.
  6. В тексте кроме ссылки на таблицу должен быть дан ее анализ.

Группировка в статистике