Учебное пособие: Статистические наблюдения
Название: Статистические наблюдения Раздел: Рефераты по экономике Тип: учебное пособие | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ТЕМА 1. ПРЕДМЕТ, МЕТОД И ЗАДАЧИ СТАТИСТИКИ Gegenstand, Methoden und Aufgaben der Statistik Subject matter, methods and tasks of statistics 1.1. Предмет статистики Статистика (Statistik, Statistics) – это самостоятельная наука, которая изучает количественную сторону социально-экономических явлений и процессов, их закономерности, влияние общественной жизни на окружающую среду и обратное влияние. В научный обиход термин "статистика" был введен в середине ХVIII века немецким ученым Г. Ахенвалем. Статистика занимается анализом, представлением и интерпретацией числовых данных. Своеобразие статистических закономерностей проявляется в том, что: 1) мы имеем дело с массой случаев. В единичных случаях они могут и не действовать; 2) механизм действия статистических закономерностей не всегда ясен, но они настолько устойчивы, что мы можем ими пользоваться. Пример. На 12 девочек рождается 13 мальчиков. При исследовании тенденций и закономерностей статистика опирается на закон больших чисел. Сущность закона больших чисел: при суммировании данных по достаточно большому числу случаев (единиц статистической совокупности) различия отдельных единиц взаимно погашаются и в общих средних числах выступают существенные, характерные черты и взаимосвязи явления в целом. Т.е. совокупное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая. Место статистики среди других экономических дисциплин: с одной стороны, является вспомогательной по отношению к экономической теории, экономике предприятия, менеджменту (приводит первичные данные в удобную для анализа и принятия решений форму), с другой стороны, является базовой по отношению к частным разделам статистики, например, отраслевым статистикам – макроэкономической, статистики промышленности, населения и др. Статистика делится на две составные части: дескриптивную (описательную, descriptive, descriptive) и индуктивную (выводную или аналитическую, induktive, inferential)). Исторически развитие статистики связано с потребностями государства (status – политическое состояние, stato– государство). Описание явлений, связанных с деятельностью государства – хозяйственного механизма, функционирования экономики, результатов социально-экономического развития – дало название одному из двух основных разделов общей теории статистики – описательной статистике. Индуктивная или выводная статистика отражает математическое направление в статистике. С ее помощью по части данных определяются показатели всей совокупности. Статистика Дескриптивная Индуктивная (описательная) (выводная) Статистика изучает только совокупность явлений. Совокупность (StatistischeMasse, Statisticalpopulation) – это множество однокачественных варьирующих единиц. Единица (StatistischeEinheit, Statisticalunit)– это предел дробления совокупности, при котором сохраняются все свойства рассматриваемого явления или процесса. Единицы совокупности обладают свойствами или признаками. Признак (Merkmal, Feature)– это то, с помощью чего статистика изучает явление или процесс. Результатами измерения признаков являются статистические показатели (Kennzahlen, Indicators). Показатель – это количественная оценка свойств изучаемого явления. Пример. Студенты МИЭПМ ННГАСУ на потоковой лекции по статистике образуют статистическую совокупность. Единицами совокупности являются отдельные студенты, признаком – например, возраст, показателем – средний возраст студента на потоке. Количественные изменения значений признака при переходе от одной единицы совокупности к другой называется вариацией (Streuung,Variation). Именно вариация обуславливает необходимость статистики. Классификация признаков: 1) По характеру выражения: количественные признаки (выражаются в числовом значении) - дискретные (количество автомобилей в семье, ед.) - постоянные (непрерывные) (возраст) качественные признаки (атрибутивные) выражают смысл понятиями (наличие театров в Нижнем Новгороде по видам) 2) По роли в статистическом исследовании: основные и второстепенные 3) По способу измерения: первичные и вторичные. Первичные признаки характеризуют абсолютные размеры социально-экономических явлений (протяженность заасфальтированных дорог в муниципальном образовании или численность сотрудников хозяйствующего субъекта). Вторичные (расчетные) признаки образуются в результате соотношения первичных признаков (например, отношение объема собранного урожая к размеру посевной площади дает показатель урожайности). 4) По отношению ко времени: моментные (объем вкладов населения в Сбербанке РФ на 1.01.200 __ г.) и интервальные (объем инвестиций в регионе N за 200__ г.) 5) По измеримости признаки делятся на: - номинально измеряемые, (можно ответить только на вопрос: есть ли данный признак или нет); - ординально измеряемые, порядковая шкала (можно провести ранжирование); - метрически измеряемые, интервальная шкала (можно не только ранжировать, но и определить расстояние между отдельными значениями признака, т.е. величину интервала). Пример. Таблица 1.1. Сведение о сотрудниках консалтинговой фирмы ООО "Зефиров и компания"
В приведенных в табл. 1.1 сведениях статистической совокупностью являются все сотрудники фирмы, единицей совокупности – отдельные работники. Пол, подразделение - номинально измеряемые признаки, мотивация – ординально измеряемый, возраст, стаж и зарплата – метрически измеряемые признаки. Процесс изучения социально-экономических явлений посредством системы статистических методов и системы показателей называется статистическим исследованием (StatistischeUntersuchung, Statisticalinvestigation, inquiry). Статистическое исследование представляет собой определение потребностей заказчика исследования, целей и задач; проведение наблюдения; обработку и анализ данных; интерпретацию и презентацию результатов исследования. В случае необходимости статистическое исследование может содержать дополнительный этап – статистический прогноз. 1.2 Методы статистики На стадии сбора информации используются различные методы наблюдения. На стадии обработки информации - методы сводки, группировки, построения таблиц и графиков. На стадии анализа и интерпретации данных – методы абсолютных и относительных величин, корреляционный и регрессионный анализ, анализ рядов динамики, индексный метод и т. д. Индуктивная (выводная) статистика широко использует методы теории вероятностей, теорию выборки, статистическую проверку гипотез. В последнее время используются также методы высшей математики: методы оптимального программирования, теория распознавания образов и др. 1.3 Задачи статистики Главной целью статистики является подготовка обозримой, надежной и достоверной информации для принятия управленческих решений. К основным задачам статистики относятся: 1) обеспечение хозяйствующих субъектов надежной информацией; 2) выявление ресурсов развития и резервов повышения эффективности; 3) обобщение и прогнозирование тенденций развития экономики; 4) всестороннее исследование происходящих в обществе процессов; 5) обеспечение достоверности, качества и доступности информации. Областями применения статистических методов служат: - национальная экономика (макроэкономические показатели, например, ВВП и ВНП, индексы цен, показатели занятости, экспорта-импорта и т.д.), - экономика предприятия (микроэкономические показатели, например, по производству, сбыту, управлению персоналом, контролю качества и т.д.), - общественные науки (методы эмпирического исследования, например, в социологии – поведение в группе, в психологии – тесты на проверку гипотез, в педагогике – измерение результата обучения), - естественные науки (химия, физика – экспериментальные исследования, биология, медицина - классификации, экспериментальные исследования), - инженерные науки (экспериментальные исследования, контроль качества). 1.4 Организация статистики Выделяют следующие организационные составляющие статистики: 1) государственная и муниципальная статистика; 2) ведомственная статистика; 3) частная и неофициальная статистика. Первые две составляющие образуют официальную статистику. Нижний уровень официальной статистики – это районные отделы и управления статистики. Далее следуют статистические комитеты субъектов федерации (в Нижегородской области, например, Нижегородский областной комитет государственной статистики), Госкомстат РФ, Статкомитет СНГ, Евростат, Статистическая комиссия ООН. Ведомственная статистика ведется на предприятиях, в организациях, ведомствах, министерствах, например, в Центральном банке (банковская статистика) или в Таможенном комитете (таможенная статистика). Основными статистическими продуктами являются: - макроэкономические показатели, - отраслевые данные, - социальные статистика и статистика уровня жизни, - межрегиональные международные сравнения. Они выходят в виде докладов, сборников, бюллетеней, аналитических записок, экспресс-информации. В процессе сбора и предоставления статистических данных роль официальной статистики можно интерпретировать как посредническую. Она собирает данные на микроуровне, агрегирует их и предоставляет на макроуровне в распоряжение конечных потребителей для анализа и расчетов (см. рис. 1.1.)
микроданные макроданные Рис.1.1. Посредническая роль официальной статистики Источник: П. фон дер Липпе (1995), с.16 Важная особенность официальной статистики состоит в том, что обследования проводятся на основе законодательных и нормативных актов, что дает возможность требовать от респондентов предоставления необходимых сведений при одновременной обязанности конфиденциальности индивидуальных данных. Неофициальная статистика, напротив, занимается статистическим анализом данных официальной статистики для специальных целей. К организациям, занимающимся неофициальной статистикой относятся научно-исследовательские организации, консалтинговые агентства по изучению общественного мнения и проведению опросов, союзы и объединении предприятий. Примеры: Рейнско-Вестфальский институт экономических исследований RWI (Эссен), Российский союз предпринимателей и промышленников (Москва), НФ ВЦИОМ (Нижний Новгород) являются представителями неофициальной статистики. ТЕМА 2. СТАТИСТИЧЕСКОЕНАБЛЮДЕНИЕ 2.1 Формы, виды и способы статистического наблюдения Наблюдение является первой важной стадией статистического исследования и одновременно – одним из главных методов статистики. Наблюдение (Erhebung, Observation)– это планомерно организованный сбор массовых данных о явлениях и процессах общественной жизни. Наблюдение осуществляется в трех организационных формах: 1) Отчетность; 2) Обследование; 3) Регистр. Отчетность – основная форма. Представляет собой изучение документов с различными статистическими сведениями. Пример: формы статистической отчетности предприятий, организаций, учреждений № П-1, № 5-з и др. Обследование – специально организованное наблюдение. Пример: перепись населения. Регистр – форма непрерывного наблюдения за статистическими совокупностями с фиксированным началом и концом. Пример: Единый государственный регистр предприятий, организаций, учреждений и объединений, созданный с целью обеспечения единого государственного учета хозяйствующих субъектов. (ЕГРПО). Виды статистического наблюдения: I. По времени регистрации фактов 1) текущее наблюдение (непрерывное) – ведется постоянно, по мере возникновения, наступления явления. Пример: ЗАГС; 2) периодическое – через одинаковые промежутки времени. Пример: определение уровня цен в розничной торговле; 3) единовременное (разовое) - служит для решения каких-либо отдельных задач, повторяется через неопределенный промежуток времени по мере надобности. Пример: единовременный учет студенческих эстрадных театров. II. По охвату единиц совокупности 1) сплошное – обследуются все единицы совокупности. Пример: перепись населения; 2) несплошное – обследуется определенная часть единиц совокупности, возможно распространение результатов на всю совокупность. К несплошным видам наблюдения относятся: -выборка – отбор изучаемой части совокупности с помощью специальных методов (см. тему 11). Пример: опрос общественного мнения; -основной массив – обследуется та часть единиц совокупности, которая вносит наибольший вклад в изучаемое явление. Пример: изучение особенностей урбанизации по городам-миллионникам. -монографическое обследование – обследуется одна единица совокупности ради самой этой единицы, очень подробно. Пример: одна семья при предварительном бюджетном обследовании. 3) частичное (изучение части совокупности ради самой этой части). Пример: обследование крупных городов. Преимущества и недостатки сплошного и несплошного наблюдений: - Сплошное наблюдение: охватывает все единицы совокупности. Собранный материал точно соответствует цели обследования; оно более дорогостоящее и занимает больше времени; оно не всегда может охватить все элементы совокупности. сравнительно продолжительное время обработки результатов сплошного наблюдения может понизить актуальность выводов. - Несплошное наблюдение: опасность плохой репрезентативности (часть неточно представляет всю совокупность); могут быть упущены некоторые существенные признаки и таким образом искажены результаты. Первичная и вторичная статистика. С первичной статистикой (Primärforschung, Fieldresearch) мы имеем дело, когда материал для статистического обследования собирается специально. Вторичная статистика (Sekundärforschung, Deskresearch) использует уже собранный материал, даже если он собран для других целей. Пример: Предприятие розничной торговли хочет открыть филиал в новом микрорайоне. Информацию о структуре населения микрорайона оно может получить по результатам собственного опроса (первичная статистика), или по документам паспортного стола (вторичная статистика). Данные первичной статистики точно совпадают с целью исследования, но требуют высоких временных и финансовых затрат в отличие от данных вторичной статистики. Способы статистического наблюдения (регистрации данных): непосредственное, документальное, опрос и эксперимент. Непосредственное наблюдение (unmittelbareBeobachtung, directobservation) осуществляется путем регистрации фактов лично исследователем. Пример: изучение счетчиками интенсивности пассажиропотока. При документальном наблюдении (dokumentaleBeobachtung, documentaryobservation) источниками являются документы первичного учета (например, инвентарные карточки). Опрос (Befragung, Census) – это получение сведений со слов респондента. Выделяют - анкетный – вопросники письменно заполняют сами респонденты, как правило, анонимно и добровольно., - корреспондентский – сведения сообщают добровольные корреспонденты, - экспедиционный или устный опрос – счетчики получают устные ответы и сами фиксируют их в формуляре, - явочный опрос – предоставление сведений в явочном порядке, например, при регистрации брака. В последнее время все шире применяются интерактивные формы опроса – по телефону, электронной почте, в сети Internet. Эксперимент (Experiment) – получил распространение в естественных науках. 2.2 Программа статистического наблюдения Она включает в себя две основные части: 1) методическую (что мы хотим изучить?) 2) организационную (кто, когда, где и как будет проводить наблюдение?) В методической части определяются: Цель - получение достоверной информации о развитии явлений и процессов; задачи – пути достижения цели; объект и единица наблюдения. Объект – это исследуемая статистическая совокупность. Единица наблюдения – первичный элемент объекта или элемент совокупности, по которому собираются необходимые данные. Необходимо отличать единицу наблюдения от отчетной единицы. Отчетная единица – единица, предоставляющая статистические данные, может состоять из нескольких единиц совокупности, а может и совпадать с единицей совокупности. Например, при обследовании населения единицей может быть член домашнего хозяйства, а отчетной единицей – само домохозяйство. перечень признаков (вопросов), подлежащих регистрации в процессе наблюдения, т.е. так называемая программа наблюдения. Пример программы наблюдения: переписные листы при проведении переписи населения осенью 2002 г. Важное значение имеет формулировка вопросов наблюдения. Обычно соблюдают следующие правила: - не задают вопросов "на всякий случай"; - не задают вопросов, на которые заведомо нельзя получить ответ; - не задают вопросы, вызывающие настороженность и подозрение. Пример: прямой вопрос о Вашей заработной плате за месяц лучше заменить на косвенный вопрос о размере расходов за месяц. Далее, рекомендуется формулировать вопросы как можно более проще и понятнее. Вопросов должно быть ровно столько, чтобы достичь цели наблюдения. По возможности вопросы формулируются коротко и точно. Контрольные вопросы дополняют обычные вопросы так, чтобы из ответов на них можно было сделать вывод о правдивости всех ответов. Вопросы располагаются в порядке, облегчающем оценку ответов. Вид анкеты (бумага, шрифт, оформление и т.д.) должны соответствовать целевым группам наблюдения. В организационной части (организационном плане): - указываются органы, выполняющие наблюдение, четко определяются и разграничиваются их права и обязанности, - формируется кадровый состав, - устанавливается время и срок проведения наблюдения (время, в течение которого заполняются статистически формуляры). Пример:9 -16 октября 2002 года – Всероссийская перепись населения, - критическая дата, критический момент – для величин состояния, запаса. Это момент времени, на который регистрируют явление. Пример: 0 часов 9 октября 2002 года во время переписи населения; - интервал времени – для потоковых величин; - определяется список объектов и их местонахождение; - подготавливаются бланки, инструкции, формы, переписные листы и т.п.; - расписывается бюджет наблюдения. 2.3 Ошибки и контроль статистического наблюдения Ошибки (Fehler, Errors) – это расхождение между расчетным и действительным значениями изучаемой величины. Существуют ошибки: 1) регистрации – ошибки наблюдения, которые всегда могут произойти. Они в массе случаев погашаются. Пример: описка регистратора ЗАГСа. 2) репрезентативности – ошибки, которые встречаются при несплошном обследовании, когда часть плохо представляет целое. 3) случайные – ошибки под влиянием случайных факторов. Пример: ошибка счетчика вследствие усталости; 4) систематические – ошибки, ведущие по тенденции к завышению или занижению значений показателей. Пример: округление возраста на цифрах, оканчивающихся на 5 и 0. Систематические ошибки бывают преднамеренными и непреднамеренными. И ошибки регистрации, и ошибки репрезентативности бывают случайными и систематическими Существуют два способа контроля над ошибками: логический и арифметический. Логический предусматривает использование логических, качественных взаимосвязей. Пример: у 8-летнего ребенка не может быть собственных детей. Логический контроль применяется, когда невозможен арифметический. Арифметический использует количественные зависимости между значениями показателей. Пример: гр.3 = гр.1 + гр. 2. 2.4 Источники информации Источниками информации для проведения и первичных, и вторичных статистических исследований служат данные а) внутрипроизводственной и б) внепроизводственной статистики В качестве первичных источников информации в первую очередь рассматриваются опросы, интервью. Вторичными источниками данных являются: - для внутрипроизводственной статистики: калькуляции, прайс-листы, ведомости выдачи зарплаты, больничные листы, балансы, отчеты о производственно-хозяйственной деятельности, планы предприятий и организаций; - для внепроизводственной статистики: материалы государственной и муниципальной статистики (справочники, бюллетени, доклады и т.д.), журналы, материалы ведомственной статистики (ЦБ РФ, ГТК, Федеральной службы занятости и т.д.), частная статистика (союзы и объединения предприятий, ТПП), материалы научно-исследовательских институтов. Некоторые национальные и международные источники информации приведены в таблице 2.1. Таблица 2.1. Национальные и международные источники информации
ТЕМА 3. СТАТИСТИЧЕСКАЯОБРАБОТКАДАННЫХ Statistische Aufbereitung von Daten Statistical data processing 3.1 Статистическая сводка Сводка – это второй этап статистического исследования после наблюдения. Он заключается в превращении индивидуальных значений признаков, полученных в ходе наблюдения, в систему статистических показателей, т.е. обобщающих характеристик статистической совокупности по определенному признаку. Этапы сводки: 1) формулировка задачи; 2) группировка: - определение количества групп; - определение величины интервала; - определение группировочного признака. 3) техническое осуществление сводки; 4) проверка полноты и качества сводки. Существуют следующие способы сводки: по форме обработки материала: - централизованный (информация идет снизу вверх по иерархической лестнице, обрабатывается в одном месте); - децентрализованный (информация собирается на нижнем уровне и там же полностью обрабатывается), по технике выполнения: - механизированный (с помощью компьютеров); - ручной. 3.2 Группировка Это важная часть сводки и один из самых распространенных методов статистики. Группировка (Gruppierung, Grouping)– это разделение статистической совокупности на части (группы) по определенным существенным признакам. В отличие от группировки, классификация – это распределение явлений и объектов на определенные группы, классы на основе заранее установленных стандартизированных качественных признаков. Примеры классификации: международные правила заключения сделок Incoterms, товарная номенклатура внешнеэкономической деятельности ТН ВЭД и др. Виды группировки: 1) Типологическая группировка Означает разделение качественно разнородной совокупности на однородные группы. При этом каждая группа будет представлять собой отражение какого-либо одного типа, аспекта исследуемого явления. Выделяется столько групп, сколько существует типов данного явления. Границы интервалов проходят там, где один тип сменяется другим. Типологическая группировка дает хорошие результаты, если удалось идентифицировать типы явления и найти точки перехода одного типа в другой. Пример (см. табл.3.1). Таблица 3.1. Структура объема платных услуг населению Нижнего Новгорода по их видам в 2000 г.
Источник: Нижний Новгород. Краткий статистический сборник. – Нижний Новгород: Нижегородский областной комитет государственной статистики, 2001. 2) Аналитическая группировка Применяется для выявления взаимосвязи между явлениями, т. е. отвечает на вопрос: есть или нет связь? Признак, по которому все единицы совокупности делятся на группы в аналитической группировке, называется группировочным или факторным, а по которому судят о наличии или отсутствии связи – результативным. С аналитической группировкой мы встретимся еще в теме корреляционно-регрессионный анализ. Как правило, при аналитической группировке применяют неравные, все время увеличивающиеся или уменьшающиеся интервалы. Пример (см. табл.3.2) Установить наличие или отсутствие связи между стажем и производительностью труда. В данном случае факторным признаком х будет стаж, результативным y – производительность труда. Один из сложных вопросов аналитической группировки – определить количество групп и границы интервалов между группами. Применяют различные методы, например, метод координатной сетки. В системе координат наносят по оси OXстаж, по оси OY производительность труда (рис.3.1). Всего на рисунке получается 710 точек. Затем ищут так называемые сгущения. Между ними и проводят границы интервалов. Недостаток метода: рисунок сгущений меняется с изменением масштаба. Таблица 3.2. Распределение работников по средней производительности труда
3) Структурная (вариационная) группировка Широко применяется для простого сжатия информации по какому-либо признаку. Принципиально отличается от типологической тем, что содержит группы, отличающиеся друг от друга количественно, а не качественно. Пример структурной группировки (табл. 3.3): Интервалы при структурной группировке, как правило, равные. Величина равного интервала определяется по формуле: Xmax и Xmin – максимальное и минимальное значения признака. Таблица 3.3 Данные о денежных доходах населения Нижегородской области в 1996 г.
Источник: данные НОКГС Число же групп можно определить разными способами: - по формуле Стерджесса k – число групп; N – объем ряда (число единиц совокупности). Применение формулы Стерджесса дает хорошие результаты при большом объеме ряда и распределении, близком к нормальному. - на основе применения среднего квадратического отклонения – например, при величине интервала i = 0,5 σ совокупность разбивается на 12 групп, при i = σ – на 6 групп со следующими интервалами: от - 3σ до - 2σ от - 2σ до - σ от - σ до от до + σ от + σ до +2 σ от + 2σ до +3σ - с помощью заранее установленных норм. Пример: согласно нормам DIN ориентировочное минимальное число групп составляет (табл.3.4): Таблица 3.4 Число групп по нормам DIN
При этом величина интервала выбирается таким образом, чтобы в каждой группе было хотя бы одно значение признака, т.е. не было "пустых" групп. Кроме того, величина интервала по возможности должна выражаться нечетным числом, чтобы середина интервала являлась бы целым числом. Количество групп зависит также от того, на какую потерю информации согласен исследователь (заказчик). Обычно приемлемым считается уровень 1-5 % величины показателя. Точное установление границ интервалов Если признак дискретный, то следующий интервал будет на одну единицу больше предыдущего: 0-2 (+1) 3-5 (+1) 6-8 (+1) и.т.д., где, например, 6 – нижняя граница; 8 – верхняя граница интервала. Если же имеем непрерывный признак, то интервалы выглядят так: 0-2 (-) 2-5 5-8, и возникает вопрос: в какую группу включать единицу наблюдения, значение признака у которой совпадает с границами интервалов. Существует 2 способа: "включительно" и "исключительно". По способу "включительно" единица наблюдения со значением 2 попадает в первую группу, по способу "исключительно" – во вторую. Далее, интервалы бывают открытые и закрытые. У закрытых интервалов обозначены обе границы, у открытых – только одна граница, верхняя или нижняя, например, "менее 2" или "5 и более" Ширина открытого интервала принимается равной ширине смежного с ним интервала (последующего или предыдущего). 4) Сложная группировка Если в основу группировки положено несколько признаков, то мы имеем дело со сложной группировкой. Она может выполняться как комбинационная (группы, выделенные по одному признаку, затем подразделяются на подгруппы по другому признаку) или как многомерная (группы или кластеры выделяются одновременно по нескольким признакам). В последнем случае единица совокупности рассматривается как точка в m-мерном пространстве, а задачей группировки является выделение точек, составляющих однородные группы (кластеры) единиц. Изучение многомерных группировок (кластерный анализ) проводится с помощью средств вычислительной техники. После проведения группировки строится ряд распределения, а затем обработанный статистический материал представляется в виде таблиц, графиков, диаграмм и т.д.. 3.3 Статистические ряды Статистический ряд – это упорядоченное распределение единиц совокупности по группам. Его нужно отличать от ряда динамики. Ряд распределения характеризует структуру явления. Ряд динамики – развитие явления во времени. Ряд распределения называют ранжированным, если признак стоит в порядке возрастания или убывания. Ряд распределения всегда имеет 2 элемента: х – варианта или значение признака, f – частота или числовое значение варианты. Если значение признака выражается числом, то ряд распределения является количественным или вариационным, если словом – атрибутивным или качественным. Количественные ряды делятся, в свою очередь, на дискретные (варьирующий признак дискретен) и непрерывные (варьирующий признак непрерывен, значения признака задаются в виде интервала). Пример (табл.5) . Таблица 3.5 Дискретный ряд распределения
где X – число забитых в чемпионате мячей; f – число игр с таким числом голов; F – накопленная частота. На плоскости дискретный ряд распределения изображается графиком, называемым полигоном распределения – dasHäufigkeitspolygon, thefrequencypolygon (рис.3.2.). f 20 - 15 - 10 - 5 - │ │ │ │ │ 0 1 2 3 4 5 x Рис. 3.2 Пример полигона распределения Примером интервального ряда распределения может служить таблица распределения семей по размеру жилой площади на одного человека. Таблица 3.6 Интервальный ряд распределения
Для графического изображения интервального ряда распределения (непрерывный признак) применяется гистограмма – dasHistogramm, thehistogram. Если в ряду распределения интервалы не равны, то гистограмма строится с использованием еще одной величины – плотности распределения. Плотность распределения – это частота, падающая на единицу интервала. Построим гистограмму для ряда с неравными интервалами (см. табл.3.2. и рис.3.4.) плотность 200- 150- 20- 10- | | | | | 0 1 3 10 20 30 стаж Рис. 3.4. Гистограмма ряда распределения с неравными интервалами В целом выделяют следующие основные типы распределения: f ТИП 1 ТИП 2 в а в а x
ТИП 3 ТИП 4 Рис. 3.5. Основные типы распределения ТИП 1 – симметричное распределение (а – плосковершинное, в - островершинное); ТИП 2 – асимметричное распределение (а – правосторонняя асимметрия, в – левосторонняя асимметрия); ТИП 3 – многовершинное распределение (статистическая совокупность неоднородна); ТИП 4 – симметричная кривая распределения с двумя экстремальными значениями. Часто возникает вопрос не о том, какова частота отдельной варианты, а о том, сколько значений признака выше (или ниже) определенной величины. В таких случаях применяют два особых вида кривых для изображения ряда распределения: кумуляту и огиву. Кумулята отвечает на вопрос “менее чем”, огива – “более, чем”. Пример (табл. 3.7, рис.3.5). Таблица 3.7. Договоры предприятия N в 200_ г.
Построим по этим данным огиву и кумуляту (рис. 3.6) В таблице 200 договоров имеют сумму менее 300 у. е., 950 – менее 900 у. е., 800 – от 300 у. е. и более, 50 – от 900 у. е. и более и т.д. Кроме полигона распределения, гистограмм, огивы и кумуляты существуют другие статистические графики: столбиковые, круговые (радиус круга = , ленточные, квадратные (сторона квадрата = , радиальные cекторные (все явление = 100 % = 360°, значит 1% явления = 3,6° ) и фигурные диаграммы. Таким образом, величина явления всякий раз равна площади фигуры. Для построения диаграмм и графиков удобно использовать стандартные программные пакеты, например, MSOffice/Excel. накопленная частота 1000 кумулята 950 900 850 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 огива 50 0 50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 1000 1050 варианта ряда Рис. 5. Кумулята и огива 3.4 Статистические таблицы Каждая таблица должна соответствовать макету. (Таблица №) (наименование таблицы)
Источник: Примечания: Каждая таблица имеет подлежащее и сказуемое. Подлежащее – это группы и подгруппы, на которые разбиваются статистические совокупности для изучения. Если единицы совокупности просто перечисляются в подлежащем, то таблица называется перечневой или простой. Если совокупность делится на определенные группы, то таблица будет групповая. Если совокупность делится по группам по двум или более признакам, таблица будет называться комбинационной. Сказуемое – это показатель, с помощью которого мы изучаем подлежащее. Сказуемое бывает простым и сложным. Если показатель разбивается на две или более части, то это будет сложное сказуемое. Правила заполнения таблиц: 1) все данные в таблице должны измеряться с одной точностью (0; 0.0; 0.00; 0.000 и т. д.); 2) если значение признака мало по сравнению с выбранной нами точностью измерения, то вместо него пишут 0 (0.0; 0.00 и т. д.); 3) если явление отсутствует, ставят прочерк (-); 4) если явление не имеет смысла, ставят крест (x); 5) если нет сведений, то пишут либо ”нет сведений”, либо ставят многоточие (…); После таблицы пишется: Источник: Примечания: ТЕМА 4. СТАТИСТИЧЕСКИЕПОКАЗАТЕЛИИСРЕДНИЕ Statistische Kennzahlen und Mittelwerte Statistical indices and Means 4.1 Статистическиепоказатели Таблицы и графики дают только первый обзор характера распределения. Чтобы кратко охарактеризовать эмпирические данные, используют количественные величины, которые представляют все данные так, что можно отказаться от отдельных, попавших под наблюдение значений признака. Эти количественные величины называются статистическими показателями (Kennzahlen, Indices). К ним относятся абсолютные показатели, относительные показатели и средние. Отличие статистического показателя от признака заключается в том, что он получается расчетным путем. Абсолютныепоказатели (Absolute Kennzahlen, Absolute indices). Абсолютные показатели выражают абсолютные размеры явлений и процессов и получаются в результате сводки статистической информации. Это масса, площадь, объем, протяженность и т. д. Все абсолютные показатели имеют определенную размерность. Единица измерения может быть выражена: 1) натуральными измерителями (кг); 2) условно- натуральными измерителями (условная консервная банка); 3) составными натуральными показателями (т/км, чел/дн, кВт/ч); 4) стоимостными показателями (руб., $); 5) трудовыми показателями (трудодень). Проблема может выражаться в сопоставлении показателей, особенно это касается стоимостных единиц измерения (индекс-дефлятор, в котором применяются цены базисного года, а физический объем – текущего года). Относительныепоказатели (Verhältniszahlen, Relative indices). Относительные показатели представляют собой частное от деления двух статистических величин и характеризует количественное соотношение между ними. Относительный показатель = Если база сравнения равна единице, то относительный показатель является коэффициентом. Если она равна ста, то относительный показатель выражается в процентах (%), если она равна тысяче, то - в промилле (‰). Виды относительных показателей: 1) выполнение договорных обязательств Макет показателя = 2) относительный показатель структуры (Gliederungszahl, Relativindexofstructure) Макет показателя = 3) относительный показатель сравнения (Beziehungszahl) показывает соотношение одних и тех же данных, но относящихся к разным объектам наблюдения (например, отношение ВВП двух стран) Макет показателя =
Макет показателя = 5) Макет показателя = 6) цепные и базисные показатели динамики (Messzahlen) Цепные показатели рассматривают по сравнению с предыдущими, а базисные – по сравнению с периодом, выбранным за базу. Макет показателя = Пример. Таблица 4.1. Вычисление цепных и базисных показателей динамики (1993 г. - базисный)
С показателем динамики связаны показатели темпов роста и темпов прироста. Темп роста – это отношение текущего показателя к показателю, выбранному за базу сравнения. Темп прироста – это темп роста минус единица (или минус 100 %). В нашем примере темп роста производства в 1994 г. по сравнению с 1993 г. равен (250 / 200)*100 % = 125 %, а темп прироста – 125 % - 100 % = 25 %. При анализе показателей динамики нужно всегда смотреть на базу сравнения. Если она разная, то эти показатели вообще нельзя сравнивать. Если она одинаковая, то сравнивать можно, но не в процентах, а в процентных пунктах. Пример (см. табл.4.1.). На сколько выросло производство продукции в 1995 г. по сравнению с 1994 г.? Неправильный ответ: на 25%. Правильный ответ: на 25 процентных пунктов или на (300-250)/250= (150-125)/125=20 % 4.2 Средние Средняя (Mittelwert, Mean)– это обобщающий показатель, отражающий наиболее типичный уровень варьирующего признака качественно однородных единиц совокупности. Данный показатель может вычисляться только у качественно однородных величин. Общий макет = Виды средних: 1) степенные 2) структурные (мода, медиана); 4.2.1 Степенные средние Степенными средними являются средние, исчисляемые по формуле: где Хi – индивидуальное значение признака каждой единицы совокупности; n - число единиц совокупности Для взвешенной имеем: где fi – частота повторения индивидуальных значений признака (вес). При k = 1 получаются формулы средней арифметической (ArithmetischesMittel, Arithmeticmean) простой и взвешенной: Средняя арифметическая простая используется тогда, когда значение признака относится к отдельным единицам наблюдения или к равновеликим группам единиц. Пример (см. таблицы 4.2, 4.3). Таблица 4.2. Заработная плата работников бригады
или Таблица 4.3. Заработная плата по цехам предприятия
Тогда Средняя арифметическая взвешенная применяется тогда, когда отдельные значения признака встречаются с разной частотой или когда группы не являются равновеликими. Пример (см. табл.4.4). Таблица 4.4. Заработная плата по цехам предприятия
При k = - 1 степенная средняя называется средней гармонической (HarmonischesMittel, Harmonicmean): Средняя гармоническая взвешенная тогда будет равна: где Wi – вес средней гармонической, равный произведению индивидуального значения признака на его частоту (обычную). Пример (см. таблицы 4.5, 4.6). Таблица 4.5. Данные о заработной плате по отделам организации
Тогда среднюю зарплату по организации можно найти по формуле средней арифметической взвешенной: Однако часто данные имеются в другом виде (табл. 4.6).Тогда для расчета средней зарплаты по организации применяется средняя гармоническая взвешенная: Таблица 4.6. Данные о заплате по отделам организации
Всегда, когда в качестве веса уже имеем произведение значения признака на частоту, средняя арифметическая не работает – применяют формулу средней гармонической. Чтобы не ошибиться в расчетах, нужно постоянно следить за смыслом числителя и знаменателя. При k = 0 получаем формулу средней геометрической (GeometrischesMittel, Geometricmean) простой и взвешенной: Средняя геометрическая применяется тогда, когда используются операции, связанные умножением/ делением, а не сложением/ вычитанием. Пример (см. табл.4.7).Найти среднегодовой темп роста и прироста по следующим данным. Таблица 4.7. Темпы роста объема сбыта по фирме N
Среднегодовойтемпроста (Wachstumstempo, Rate of Growth): Среднегодовой темп прироста (Zuwachsrate, Rateofincrement): = Среднегодовой темп роста – 1. В нашем примере: = 1,045 – 1= 0,045 или 4,5 % Примечание: среднегодовой темп роста и среднегодовой темп прироста можно получить исходя и из абсолютных значений. Видоизменим предыдущий пример (табл. 4.8). Таблица 4.8. Объем оказанных услуг по фирме N
Тогда получим: = 1,045 – 1= 0,045 или 4,5 %. При k = 2 получаем формулу средней квадратической (QuadratischesMittel, Quadraticmean) простой и взвешенной: При k = 3 получаем формулу средней кубической (KubischesMittel, Cubicmean) простой и взвешенной и т.д:. Средняя квадратическая и средняя кубическая применяются, если нужно сохранить неизменной сумму квадратов или сумму кубов исходных величин. Правило мажорантности средних Если на одном и том же фактическом материале рассчитать разные средние, то все они будут иметь разные значения, причем эти значения будут тем меньше, чем меньше k. Получаем следующее неравенство: Свойства средней арифметической Средняя арифметическая обладает некоторыми свойствами, облегчающими ее применение на практике и упрощающими ее расчеты. 1) сумма отклонений индивидуальных значений признаков от средней арифметической равна нулю: 2) если все значения признака увеличить или уменьшить на какое-либо число, то средняя арифметическая увеличится (уменьшится) на это же число: 3) если все значения признака умножить (поделить) на какое-либо число, то средняя арифметическая изменится во столько же раз: 4) сумма квадратов отклонений индивидуальных значений признака от средней арифметической есть величина минимальная: 5) если вес каждого значения признака разделить (умножить) на какое-либо постоянное число А, то средняя арифметическая от этого не изменится: 6) средняя суммы (разности) двух величин равна сумме (разности) средних этих величин Условия применения средних величин в анализе - однородность статистической совокупности. Действительно, допустим, что отдельные элементы совокупности, вследствие подверженности влиянию некоторого случайного фактора, имеют слишком большие (или слишком малые) величины изучаемого признака, существенно отличающиеся от остальных. Такие элементы повлияют на размер средней для данной совокупности, поэтому средняя не будет выражать наиболее характерную для совокупности величину признака. Если исследуемое явление не является однородным, то его разбивают на группы, содержащие только однородные элементы. Для такого явления рассчитываются сначала средние по группам, которые называются групповые средние, – они будут выражать наиболее типичную величину явления в каждой группе. Затем рассчитывается для всех элементов общая средняя величина, характеризующая явление в целом, – она рассчитывается как средняя из групповых средних, взвешенных по числу элементов совокупности, включенных в каждую группу. На практике, однако, выполнение данного условия не является безусловным. Пример: расчет величины средней заработной платы по всем секторам экономики, включая высокооплачиваемые (банки, финансы) и низкооплачиваемые (народное образование, сельское хозяйство). - достаточное количество единиц в совокупности, по которой рассчитывается среднее значение признака. Достаточность анализируемых единиц обеспечивается корректным определением границ исследуемой совокупности, т.е. закладывается еще на начальном этапе статистического исследования. Данное условие становится решающим при применении выборочного наблюдения, когда необходимо обеспечить репрезентативность выборки. - нежелательность большого расхождения максимального и минимального значения признака в изучаемой совокупности также является условием применения средней величины в анализе. В случае больших отклонений между крайними значениями и средней, необходимо проверить принадлежность экстремумов к исследуемой совокупности. Если сильная изменчивость признака вызвана случайными, кратковременными факторами, то, возможно, крайние значения не характерны для совокупности. Следовательно, их следует исключить из анализа, т.к. они оказывают влияние на размер средней величины. 4.2.2 Структурные средние Мода (Modus, Mode)– это наиболее часто встречающееся значение признака. Медиана (Median) – это значение признака у серединной единицы ранжированного ряда. При нормальном распределении средняя арифметическая, мода и медиана совпадают (рис.4.1а). Условия нормального распределения довольно широки, оно часто встречается, следовательно, можно и не считать среднюю арифметическую, а брать моду или медиану. а) б) Рис. 4.1. Средняя арифметическая, мода и медиана при нормальном и деформированном распределении При деформированном распределении показатели "разбегаются": мода остается почти на месте, медиана сдвигается в сторону асимметрии, туда же, но еще дальше убегает средняя арифметическая (рис. 4.1б). Медиана ближе к средней арифметической, расстояние от моды до медианы при умеренно деформированном распределении в 2 раза больше, чем от медианы до средней арифметической, поэтому в этом случае среднюю арифметическую лучше заменять медианой. Расчет моды и медианы в дискретном ряду (по несгруппированным данным) Пусть дан ранжированный ряд распределения: Ряд: 10, 20, 20, 25, 30 (35) Порядковый номер значения признака: 1 2 3 4 5 (6) Чаще всего повторяется значение признака 20, оно и будет модой: Мо=20 Медианой будет центральное значение ряда 20: Ме=20 Если ряд содержит четное число единиц, то медиана определяется как средняя из двух центральных значений. Предположим, что в нашем ряду 6 значений, добавлено значение 35. Тогда Ме = (20+25) /2= 22,5. Расчет средней арифметической, моды и медианы по данным интервального ряда (сгруппированные данные). Расчет средней арифметической, моды и медианы по данным интервального ряда (сгруппированным данным) проведем на основе сведений табл. 4.9. Для того, чтобы рассчитать среднюю арифметическую, берем середины интервалов в качестве значений признаков, что несколько искажает результат, так как мы априори исходим из того, что внутри групп распределение равномерное. Допущение: в случае открытых интервалов расчет, строго говоря, не возможен, но чаще всего берут величины предыдущих (последующих) интервалов либо используют в качестве средней арифметической моду или медиану. Таблица 4.9. Производительность труда на предприятии N
Расчет моды. По таблице видим, что она находится во втором интервале, т.е. имеет значение между 10 и 20. Для точного расчета применяется формула: А0 – нижняя граница модального интервала; i – величина модального интервала; fМ0 - частота модального интервала; fМ0-1– частота интервала, предшествующего модальному; fMo+1- частота интервала, следующего за модальным. В нашем примере: Расчет медианы. По таблице видим, что накопленная частота превышает половину суммы накопленных частот (в нашем случае – 50) в третьем интервале, т.е. имеет значение между 20 и 30. Для точного расчета применяется формула: А0 – нижняя граница медианного интервала; i- величина медианного интервала; N – объем ряда; FМе-1 – накопленная частота интервала, предшествующего медианному; f Ме – частота медианного интервала. В нашем примере: Квартили (Quartile, Quartile)– значения признаков, разбивающие ряд на 4 равные части. Децили (Dezentile, Deciles) – значения признаков, разбивающие ряд на 10 равных частей. Перцентили (Perzentile, Percentiles)- значения признаков, делящие ряд на 100 равных частей. 4.3 Математическое ожидание Математическое ожидание (Erwartungswert, Expectedvalue) ТЕМА 5. ПОКАЗАТЕЛИ ВАРИАЦИИ StreuungsmaßeVariation 5.1 Понятие вариации Вариация (Variation)– это колеблемость или изменчивость изучаемого признака. При исследовании социально-экономических явлений и процессов мы почти всегда имеем дело с вариацией. Причина вариации – множественность действующих факторов, не поддающихся устранению (элиминированию). Показатели вариации нужны для определения степени диффузии (рассеивания) признака. Ряды распределения могут иметь одинаковые средние значения, один и тот же центр группирования, симметричное расположение частот вокруг него, но разные степени рассеивания. Пример (см. также рис. 5.1.): дано два ряда: 1) –3; -3; -1; 0; 0; 0; 0; 1; 3; 3; X = 0 2) -9; -8; -6; 0; 1; 1; 2; 2; 3; 14; X= 0 Вывод: необходимо использовать показатели вариации, т.е. мы должны изучать и оценивать вариацию и оперировать колеблющимися величинами.
Рис. 5.1. Ряды распределения с разной степенью диффузии 5.2 Показатели вариации 1) Размах вариации (Spannweite, Variationrange) – это разница между максимальным и минимальным значениями признака. Показатель легко исчисляется, но недостаточно информативен, зависит только от крайних значений признака. 2) Среднее линейное отклонение (DurchschnittlicheabsoluteAbweichung, Meanabsolutedeviation)– арифметическая сумма отклонений значений признака от средней. В качестве средней чаще всего берут среднюю арифметическую, но можно брать также другие средние, например, медиану. Недостаток показателя – мы вынуждены брать модуль отклонений, т.к. алгебраическая сумма отклонений значений признака от средней арифметической всегда равна 0. 3) Дисперсия (Varianz, Variance)– средняя из квадратов отклонений значений признаков от средней арифметической 4) Среднее квадратическое отклонение (или стандартное) отклонение (Mittlerequadratische (Standard-) Abweichung, Standarddeviation)– корень квадратный из дисперсии: Преимущество среднего квадратического отклонения перед дисперсией состоит в том, что оно является именованной величиной, т.е. имеет ту же единицу измерения, что и значения признака. И среднее квадратическое отклонение, и дисперсия – показатели, широко применяемые в статистике, математической статистике и теории вероятностей. Пример расчета показателей вариации. Дан ряд: 1; 2; 3; 4; 5 Тогда: X = 3, R = 5-1 = 4 Пример расчета дисперсии и среднего квадратического отклонения по сгруппированным данным: Таблица 5.1. Расчет σ2 и σ по сгруппированным данным
X = 15 разрядов ; σ2 = 118/132 = 0,89; и σ = = 0,94 разряда. Для оценки характера распределения используют следующие взаимосвязи: 1) среднее квадратическое отклонение при нормальном или умеренно деформированном распределении примерно в 1,25 раза больше линейного отклонения 2) коэффициент вариации (Variationskoeffizient, Coefficientofvariation) – это отношение среднего квадратического отклонения к средней Здесь критическим значением выступает V = 35 %. Если V ≤ 35 %, то считаем, что наша совокупность однородна. Если V > 35 %, то совокупность разнородна и это автоматически накладывает ограничения на расчет средней (расчет просто не имеет смысла). В нашем первом примере отношение σ/l =1,18 , т.е. распределение близко к нормальному, а V = 47 %, т.е. совокупность разнородна. Свойства дисперсии. Правило сложения дисперсии 1) дисперсия постоянной величины равна 0 2) уменьшение всех значений признака на одну и ту же величину А не меняет дисперсии: σ2(х - А) = σ2х 3) уменьшение всех значений признака в k раз уменьшает дисперсию в k2 раз, а среднее квадратическое отклонение – в k раз. σ2(х / k) = σ2х : k2 σ(х / k) = σх : k 4) дисперсия равна средней из квадратов значений признака минус квадрат средней значений признака: 5) дисперсия по средней есть величина минимальная, т.е. она всегда меньше дисперсии по любой из величин А на ( Х – А)2 : - А)2 6) дисперсию, в отличие от среднего квадратического отклонения, можно собирать по частям и делить на части. Существует так называемое правило сложения дисперсии, которое заключается в следующем: δ² - межгрупповая дисперсия; α² - средняя из внутригрупповых. Межгрупповая дисперсия – это дисперсия, характеризующая влияние фактора, положенного в основу группировки. Ее расчет производится по следующей формуле: Xi – средняя по каждой группе; Xобщ – общая средняя; m – количество групп. Средняя из внутригрупповых дисперсий отражает влияние прочих факторов и определяется, как: k – объем k-ой группы. Исчисление среднеарифметической и показателей вариации для качественных (атрибутивных или номинально измеряемых) признаков Наряду с вариацией количественных признаков может ставиться задача оценки вариации качественных признаков, например, при изучении качества продукции вся она делится на годную и бракованную. В таком случае за эквивалент наличия признака (ответ "да") принимается 1, отсутствие признака обозначается 0 (ответ “нет”). Общее число единиц совокупности примем за n, тогда число единиц совокупности, обладающих данным признаком, будет f, а число единиц, не обладающих данным признаком, будет (n - f). Ряд распределения по качественному признаку представлен в табл. 5.2. таблице: Таблица 5.2. Пример ряда распределения по качественному признаку
Тогда средняя арифметическая равна: Фактически, это доля единиц, обладающих данным признаком. Соответственно, доля единиц, не обладающих данным признаком равна: Так как p + q = 1, то для дисперсии альтернативного признака имеем: На практике это означает, что дисперсия по альтернативным или качественно изменяющимся признакам подчиняется следующему правилу Среднее квадратическое отклонение по альтернативному признаку: Коэффициент вариации: Пример. В результате контроля качества из 1000 готовых изделий 20 оказались бракованными. Нужно вычислить дисперсию и среднеквадратическое отклонение по данному номинально измеряемому признаку. 5.3 Свойства нормального распределения Нормальное распределение возможно в том случае, когда на величину признака влияет большое число случайных причин, которые не зависят друг от друга и ни одна из которых не имеет преобладающего влияние над другими. 1) Кривая распределения симметрична относительно максимальной ординаты: 2) кривая нормального распределения имеет две точки перегиба х ±σ 3) В промежутках между:
Рис.5.2. Кривая нормального распределения 5.4 Моменты Показатели вариации характеризуют ряд с точки зрения рассеивания, колеблемости значений признака. Ряд распределения, помимо рассеивания, может быть симметричным (асимметричным), остро- и плосковершинным. Универсальными характеристиками ряда распределения являются моменты (Momente, Moments) – средняя арифметическая тех или иных степеней отклонений значений признака от определенной исходной величины А. Их общая формула: Если А = 0, то момент называется начальным. Если А = х, то момент называется центральным; Если А = условной величине, то момент называется условным. В таблице 5.3. представлены формулы моментов первых четырех порядков. Таблица 5.3. Начальные, центральные и условные моменты первых четырех порядков
Большое значение имеют центральные моменты, обозначаемые μi. Центральный момент 2-го порядка – это дисперсия: С помощью центральных моментов 3-го порядка исчисляются показатели симметричности (асимметричности) ряда. Так, если μ3 = 0, то ряд распределения симметричен, μ3 < 0, то ряд имеет левостороннюю асимметрию, μ3 >0, то у ряда правосторонняя асимметрия (см. рис.5.3). а)
б) в)
Рис.5.3. Асимметричные ряды распределения Кроме того, степень асимметрии можно определить с помощью коэффициента асимметрии Аs (Schiefemaß nach 3. zentralenMoment): Асимметрия выше 0,5 (независимо от знака) считается значительной, меньше 0,25 – незначительной. Существенность коэффициента асимметрии оценивается на основе средней квадратической ошибки σAs: Если , то асимметрия существенна, если , то асимметрия несущественна и ее наличие объясняется случайными обстоятельствами. Для симметричных рядов по моментам 4-го порядка рассчитывается показатель остро- или плосковерщинности - эксцесса Ex (Wölbungskoeffizient): Ecли Ex = 0, то распределение признается нормальным, при Ex > 0 распределение островершинное, при Ex < 0 распределение плосковершинное (см. рис.5.4). При Ex = -2 и менее распределение "рассыпается", статистическая совокупность разнородна.
Рис. 5.4. Ряды с нормальным, остро- и плосковершинным распределением Среднеквадратическая ошибка эксцесса σEx рассчитывается по формуле: ТЕМА 6. ИНДЕКСЫ Indizes Indices 6.1 Понятие об индексах Индексы (Index)– это относительные величины (динамики, структуры или сравнения), полученные в результате сопоставления сложных показателей во времени и в пространстве. Сложными являются такие показатели, отдельные элементы которых не подлежат непосредственному суммированию. Пример. Таблица 6.1.
Для получения итогового изменения стоимости продуктов питания нужно перейти к общей мере. Следовательно, вводят особый соизмеритель. Выбор соизмерителя зависит от цели исследования. Это может быть цена, себестоимость, трудоемкость и т.д. Большинство экономических показателей являются сложными или несоизмеримыми, поэтому индексы широко применяются на практике. При построении индекса отвечают на следующие три вопроса: 1) какая величина будет индексируемой? 2) что будет весом при расчете индекса? 3) по какому составу разнородных элементов необходимо исчислить индекс? С помощью индексов решаются следующие задачи: 1) характеризуется общее изменение уровня сложного экономического показателя (так называемая синтетическая функция); 2) выделяют влияние одного из факторов на изменение изучаемого показателя (аналитическая функция). В теме индексы приняты следующие обозначения: q – количество (физический объем продаж); p – цена; z – себестоимость; t – трудоемкость и т. д. Индексы бывают: I. По степени охвата явления: - индивидуальные; - сводные. II. По базе сравнения: - динамические а) базисные – текущий (отчетный) уровень показателя сопоставляется с уровнем периода, принятого за базу сравнения; б) цепные – текущий (отчетный) уровень показателя сопоставляется с предшествующим уровнем; - территориальные – сравниваются показатели территорий. III. По виду весов: 1) постоянным состава; 2) переменного состава. IV. По характеру объекта исследования: 1) Качественные – индексы цен, себестоимости, зарплаты, производительности труда и др.; 2) количественные – индекс физического объема; 6.2 Индивидуальные индексы Индивидуальные индексы отражают изменение только одного элемента сложного показателя. Так, индивидуальный индекс физического объема: отражает изменение только физического объема, индивидуальный индекс цен – изменение цен на конкретные продукты.. Пример (на основе таблицы 6.1.): Вывод: цена на хлеб возросла на 50%, цена на пиво – на 20%. 6.3 Сводные индексы Сводные индексы определяют изменение всех элементов сложного показателя. Макет сводного индекса выглядит следующим образом: Пример сводного индекса – индекс стоимости (Wertindex, Valueindex): По таблице 6.1.: Вывод: расходы возросли на 55,6%. Если индекс охватывает не все элементы, а только их часть, то он называется групповым или субиндексом. Если в индексе сравниваемая величина (ставится в числитель) берется за текущий период, а база сравнения (в знаменателе) за базисный, то такой индекс называется базисным. Если же в индексе сравниваемая величина берется за текущий период, а база сравнения за предыдущий, то индекс называется цепным. В экономике широко применяются индексы цен и физического объема. Индекс цен и физического объема по Э. Ласпейресу и Г.Пааше: Индекс цен по Э.Ласпейресу (PreisindexnachLaspeyres, Laspeyrespriceindex): Индекс физического объема по Э. Ласпейресу (MengenindexnachLaspeyres, Laspeyresquantityindex): Индекс физического объема по Г. Пааше (MengenindexnachPaasche, Paaschequatityindex): ИндексценпоГ. Паше (Preisindex nach Paasche, Paasche price index): Следующее уравнение отражает взаимосвязь между индексами цен, физического объема и стоимости: В целом отметим, что: - индекс по формуле Ласпейреса (например, цен) дает ответ на вопрос: как изменились бы цены, если бы структура производства (потребления) осталась прежней? Преимущество этого индекса: веса определяются один раз на длительный период времени. Недостаток: чем больше времени прошло с базисного года, тем больше вероятность изменения структуры производства (потребления) товаров и тем больше вероятность неточности индекса. Пример применения: индекс стоимости жизни (Lebenshaltungskostenindex, costoflivingindex) - индекс Пааше (например, цен) дает ответ на вопрос: как изменились бы цены при данной (текущей) структуре производства (потребления) товаров и услуг? Преимущество: отражает реальную сложившуюся на сегодня ситуацию. Недостаток: требует более высоких затрат на исчисление весов. Пример применения: проверка и корректировка индекса стоимости жизни, а также расчет макроэкономических показателей (индекса – дефлятора и др.). Индекс-дефлятор служит для приведения важнейших стоимостных макроэкономических показателей (ВВП, ВНП, национального дохода, выпуска по регионам, по отдельным отраслям экономики и др.) в сопоставимый вид путем их измерения по стоимости базисного периода. Т.е. индекс-дефлятор рассчитывается как отношение фактической стоимости выпуска к стоимости выпуска в ценах базисного года при сохранении структуры выпуска отчетного года. Для индекса-дефлятора ВВП имеем: Средний арифметический индекс Бывает, что имеется информация по одним элементам сложных показателей и не имеется по другим. Например, при расчете индекса физического объема продаж есть данные по индивидуальным индексам, тогда сводный индекс применяется в виде среднего арифметического .
В нашем примере: Гармонический индекс Аналогично при наличии данных, например, о динамике физического выпуска продукции ijq и стоимости каждого вида продукции в текущем (отчетном) периоде pj1 qj1, удобно применять сводный индекс физического объема Паше в виде гармонического индекса:
В нашем примере: Другие индексы (по Лоу и Фишеру) Предпринимались неоднократные попытки избавиться от недостатков индексов по Пааше и Ласпейресу с помощью изобретения "идеального" индекса. Американский экономист И.Фишер вывел среднюю геометрическую из этих индексов – изящный расчетный пример, лишенный, однако, экономического содержания. Индекс Лоу привязан к условной структуре выпуска продукции, что обуславливает трудности его исчисления на практике. Некоторые правила исчисления индексов 1) Произведение рядом стоящих цепных индексов дает базисный индекс. 2) Частное от деления двух рядом стоящих базисных индексов дает цепной. Эти правила работают для индивидуальных индексов, для сводных они будут верным только в случае постоянных весов. Пример индекса с постоянными весами: Пример индекса с переменными весами: 3) Установлениеинойбазысравнения (Umbasierung, determining of another base for index). Таблица 6.2.
Потребительская корзина неизменна (в случае исчисления индексa стоимости жизни). 4) Построение цепных индексов (Verkettung, Chaining). Таблица 6.3.
Надежность результата изменяется с ростом числа временных периодов и потребительских корзин. 6.4 Практика применения индексов в экономике Пример1. Расчет паритета покупательной способности ППС (Kaufkraft-paritätKKP, ParityofpurchasingpowerPPP) . ППС показывает, сколько иностранной валюты должно быть израсходовано для покупки потребительской корзины, которую внутри страны приобретают на отечественную валюту (в расчете на единицу). Таблица 6.4.
С точки зрения страны 2:ППС = (Стоимость потребительской корзины страны 2 в стране 1)/(Стоимость потребительской корзины страны 2 в стране 2) Потребительская корзина по стране 2 стоит в стране 1 на 76% больше, чем в стране 2. Пример 2. Расчетиндекса DAX (Der Deutsche Aktienindex) DAX строится на основе индекса Ласпейреса в форме среднего арифметического индекса. Расчет проходит ежеминутно по стоимости 30 акций ведущих фирм и компаний Германии. Критериями для включения в список являются: - биржевой оборот за последние 12 месяцев, - объем рыночной капитализации (рыночная стоимость акций), - раннее появление данных о курсе, - свободное размещение, - доступность на рынке, - переплетенность капитала с АО, акции которых участвуют в расчете DAX. Например, в 1995 г. в состав DAX входили:
Формула индекса: Fti - фактор веса, pti - действительный курс акции i, А = const = 29356.73 Фактор веса Fti = eit – корректирующий коэффициент акций i, Kit – cвязывающий коэффициент, устраняет скачки индекса при изменении списка акций в его составе, git – количество акций i Справочно: значения индекса DAX в разные годы
Пример 3. Анализ изменения стоимости акций. Акции, обращающиеся на рынке, анализируются по таким направлениям, как: 1) сравнение изменения индекса акций и индекса рынка или его отдельного сегмента, т.е. оценка спроса на данный вид акций; 2) изменение цен на акции в разных сегментах рынка, т.е. какой сегмент является наиболее привлекательным для инвесторов в данный момент; 3) изменение цен на акции в разных странах (регионах), т.е. опредение инвестиционной привлекательности страны (региона); 4) изменение цен на акции отдельных компаний, групп компаний относительно друг друга. Таблица 6.5. Некоторые данные об акциях компаний A,B,C
1) Темп роста (снижения) средней цены акций по простой арифметической: Средняя цена в базовом периоде: Средняя цена в текущем периоде: Темп роста равен: Это означает, что средняя цена акции возросла на 12,57%. 2) Рассчитаем темп роста средневзвешенной цены акции (за вес возьмем количество обращающихся акций). Т.е. средневзвешенная цена акции возросла на 4,44%. 3) Средний темп прироста цены акции: или 7,84% среднего темпа прироста. Вывод: общая тенденция характеризуется однонаправлено (курс растет), но есть расхождения в величинах показателей. ТЕМА 7. ОСНОВЫ СТАСТИКИ НАСЕЛЕНИЯ Bevölkerungsstatistik Demographicstatistics 7.1 Предмет и задачи статистики населения Предмет данного раздела статистики – население, рассматриваемый фактор – труд.Население (Bevölkerung, Population) – это совокупность людей, проживающих на определенной территории, непрерывно возобновляющаяся за счет рождения и смертей. Объектом наблюдения статистики населения могут быть различные совокупности: и население в целом, и отдельные группы. Источники статистики населения: 1) перепись (единовременное наблюдение в сплошной или выборочной форме); 2) микроперепись (охватывает 5% постоянного населения); 3) текущий учет (ЗАГС, паспортные столы, паспортно-визовая служба МВД); Задачи статистики населения: 1) учет и анализ численности и размещения населения; 2) учет и анализ состава и структуры населения; 3) учет движения населения и его воспроизводства; 4) изучение социальных характеристик населения; 5) разработка и совершенствование методологии переписи и текущего учета населения. 7.2 Статистика численности и состава населения 1) Показатели численности Численность населения (Bevölkerungszahl, Sizeofpopulation) – это количество лиц, проживающих на определенной территории страны или в отдельных ее регионах. Учет осуществляется на определенную дату и время (критический момент наблюдения). Различают следующие категории населения: постоянное (ПН), наличное (НН), временно проживающее (ВП) и временно отсутствующее (ВО) население. Постоянное население (Wohnbevölkerung, Stablepopulation) – это лица, постоянно проживающие на данной территории, независимо от их фактического местонахождения на момент учета. Наличное население (OrtsanwesendeBevölkerung, Availablepopulation) - это лица, которые на момент учета фактически находятся в данном населенном пункте, независимо от их постоянного места жительства. Временно проживающее население (VorübergehendanwesendeBevölkerung, Temporarystayingpopulation)- это лица, которые на момент учета находятся на территории данного населенного пункта, но постоянно проживают в другом. Временно отсутствующее население (VorübergehendabwesendeBevölkerung, Temporaryabsenteepopulation) – это лица, находящиеся в момент учета за пределами места жительства. Пример. На начало 2001 г. наличное население г. Нижнего Новгорода составляло 1356,5 тыс. чел, постоянное население – 1351,7 тыс. чел. При проведении переписи обычно учитывают наличное население с пометкой о временном проживании или временном отсутствии. Все категории связаны между собой следующим образом: ПН = НН – ВП + ВО НН = ПН – ВО + ВП Определение категории имеет большое значение для планирования экономики и социального развития (например, количество мест в школах определяют по постоянному населению, а объем товарооборота – по наличному населению). В основе анализа численности населения лежит показатель среднегодовой численности, который рассчитывается по формуле средней арифметической: где S1 и S2 – численность населения на начало периода 1,2 Пример. Среднегодовая численность наличного населения г. Нижнего Новгорода в 2000 г. составила 1361,7 тыс. чел. Если имеются данные по ряду периодов, равноотстоящих друг от друга, то используется более точная формула средней хронологической. Если интервалы не равны, имеем среднюю хронологическую взвешенную (пример см. в теме ряды динамики). Наиболее часто применяются показатели абсолютного прироста (уменьшения) численности населения Sn – S1; коэффициента (темпа) роста Sn/S1; коэффициента (темпа) прироста населения Sn/S1 – 1; среднегодового темпа роста ; плотности населения, численности городского и сельского населения; численности населения по отдельным регионам. Пример: Плотность – это количество жителей на квадратный километр. В настоящее время плотность населения составляет в РФ 8,7 чел/км2 и в Нижегородской области 48 чел/км2. Для сравнения: плотность населения в ЕС равна 115 чел/км2, в США - 28,2 чел/км2, в Японии 331, 7 чел/км2. 2) Показатели структуры населения Показатели структуры (состава) населения – это возрастная структура населения, численность мужского и женского населения, национальный состав, группы населения по составу семьи, источникам средств к существованию и т.д.. Так, для анализа и оценки возрастно-половой структуры населения существуют так называемые возрастные пирамиды: возраст (год рождения,)
М Ж численность, тыс. чел. Рис. 7.1. Схема возрастной пирамиды В данном случае пирамида отображает прогрессивную структуру населения. Стационарная и регрессивная структура имеет место тогда, когда пирамида принимает соответственно прямоугольную форму или форму перевернутого треугольника, т.е. когда население соответственно распределяется по возрастным группам равномерно или стареет. Население склонно к округлению возраста на 0 и на 5. В результате в возрастных группах, оканчивающихся на 0 и на 5, образуются наросты – так называемая аккумуляция возрастов. Для избежания этого кроме возраста спрашивают еще и год рождения. Показатели демографической нагрузки отражают нагрузку на общество непроизводительного населения. Рассчитываются такие показатели, как отношение общего числа детей, лиц пенсионного возраста и их общей совокупности к численности населения трудоспособного возраста. Пример. В РФ на 1000 лиц трудоспособного возраста в 1995 г. приходилось 430 детей и подростков 0-15 лет и 325 лиц старше трудоспособного возраста, всего – 755 чел. Практическое применение эти показатели имеют при расчете затрат на пенсионное обеспечение, на содержание детей, на социальные мероприятия. 7.2 Статистика естественного движения и статистика миграции населения Воспроизводство населения – это процесс постепенной смены населения через смену уходящих поколений. Уровень воспроизводства характеризуется показателями естественного движения населения. При их изучении используют абсолютные (число родившихся, умерших) и относительные показатели (исчисление в расчете на 100, 1000, 10000… человек). Коэффициенты рождаемости: N – число родившихся. Коэффициенты смертности: M – число умерших. Коэффициент естественного прироста населения: Используют также специальные коэффициенты такие, как специальный коэффициент рождаемости: SF - среднегодовая численность женщин, способных к деторождению (в фертильном возрасте – 15-49 лет). Повозрастной коэффициент рождаемости: N15-19 – число родившихся от матерей в возрасте 15-19 лет. Повозрастной коэффициент смертности: Отдельно вычисляют коэффициенты смертности детей до одного года: N1 – число родившихся в этом году; N0 – число родившихся в предыдущем году; М0 – число умерших. m0 – число умерших в текущем году из родившихся в предыдущем; m1 - число умерших в текущем году из родившихся в этом же году. Коэффициент жизненности: На базе этих показателей применяют стандартизированные (нормированные) показатели. Они нормируются, например, по удельному весу отдельных групп в структуре населения I. Коэффициент смертности: Обобщающие показатели воспроизводства населения – это показатели суммарной плодовитости, брутто-коэффициент воспроизводства и нетто-коэффициент воспроизводства. Суммарная плодовитость – это количество детей, рожденных одной женщиной за весь фертильный период. Fx – вероятность родить ребенка в возрасте x лет (15≤x≤49); Кp – повозрастной коэффициент рождаемости. Брутто-коэффициент воспроизводства показывает, сколько девочек в качестве смены оставляет каждая женщина. δ – доля девочек среди родившихся. Нетто-коэффициент воспроизводства (исчисляется только для женщин) показывает, сколько девочек доживает до возраста своей матери. Lx – среднее число женщин в возрасте от x до x+1 года. Маятниковая миграция – это перемещения с места жительства на работу и обратно. Существует три показателя миграции: 1) Коэффициент прибытия: 2) Коэффициент убытия: 3) коэффициент механического прироста Общий коэффициент прироста населения – это сумма коэффициентов естественного прироста и механического прироста. K = Kест.пр. + Kмех.пр. Для более глубокого анализа и изучения особенностей демографических показателей в отдельных возрастных группах применяют табличный счет населения (например, таблицы смертности, плодовитости и т.д.). Таблицы строят в полном и кратком варианте (полная таблица – с одногодичным интервалом, краткая – с интервалом в 5-10 лет). Экономические таблицы могут содержать следующие данные: 1) Возраст – X; 2) Число доживших до возраста X – lx; 3) Число умерших в возрасте от X до X+1 – dx; 4) Вероятность умереть в течение следующего года – qx; 5) Вероятность остаться в живых в следующем году – px; 6) Средняя продолжительность предстоящей жизни населения - exº. Рассмотрим некоторые взаимосвязи между этими величинами: Тx – число предстоящих человеко-лет жизни. W – предельный возраст; Lx – число доживших до возраста Х лет. 7.4 Перспективные расчеты численности населения Существуют следующие методы перспективного расчета: 1) глобальный метод (на основе данных о численности населения в начальном периоде и коэффициентов механического и естественного прироста): К – общий коэффициент прироста населения. 2) метод передвижки возрастов: Глобальный метод хорошо применяется для определения общей численности населения, но не применяется для определения численности отдельных возрастных групп. Для этого можно использовать метод передвижки возрастов (табличный счет). ТЕМА 8. ИЗМЕРЕНИЕУРОВНЯКОНЦЕНТРАЦИИ Konzentrationsmessung Measurement of concentration 8.1 Постановка проблемы Измерение уровня концентрации – это одна из задач статистического анализа. Она заключается в определении степени концентрации изучаемого признака по единицам совокупности, а также в оценке неравномерности его распределения. Подобные цели часто ставятся на практике. Например: 1) в сфере социальной политики, при анализе уровня жизни населения (например, проблема неравномерного распределения доходов); 2) в антимонопольной политике и политике развития конкуренции (выявление доминирующего положения на рынке и рыночной силы хозяйствующих субъектов); 3) для стратегического планирования и анализа рынка отдельных фирм (например, оценка доли рынка по имущественному обороту, прибыли, числу занятых и т. д.). Как можно заметить даже из приведенного выше списка, концентрация в экономическом смысле может касаться двух аспектов: во-первых, сосредоточения экономических признаков (рыночной власти, доли рынка и др.) у немногих единиц совокупности; во-вторых, существования значительных различий, неравенства в размере отдельных единиц совокупности. Соответственно различают абсолютную концентрацию и относительную концентрацию (AbsoluteundrelativeKonzentration, AbsoluteandrelativeConcentration). Пример: - 1,7 % населения обладают более чем 70 % имущества – относительная концентрация; - на рынке определенного товара 3 наиболее крупных предприятия имеют совокупную долю 90 % - абсолютная концентрация. Различие абсолютной и относительной концентрации особенно заметно в случае строго равномерного распределения объема признака по единицам совокупности: относительная концентрация будет равна 0, а абсолютная концентрация будет тем больше, чем меньше число единиц совокупности. 8.2 Показатели концентрации Для измерения относительной концентрации наиболее часто применяется кривая концентрации -кривая Лоренца (Lorenzkurve, Lorenzcurve) и рассчитываемые на ее основе показатели. Пример. Рынок снабжается пятью предприятиями. Три предприятия имеют по10 % рынка каждое, четвертое – 20 %, пятое – 50 %. Для построения кривой Лоренца представим данные в виде накопленной частоты объема совокупности (число предприятий в %) и накопленной частоты объема признака (доля рынка в %). Данные представляются в ранжированном виде (или по возрастанию, или по убыванию). Таблица 8.1. Данные о снабжении рынка предприятиями
Прохождение кривой L сравнивают с прямой D, проходящей под углом 45%. Прямая в соответствует идеальному случаю равномерного распределения и называется прямой равномерного распределения. Накопленная доля рынка в % 100 A 80 60 D 40 L 20 B 0 20 40 60 80 100 Накопленная доля предприятий в % Площадь, заключенная между прямой в и кривой L показывает степень концентрации. Чем больше площадь, тем больше концентрация. Треугольник AOB соответствует случаю абсолютной монополизации. В нашем примере визуально можно сделать вывод о существенной концентрации доли рынка у ведущих предприятий. Если мы будем сравнивать площадь, заключенную между прямой в и кривой L и площадь треугольника АОВ, то получим коэффициент Джини (Gini-Koeffizient, Ginicoefficient). Он используется для количественной оценки уровня концентрации: dxi – доля i-ой группы в общем объеме совокупности; dyi - доля i-ой группы в общем объеме признака; dyiⁿ - накопленная доля i-ой группы в общем объеме признака. Или в немецком варианте: n – число единиц совокупности; i – порядковый номер единицы совокупности. Коэффициент Джини изменяется от 0 до 1: 0 ≤G≤1 При G=0, то признак распределен равномерно, кривая L совпадает с прямой D. При G=1 площадь, заключенную между прямой в и кривой L и площадь треугольника АОВ совпадают, т.е. имеется одна единица совокупности -абсолютная монополия – с долей рынка 100 %. Пример расчета коэффициента Джини. 1) По немецкому варианту формулы и данным табл. 8.1.: = 0,36 Значение коэффициента Джини подтверждает вывод о существенной концентрации признака "доля рынка". 2) По российскому варианту формулы и данным таблицы 8.2.: Таблица 8.2. Распределение доходов населения в _ месяце 199_ г.
Источник данных: (Шмойлова Р.А., 1996, с.365) Рассчитаем коэффициент Джини: При разделении совокупности на десять равных групп формула коэффициента Джини упрощается: Таким образом, концентрация доходов населения (или дифференциация населения по уровню доходов) в нашем примере составила 21 %, что не является критической величиной. Для измерения абсолютной концентрации применяют другие показатели концентрации: коэффициент концентрации, индекс Герфиндаля, индекс Розенблюта, экспоненциальный индекс, коэффициент энтропии и др.. Коэффициент концентрации CRg(Konzentrationsrate, Concentrationratio)- самый простой показатель концентрации: pi – доля i-го значения признака; g – число единиц совокупности с наибольшими значениями признака (g = 3, 4, 5, …). По данным табл.8.1.: т.е. рынок сильно монополизирован Индекс Герфиндаля (Herfindahl-Index, Herfindahlindex) имеет в основе формулу средней арифметической взвешенной, где весами выступают сами доли pi: По данным таблицы 8.1.: Подтверждается вывод о сильной монополизации рынка. В разных странах критические значения коэффициента концентрации и индекса Герфиндаля разные. Так, в РФ они приняты следующими:
В ФРГ доминирующее положение предприятия или группы предприятий на рынке возникает, если - на 1 предприятие приходится свыше 1/3 всего оборота на рынке, либо - на 3 и менее предприятий – свыше ½ оборота, либо - на 5 и менее предприятий – свыше 2/3 оборота. В США безопасным с точки зрения монополизации считается рынок с HHI < 1000, при HHI > 1800 рынок считается слабоконкурентным, при 1000 ≤ HHI ≤ 1800 требуются дополнительные исследования. Максимально возможная концентрация долей крупнейших предприятий на рынке составляет:
Экспоненциальный индекс (Exponentialindex, Exponentialindex) основывается на средней геометрической взвешенной: К особой группе показателей рыночной силы можно отнести индекс Линда (Linda-Index, Lindaindex) который связан с поиском границы олигополии: Аi – общая доля iединиц совокупности с наибольшими значениями признака в объеме признака; Аk – доля k изучаемых единиц совокупности в объеме признака. (примеры расчета индекса Линда и экспоненциального индекса) 8.3 Применение методов измерения уровня концентрации в экономике Рассмотрим применение методов измерения уровня концентрации в экономике на примере анализа и оценки состояния конкурентной среды на нижегородском рынке наружной рекламы.[1] Под продуктовыми границами рынка понимается часть товарной группы "Услуги в области рекламы" – "Услуги по распространению рекламы" (конкретно речь идет о распространении наружной рекламы). Покупателями на рынке услуг в области рекламы всегда выступают рекламодатели. Продавцами услуг по распространению рекламы выступают рекламораспространители Нижегородской области и других крупных российских городов и регионов, а также других стран. Географическими границами рынка услуг по распространению наружной рекламы является территория г. Нижнего Новгорода. В 1997 г. 40 рекламных фирм предлагали услуги по распространению наружной рекламы, в 1998 г. - 52 фирмы. Ограничимся, однако, 8 фирмами, так как эти фирмы являлись наиболее крупными и объем предоставляемых ими услуг составил 90% от общего объема рынка. Доли хозяйствующих субъектов на рынке услуг по распространению наружной рекламы в 1996-1997 гг. отражены в таблице 8.3. Таблица 8.3. Доли хозяйствующих субъектов на рынке услуг по распространению наружной рекламы
Подсчитаем уровень концентрации трех (CR3), четырех (CR4), шести (CR6) и восьми (CR8) крупнейших продавцов на рынке.
Индекс Герфиндаля за 1996 г. составил: 3х3 + 12х12 + 9,5х9,5 + 2х2 + 18х18 + 11,5х11,5 + 32х32 + 2х2 + 10х10 = 1831,5 За 1997 г. : 3,6х3,6 + 24,4х24,4 + 11,2х11,2 + 1,3х1,3 + 5,6х5,6 + 10,4х10,4 + 32х32 + 1,5х1,5 + 10х10 = 1988,26 В соответствии со значениями коэффициента концентрации и индекса Герфиндаля определяем тип рынка: - в 1996 г. - умеренно концентрированный рынок, так как коэффициент концентрации трех крупнейших продавцов равен 62 %, т.е. 45 < CR3< 70. Индекс Герфиндаля равен 1831,5, т.е. 1000 < HHI< 2000; - в 1997 г. тип рынка определен аналогично - умеренно концентрированный, так как коэффициент концентрации равен 68 %, т.е. 45< CR3< 70. Индекс Герфиндаля равен 1988,26, т.е. 1000 < HHI< 2000. Итоговая оценка состояния конкурентной среды на товарном рынке "Услуги по распространению наружной рекламы" в г. Нижнем Новгороде представлена в таблице 8.4. Таблица 8.4. Сводная таблица оценки состояния конкурентной среды на рынке "Услуги по распространению наружной рекламы"
ТЕМА 9. Корреляционный и регрессионный анализ Korrelations- und RegressionsrechnungCorrelation and regression analysis 9.1 Понятие корреляции и регрессии Корреляция (Korrelation, Correlation)– это изучение взаимосвязей двух или более величин. Регрессия (Regression) – это нахождение аналитического выражения взаимосвязи, т.е. определение конкретной формулы. При изучении взаимосвязей одни признаки – факторные обусловливают изменение других – результативных. Факторные признаки обычно обозначаются Х, результативные Y. Методы корреляции предназначены для изучения корреляционной зависимости, которую нужно отличать от функциональной зависимости. Функциональная зависимость означает полное соответствие между изменениями факторного и результативного признака, т.е. зная факторный признак, можно точно определить результативный. Корреляционная связь означает, что одному значению факторного признака соответствует неопределенное число результативных признаков, т.е. мы можем с помощью корреляционного анализа установить лишь тенденцию изменения результативного признака при изменении факторного. Задачи, которые решают корреляционный и регрессионный анализы: 1) предварительный анализ статистической совокупности; 2) установление факта наличия связи, ее направления и формы; 3) установление степени тесноты связи; 4) построение регрессионной модели; 5) интерпретация и практическое использование выводов и результатов. 9.2 Показатели корреляции Показатели корреляции отражают тесноту корреляционной связи. Корреляционную связь различают: I. По числу переменных: 1) простая (парная): 2) сложная (множественная): 3) частичная: II. По виду связи: 1) позитивная; 2) негативная. III. По форме связи: 1) линейная; 2) нелинейная. Yi экстремально позитивная связь сильная позитивная связь Xi слабая позитивная связь сильная негативная связь нет связи экстремально негативная связь нелинейная позитивная связь нелинейная связь Рис. 9.1. Виды связей между двумя переменными Основными показателями корреляции являются: 1) коэффициент Фехнера; 2) коэффициент ассоциации; 3) коэффициент контингенции; 4) критерий согласия - χ²; 5) коэффициент корреляции рангов; 6) коэффициент корреляции; 7) коэффициент детерминации; 8) корреляционное отношение. Рассмотрим все эти показатели подробнее. Коэффициент Фехнера (Fechner-Koeffizient, Fechnercoefficient): nс – число совпадений знаков отклонений индивидуальных величин от средней; nн - число несовпадений знаков отклонений индивидуальных величин от средней. Пример (см. табл.9.1.):. Вывод: существует слабо выраженная негативная связь между X и Y. Коэффициент Фехнера изменяется от -1 до +1. В общем случае, если показатели корреляции: 0 ≤ П ≤ 0,3 , то существует слабая связь; 0,3 ≤ П ≤ 0,7 – умеренная связь; 0,7 ≤ П ≤ 1 – сильная связь. Таблица 9.1. Данные для расчета коэффициента Фехнера
По номинально измеряемым признакам можно рассчитать лишь коэффициенты ассоциации (Assoziationskoeffizient, Associationcoefficient) и контингенции (Kontingenzkoeffizient, Contingentcoefficient) . Таблица 9.2 Данные для расчета коэффициентов ассоциации и контингенции
Существует ли зависимость между двумя качественными признаками – полом и отношением к спорту? 1) по коэффициенту ассоциации Вывод: вряд ли существует такая зависимость, т.е. степень зависимости невелика. 2) по коэффициенту контингенции: Вывод: связь еще слабее. Более точным по сравнению с рассматриваемыми коэффициентами является критерий согласия - χ² Пирсона (χ² AnpassungstestnachPearson, Pearson χ²-testofgoodnessoffit), отражающий связь между двумя и более признаками. О – реальные значения признаков; Е – теоретически выровненные значения признаков. Пример .По данным таблицы 9.3. нужно ответить на вопрос: зависит ли частота несчастных случаев от смены? Предварительная гипотеза: связь отсутствует. Таблица 9.3 Данные о несчастных случаях по предприятию N
Вычислим критерий согласия - χ²: Чем больше χ², тем больше вероятность того, что между О и Е есть существенные различия, т.е. наша гипотеза (связь отсутствует) неверна. Напротив, чем меньше χ², тем несущественнее, случайнее различия между О и Е, т.е. тем больше вероятность верности гипотезы. По специальным таблицам находим критериальное значение χ² с вероятностью 95 % и числом степеней свободы 2 (равно числу строк таблицы-1, т.е. 3-1=2): χ² = 5,99 Таким образом, в нашем примере χ² небольшой (4,8 < 5,99), различия между О и Е случайны, фактическое распределение несчастных случаев по сменам не отличается существенно от теоретически выровненного. Вывод: с 95 % вероятностью можно утверждать, что наша гипотеза верна.[2] Для ординально измеряемых признаков применяется коэффициент корреляции рангов по Спирмену r (SpearmanscherRangkorrelations-koeffizient, Spearman'srankcorrelationcoefficient). d – разность порядковых номеров (рангов) факторного и результативного признаков; n – число наблюдений. Пример: (см. табл. 9.4): Вывод: существует сильная положительная зависимость между стажем и производительностью Таблица 9.4 Стаж и производительность труда по 5 работникам предприятия N
Наиболее точным показателем корреляции является коэффициент корреляции (Korrelationskoeffizient, Coefficientofcorrelation ). Он позволяет учесть не только знаки отклонений значений признака от их средних, но и саму величину отклонений. Его можно рассчитать в два шага: 1) расчет показателя ковариации (kovarianz, covariance) Однако полученные абсолютные величины нельзя сравнивать между собой, т.к. сами признаки Xи Y могут быть выражены в разных единицах измерения или средние `Х и`Y могут быть различны по величине. Поэтому отклонения значений признаков от средних нормируют по среднему квадратическому отклонению, т.е. выражают в долях от sxи sy . 2) расчет коэффициент корреляции На практике применяют другую формулу: По данным табл. 9.4 рассчитаем коэффициент корреляции: Вывод: между стажем и производительностью труда существует сильная положительная связь. Коэффициентдетерминации (Bestimmtheitskoeffizient, coefficient of determination): Он имеет очень простой смысл: какая часть колебаний результативного признака вызвана факторным признаком. В нашем примере 72.25% изменений в производительности труда вызван влиянием стажа работника. Все эти коэффициенты применяются без ограничений при прямолинейной зависимости. При криволинейной зависимости (параболической) они не годятся. Здесь применяются показатель, называемый корреляционным отношением h (Korrelationsverhältnis, Correlationratio). δ² - межгрупповая дисперсия; σобщ² - общая дисперсия совокупности. Учитывая правило сложения дисперсии, можно написать видоизмененную формулу корреляционного отношения - средняя из групповых дисперсий. Различают эмпирическое (фактическое) корреляционное отношение и теоретическое корреляционное отношение. В последнем для расчета δ² берут выровненные (т.е. рассчитанные по уравнению регрессии) значения результативного признака y. Теоретическое корреляционное отношение еще называют индексом корреляции. В целом корреляционное отношение является универсальным показателем корреляции и используется при прямо- и криволинейной зависимости. При строго прямолинейной зависимости коэффициент корреляции и корреляционное отношение совпадают, но чем больше кривизна, тем сильнее они отличаются друг от друга. Для этого коэффициента существует аналогичный предыдущему коэффициент детерминации - η². Для проверки значимости показателей корреляции рассчитывают их ошибки. Средние квадратические ошибки показателей корреляции имеют вид: При количестве наблюдений менее 30 в знаменателе под корнем лучше брать n-1. Показатель корреляции должен в 2-3 раза превосходить ошибку, чтобы с вероятностью 0,95 (0,997) говорить о связи между явлениями. 9.3 Регрессия Регрессия (Regression)– это определение формы взаимосвязи 2-х или более признаков (определение тенденции развития явления). Этапы регрессионного анализа: 1) определение функций, которыми характеризуется наша зависимость (прямая, парабола, гипербола и т.д.); 2) определение параметров (коэффициентов) выбранной функции Y aX+b Yi (Xi ;Yi ) Yi =(aXi +b)
Коэффициенты aXi +b b
Xi X Рис. 9.2. Графическое изображение метода наименьших квадратов Используют метод наименьших квадратов: Его сущность заключается в нахождении таких параметров (коэффициентов) уравнения регрессии, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических (выровненных) значений. Формулы для расчета коэффициентов в случае линейной зависимости:
b = 6 – 1,7*3 = 0,9 3) определение функции регрессии: 4) 5) Y 6) 7) 8) 10 9) 9 10) 8 Ŷ=1.7X+0.9 11) 7 12) 6 13) 5 14) 4 15) 3 a=tg α 16)2 17) 1 18) 0 1 2 3 4 5 X 19) 20) найдя уравнение регрессии можно продолжить зависимость за известные пределы или найти дополнительные показатели внутри их, т.е. экстраполировать или интерполировать значения . При этом нужно учитывать среднюю квадратическую ошибку уравнения регрессии. Последняя формула более точна и удобна. .ТЕМА 10. РЯДЫДИНАМИКИ Zeitreiheanalyse The analysis of time series 10.1 Понятие рядов динамики Ряд динамики (или временной, или хронологический ряд) – это ряд чисел, характеризующих развитие явления во времени. Ряд динамики следует отличать от ряда распределения. В общем виде ряд динамики обозначается, как У каждого ряда динамики имеются два элемента: уровень ряда y и момент (период) времени t. Уровень ряда – это показатель, характеризующие объект исследования. Различают два вида рядов динамики: 1) моментный ряд дает сведения о развитии явления на какие-то последовательные моменты времени (например, численность населения на 1.01.2000); 2) интервальный ряд дает сведения о развитии явления за определенные периоды времени (например, выпуск продукции предприятия за квартал). В уровнях моментного ряда содержится повторный счет, следовательно, их не имеет смысла суммировать (можно найти только изменение - разность). По интервальным рядам можно определять суммы и нарастающим итогом – конечный показатель. Компоненты ряда динамики: 1) тренд (Trend, trend) – это основная тенденция развития явления (в долгосрочном плане) – T(t); 2) циклическая (конъюнктурная) компонента (zyklische Komponente, cyclicalcomponent) показывает влияние конъюнктурных колебаний (периодически повторяющихся в среднесрочном плане) – Z(t); 3) сезонная компонента (die Saisonkomponente, seasoncomponent )отражает влияние сезонных или краткосрочных колебаний – S(t); 4) остаточная компонента (dieRestkomponente, restcomponent)отражает влияние прочих факторов, объяснимых и нет – R(t). Z( t) S( t) T( t) Рис. 10.1. Компоненты ряда динамики Между компонентами ряда динамики существует связь. Она бывает двух видов: 1) аддитивная (AdditiveVerbundenheit, a additive relationship)
d2
d1 2) мультипликативная (Multiplikative Verbundenheit, a multiplicative relationship)
d3
d2 d1
или На практике совмещают трендо трендовые и конъюнктурные колебания, обозначая их как Т, а остаточную компоненту прибавляют к сезонной. Тогда получается для аддитивной и мультипликативной связи соответственно. Анализ рядов динамики предполагает решение следующих задач: 1) определение среднего уровня ряда; 2) определение темпов роста и прироста; 3) определение тренда; 4) определение сезонной компоненты; 5) преобразование рядов: сглаживание, выравнивание, интерполяция, экстраполяция, приведение рядов к одному основанию, смыкание рядов. 10.2 Показатели ряда динамики Каждый ряд характеризуется начальным уровнем, конечным уровнем и промежуточными уровнями. Важным показателем является средний уровень ряда.Для интервального ряда средний уровень рассчитывается по среднеарифметической простой и взвешенной (если интервалы в рядах, соответственно, равноотстоящие и неравноотстоящие): где n – число уровней ti – длительность интервала времени между уровнями Примеры. 1) Предприятие выпускает продукцию по кварталам года I кв. – 300 тыс., II кв.– 250 тыс., III кв.– 100 тыс., IV кв.– 500 тыс. Т.к. ряд интервальный с равноотстоящими интервалами, применим среднюю арифметическую простую: 2) Предприятие выпустило продукции за первые 3 месяца года на 300 тыс., за последующие 2 месяца – на 250 тыс., за 1 месяц – на 100 тыс. и за оставшиеся 6 месяцев – на 500 тыс. Т.к. это интервальный ряд с неравноотстоящими интервалами, применяем среднюю арифметическую взвешенную: Для моментного ряда c равноотстоящими интервалами средний уровень исчисляется по формуле средней хронологической простой, которая имеет следующий вид: Пример. Остатки оборотных средств предприятия составили на 1.01 – 110 тыс., на 1.02 – 120 тыс., на 1.03 – 130 тыс., на 1.04 – 140 тыс., на 1.07 – 170 тыс. Определим средние остатки оборотных средств за I квартал: В случае если интервалы неравноотстоящие, применяют формулу средней хронологической взвешенной: В нашем примере средние остатки оборотных средств за полугодие: Эту задачу можно решить и другим способом (в несколько действий) – используя среднеарифметическую простую: 10.3 Темпы роста и прироста Темп роста (Wachstumsfaktor, Growthfactor) отвечает на вопрос, во сколько раз изменилось явление и получается делением последующего уровня ряда на предыдущий. Темп прироста (Wachstumsrate, Growthrate) отвечает на вопрос, на сколько увеличилось явление и получается делением абсолютного прироста на предыдущий уровень. Среднегодовой темп роста находится по средней геометрической: Пример. Фирма произвела услуг в 1 году – на 100 у.е., во 2 году – на 120 у.е., в 3 году – на 132 у.е. и в 4 году – на 200 у.е. Среднегодовой темп прироста нельзя находить как среднее из годовых темпов прироста. Для этого существует формула: Т.е. среднегодовой темп прироста составил 0,26 или 26 %. 10.4 Правила составления рядов динамики Анализ рядов динамики дает правильные результаты при условии правильного составления ряда. Для этого существуют следующие правила: 1) Все уровни динамического ряда должны быть сопоставимыми во времени. Например, численность населения обычно указывается на начало года. 2) Все уровни динамического ряда должны быть сопоставимыми в пространстве, т.е. относиться к одной и той же территории. Исключение допускается только в случае, когда территориальные изменения рассматриваются как самостоятельный показатель динамики (например, в 1993 г. в состав Нижегородской области вошел Сокольский район Ивановской области). 3) Все уровни динамического ряда должны быть сопоставимыми по методологии расчета. Если способы расчета меняются с течением времени, то нужно сделать пересчет. Например, для составления динамического ряда произведенного в Нижегородской области ВВП данные по производству совокупного общественного продукта (СОП), рассчитывавшегося до начала 90-х годов, пересчитываются в ВВП. 10.5 Преобразование рядов динамики При анализе рядов динамики приходится делать некоторые преобразования, которые улучшают условия анализа. I. Сглаживание и выравнивание ряда (dieGlättung, smoothing) Это делается для погашения случайной колеблемости уровней ряда. Иными словами сглаживание и выравнивание выявляют основное направление развития явления (тренд). Существуют следующие методы сглаживания и выравнивания: 1) выявление тренда визуальным методом (на графике) Этот метод наиболее прост и наименее точен. 2) механическое выравнивание Оно заключается в укрупнении интервалов путем расчета средних уровней не за один период, а за несколько. Например, этот прием часто используют при обработке динамических рядов урожайности сельскохозяйственных культур, рассчитывая среднюю урожайность не за 1 год, а за 5 лет. 3) метод скользящей средней Этот метод применяется следующим образом (см. данные табл. 10.1). Скользящая средняя заменяет несколько уровней одним значением. В первую очередь выбирается интервал сглаживания (в нашем примере – 3 мес.). Чем он больше, тем сглаживание сильнее Далее подсчитывают значения средней: и т.д. Таблица 10.1 Сведения о продажах продукции по месяцам на предприятии N
Недостаток этого метода в том, что теряются уровни в начале и в конце ряда, а при криволинейном развитии явления скользящая средняя смещает уровни ряда. Для избежания этого применяют более сложный расчет скользящей средней взвешенной. 4) аналитическое выравнивание. В этом случае фактические уровни заменяются уровнями, вычисленными на основе определенной функции (кривой). В нашем случае это линейная зависимость (уравнение прямой), хотя выравнивание может осуществляться и с помощью гиперболы, параболы, показательной, экспоненциальной и др. функций: Коэффициенты a и b находятся по методу наименьших квадратов. Расчет можно значительно упростить, если изменить нумерацию уровней ряда (так, чтобы Σ ti = 0 и при четном, и при нечетном числе уровней) – см. верхние строки табл. 10.1. Тогда получим следующие формулы коэффициентов: Пример (см. табл. 10.1). Теперь подсчитываем выровненные значения y: и т.д. Далее можно вычислить разницу между трендовыми значениями и первоначальными уровнями ряда. Это даст нам возможность оценить и, если нужно, устранить влияние сезонной компоненты. II. Приведение ряда динамики к одному основанию Используется в случае, если необходимо сравнение или сопоставление тенденций в нескольких рядах. Примеры. 1) Начальные уровни рядов динамики находятся в различных периодах (табл. 10.2). По какому предприятию темп роста выпуска продукции выше? Таблица 10.2 Выпуск продукции по двум предприятиям (в %)
1΄ - это 1-й ряд, приведенный к другому основанию (к 1987 г.) по пропорции: Тр1987 = 100 % Тр1988 = = 104 % и т.д. Таким образом, в сопоставимом виде у предприятия 2 темп роста выпуска продукции выше, чем у предприятия 1. 2) уровни ряда динамики выражены абсолютными величинами и начальные уровни имеют различные размеры (табл. 10.3). По какому предприятию темп роста выпуска продукции выше? Таблица 10.3 Выпуск продукции по двум предприятиям (в тыс. руб.).
При сравнении динамики выпуска продукции двух предприятий после перевода абсолютных значений в относительные можно сделать вывод о более высоких темпах роста на первом предприятии. 3) Ряды динамики можно приводить к одному основанию не по одному показателю, а по нескольким показателям. Так, например, на предприятии имеются данные о средней производительности труда и заработной плате (табл. 10.4.). Как соотносятся между собой темпы роста этих двух показателей ? Таблица 10.4. Средняя производительность труда и заработная плата по предприятию
После перевода показателей в относительный вид можно сказать, что темп роста производительности труда за рассматриваемый период опережал темп роста заработной платы. Следовательно, предприятие развивалось устойчиво, его конкурентоспособность возрастала. III. Смыкание рядов динамики Метод применяется, если необходимо совместить два динамических ряда, характеризующих одно явление. Пример. Таблица 10.5 Данные о продажах предприятия
Принимаем 1998 г. за 100 %, а остальные уровни пересчитываем. Иногда рассчитывают коэффициент до и после реорганизации: Теперь можно составить сомкнутый ряд по абсолютным значениям: IV. Интерполяция и экстраполяция Интерполяция – это нахождение уровней внутри динамического ряда. Экстраполяция - это нахождение уровней за пределами динамического ряда. Неизвестные уровни находятся с помощью всех перечисленных выше методов. 10.6 Определение и устранение влияния сезонных колебаний Для определения сезонных колебаний существует два способа: I. Если мы исходим из того, что тренд не определен или неизвестен. В таком случае цель состоит в нахождении ряда динамики, очищенного от сезонных колебаний, прохождение которого похоже на тренд (показывает такую же, как тренд, тенденцию развития). Пример. Таблица 10.5 Оборот предприятия за три года
Руководство предприятия хотело бы знать, насколько велико влияние сезонных условий на оборот (такая постановка вопроса типична для некоторых отраслей, например, для сельского хозяйства). 1) Определим среднемесячный оборот по годам 1 год – 252/12=21 2 год – 276/12=23 3 год – 288/12=24 2) Рассчитаем относительные показатели (sij) Относительный показатель = (Реальный месячный оборот)/ (Средний оборот за месяц) Январь 1-го года: Результат (95,2%) показывает, что оборот в этот период был на 4,8% ниже среднемесячного уровня. Январь 2-го года: и т.д. 3) Рассчитанные величины для одноименных месяцев складываются, и вычисляется их средняя, которая называется сезонным индексом или индексом сезонности (si) Это означает, что за три года оборот предприятия в январе-месяце подвержен влиянию сезонных колебаний на 8,7% ниже нормального годового значения. Все двенадцать индексов сезонности образуют так называемую сезонную волну (1200,0), которая тем сильнее, чем больше отклонения в каждом месяце от нормального значения (100%). 4) Исключаем влияние сезонной компоненты (Si) Чтобы получить значения ряда, очищенные от сезонных колебаний (выровненные значения), нужно от каждого уровня ряда отнять сезонную компоненту. Январь 1-го года: Это означает, что если бы в этот период не было бы сезонных колебаний, то оборот составил бы 21,9 тыс. у.е. II. Если нам известен тренд ряда 1-й шаг. Расчет тренда любым способом 2-й шаг. Определение вида связи компонент ряда и расчет сезонных значений в виде разницы или частного. 3-й шаг. Определение сезонной компоненты, как среднеарифметическую из сезонных значений. 4-й шаг. Исключение влияния сезонной компоненты. ТЕМА 11. Выборка StichprobenverfahrenSampling 11.1 Понятие выборки Выборка (Stichprobe, sample) – это один из видов несплошного наблюдения, когда о целом судят по части. В качестве теоретических основ выборочного наблюдения используется теория вероятностей и математическая статистика, в особенности теоремы Бернулли, Пуассона, Чебышева, Ляпунова, закон больших чисел. Для того, чтобы выборка давала хорошие результаты, необходим случайный отбора, т.е. избежание преднамеренности (в прикладных науках, например, в маркетинговых исследованиях, бывают исключения). Условия проведения выборки: 1) требуемая точность устанавливается самостоятельно; 2) выборка должна давать значительное сокращение расходов по сравнению со сплошным наблюдением. Причины проведения выборки: 1) невозможность сплошного наблюдения; 2) повышенная трудоемкость сплошного наблюдения; 3) необходимость проверки результатов сплошного наблюдения. Условные обозначения, используемые в этой теме: N – объем генеральной совокупности; n – объем выборки; - генеральная средняя; - средняя выборки; w – выборочная доля; p – генеральная доля; σ² - генеральная дисперсия; s² - выборочная дисперсия. 11.2 Способы отбора Существует несколько способов, обеспечивающих случайность и исключающих преднамеренность отбора: 1) собственно случайный отбор (Zufallsstichprobe, randomsample) - это отбор по жребию, по таблице случайных чисел. Случайный отбор бывает повторным (отобранная единица совокупности может снова попасть в выборку) и бесповторным (отобранная единица совокупности вновь в выборку не возвращается). Пример повторного отбора – измерение плотности пассажиропотока на определенном городском маршруте. Пример бесповторного отбора – лотерея "Спортлото". Бесповторный отбор более точен, но и более сложен. 2) механический отбор (MechanischeAuswahl, mechanicalsample) - отбор из списков. На всю генеральную совокупность составляется общий список и далее из него через равный интервал отбирают нужное количество единиц. Размер интервала равен 1/долю выборки. Так, при 2 %-ной выборке интервал будет равен 1/0,02 = 50 ед. Общий список составляется двумя способами: единицы совокупности располагаются в случайном порядке или в определенном порядке, имеющем прямое или косвенное отношение к цели исследования. При первом варианте отбор можно начинать с любой единицы, при втором – с середины первого интервала. Примеры: табельные номера работников предприятия (первый вариант), алфавитный список студентов потока (второй вариант) 3) типическийотбор (geschichtete Auswahl, stratified sample) При этом способе генеральная совокупность разбивается на типические группы, которые должны как можно сильнее отличаться друг от друга и быть однородными внутри. Тогда типический отбор дает хорошие результаты. Затем из каждой типической группы первыми двумя способами отбирают единицы в выборочную совокупность. Пример. Обследуются предприятия различных форм собственности. Формы собственности представляют различные типические группы. 4) серийныйотбор (Klumpenauswahl, cluster sample) Генеральная совокупность разбивается на серии. В отличие от типических групп, серии должны как можно менее отличаться друг от друга и быть разнородными внутри. Обследуется часть серий, зато внутри серии – как правило, все единицы. Отбор из серий в выборку также осуществляется первыми двумя способами. Пример. Обследование одного ящика пива из партии. 11.3 Ошибки выборки При проведении любого наблюдения случаются ошибки. Выборка характеризуется прежде всего ошибками представительства или репрезентативности, суть которых заключается в отклонениях выборочных значений от генеральных: гдеΔ – предельнаяошибкавыборки (absolute Stichprobenfehler, absolute sampling error) Для каждого способа отбора существуют свои формулы ошибок. 1) Случайный отбор - повторный случайный отбор: где μ средняя (стандартная) ошибка выборки; t – кратность средней ошибки выборки; n – объем выборки. Кратность средней ошибки выборки связывает наши расчеты с определенной вероятностью p, что расчет ошибки правильный: при p=0,997 t=3, при p=0,954 t=2, при p=0,683 t=1 и т.д. (см. таблицу нормального распределения). Данная формула верна лишь для случая нормального распределения. В случаях отклонений от нормального распределения пользуются таблицей распределения Стьюдента. Например, при n<30 - случай малой выборки – в знаменателе будет n-1, а t будет определяться по таблице распределения Стьюдента, у которой 2 входа: вероятность p и число степеней свободы k: При p=0,95 t=12,71 (k=1), При p=0,95 t= 4,3 (k=2), При p=0,95 t= 3,18 (k=3), При p=0,95 t= 2,79 (k=4), При p=0,95 t= 1,96 (k = ¥) и т.д. (см. таблицу распределения Стьюдента) Пример. Из стада в 10 тыс. коров обследовано 100 коров. Половина из обследованных признана породистой. Определить долю породистых коров во все стаде. Доля породистых коров во всем стаде p = w±D.= 0,5 ± 0,098 w = 0,5 При t = 1,96 (вероятность 95 %) в = 1,96 = 0,098. Т.е. с вероятностью 0,95 можно утверждать, что во всем стаде породистых коров 50 ± 9,8 %. - бесповторный случайный отбор: 2) Механический отбор Используются те же формулы, хотя фактически ошибки при данном виде отбора составляют меньшую величину. Следствие отрицательное – ошибки завышаются, следствие положительное – повышается уверенность в надежности результата. 3) Типический отбор Вместо общей дисперсии (σ²) используется средняя из внутригрупповых дисперсий : - повторный типический отбор: - бесповторный типический отбор: 4) Серийный отбор Здесь вместо общей дисперсии используется межгрупповая дисперсия δ²: - повторный серийный отбор - бесповторный серийный отбор где s – число отобранных серий, S – общее число серий в генеральной совокупности. В случае, если внутри серий обследуются не все единицы, формулы усложняются: - повторный серийный отбор - бесповторный серийный отбор где m – число отобранных в сериях единиц После нахождения величины ошибки определяются доверительные интервалы: 11.4 Необходимая численность выборки 1) Случайный отбор - повторный отбор На практике при определении численности выборки встает вопрос о нахождении генеральной дисперсии. Существуют следующие способы: а) если ранее уже проводилось обследование данной совокупности, то дисперсия берется из архива; б) проводится пробное обследование, чтобы по его результатам ориентировочно определить выборочную дисперсию; в) самый дешевый и распространенный способ – взять максимально возможную дисперсию - σ² = max из предполагаемых. Для этого используют размах вариации R. По правилу шести s он приблизительно равен 6s: R» 6s. Тогда s»R/6, а Если речь идет о доле, то w(1-w) = 0,5 (1-0,5) = 0,25. - бесповторный отбор Пример. Определить численность выборки, если D2 = 0,01 N = 100 s2 = 1 t = 2 Тогда n = Þ лучше провести сплошное обследование, а не выборочное. 2) Механический отбор Используются те же формулы. 3) Типический отбор В формулах вместо выборочной дисперсии (σ²) используется средняя из внутригрупповых дисперсий : статистический наблюдение индекс население - повторный отбор: - бесповторный отбор: 4) Серийный отбор В формулах вместо выборочной дисперсии σ² используется межгрупповая δ²: - повторный отбор: - бесповторный отбор: 11.5 Практика применения выборки Основные направления применения выборочного метода на практике: 1) маркетинговые исследования; 2) изучение общественного мнения; 3) обследование уровня цен и объемов продаж в регионах; 4) оценка качества продукции; 5) статистический контроль производства; 6) обработка материалов переписи населения и переписей вообще. [1] По материалам Доклада Нижегородского территориального управления Министерства РФ по антимонопольной политике и поддержке предпринимательства "Состояние конкуренции на товарных рынках Нижегородской области в 1998 г." [2] Более подробно о χ²-тесте и других тестах – см. раздел статистическаяпроверка гипотез |