Проблемы использования результатов выборочных обследований домашних хозяйств для моделирования структуры их расходов
Матыцин М.С.
Научно-исследовательский университет
«Высшая школа экономики», Москва
Проблемы использования результатов выборочных обследований домашних хозяйств для моделирования структуры их расходов
При анализе и моделировании структуры расходов населения зависимость от доступной статистической информации является критичной. При прогнозировании такой структуры не представляется возможным ограничиться лишь макроэкономическими данными необходим более точный инструмент. Анализ динамики расходов, как на отдельные продукты, так и на крупные группы отчетливо показывает достаточно сильную волатильность структуры расходов. Для ее учета необходимо привлечение дополнительных микроэкономических характеристик и параметров исследуемого объекта, которые можно получить, используя результаты выборочных обследований.
Однако в большинстве известных работ не уделяется должного внимания проблемам формирования и первичной обработки данных. Фактически такое моделирование не может быть реализовано без использования результатов специальных обследований бюджетов домашних хозяйств, организация и проведение которых может быть осуществлена только органами государственной статистики или объединенными силами нескольких научных организаций.
Для моделирования структуры расходов населения в России на данном этапе используются два основных источника информации Выборочное обследование бюджетов домашних хозяйств (ВОБДХ) ежеквартальное исследование, проводимое Росстатом, и Российский Мониторинг Экономики и Здоровья (RLMS).
1. ВОБДХ характеризуется большим числом наблюдений, высокой частотой и широтой охватываемых вопросов.
Эти данные имеют ряд ограничений на использование для целей построения модели структуры расходов домашних хозяйств. Некоторое время назад Росстат открыл свободный доступ всех заинтересованных исследователей к микроданным обследования. Однако их полноценное использование затруднено целым рядом факторов. Во-первых, предоставлены не первичные данные дневников и опросов, а набор сгруппированных характеристик в разрезе домашних хозяйств. Так, с точки зрения анализа структуры расходов критичным является отсутствие данных о покупках отдельных товаров приводится лишь информация о расходах на группы продуктов разной степени агрегированности. То есть данные доступны только в стоимостном выражении и отсутствует информация о ценах покупок (или натуральном объеме), что является необходимым как при оценке большинства моделей спроса (AIDS-модель, Роттердамская, транслоговая модели), так и для исследования взаимосвязи этих цен и уровня дохода, в том числе проверки гипотезы эндогенности цен.
С точки зрения панельного анализа существенной проблемой также может стать ремонт панели, проводимый Росстатом. В данном случае критичным является не столько естественное истощение панели с последующим добавлением новых наблюдений, а присвоение новым семьям номеров выбывших наблюдений, без явного указания на такую замену. В результате сопоставления данных в разных периодах обнаруживается, что домашнее хозяйство с одним и тем же номером может обладать совсем разными характеристиками, которые из общих соображений должны оставаться относительно стабильными. Так в любых двух соседних периодах существует достаточно большое число семей (до нескольких процентов), для которых очень значительно отличается размер семьи (на 3-5 человек), а также номер 10%-й доходной группы, к которой они принадлежат. Такие скачки, по всей видимости, свидетельствуют о замене наблюдения под этим номеров на новое.
Возникают существенные проблемы с распространением выборочных данных на всю совокупность семей. Хотя Росстат и предлагает механизм перевзвешивания результатов обследования для более точного их соответствия параметрам генеральной совокупности, даже взвешенные результаты сильно отклоняются от данных макростатистики. Один из базовых параметров средний доход отличается на десятки процентов (см. таблицу). Более того, даже показатели, рассчитываемые на основе выборочного обследования, впоследствии существенно корректируются. Так, например, коэффициенты дифференциации населения по доходам (коэффициенты Джини и фондов) в агрегированных итогах, приводимых Росстатом, достаточно сильно отличает от величины этого показателя, публикуемого Росстатом в официальных справочниках:
2007 год |
По ВОБДХ |
Росстат |
Средний доход на душу (руб. в месяц) |
7 874 |
12 601 |
Коэф. Фондов |
10,6 |
16,8 |
Коэф. Джини |
0,375 |
0,422 |
2. RLMS, имеющий в своей структуре раздел, посвященный расходам домашних хозяйств на различные товары, является вторым источником информации, который отчасти восполняет пробелы официальной статистики. Обследование RLMS проводится в форме ежегодных интервью представителей домашних хозяйств и, в отличие от ВОБДХ, не подразумевают заполнения дневников или журналов в течение периода времени.
Ключевым с точки зрения анализа структуры расходов является информация о покупках продуктов питания, табака и алкоголя (всего 56 категорий) не только в стоимостном, но и в натуральном выражении, что позволяет получить индивидуальные данные о ценах покупок.
Представлены данные о расходах на целый ряд непродовольственных товаров (одежда, детская/взрослая, техника, топливо и т.д.) и услуг. В силу естественной сложности измерения соответствующего параметра эти данные не приводятся в натуральном выражении, а лишь в стоимостном.
Информация о расходах на покупку отдельных видов товаров и услуг собирается на основе различных временных горизонтов. Так, расходы на покупку продовольственных товаров фиксируются лишь за период недели предшествующей интервью, что, очевидно, вносит слишком большой фактор случайности - далеко не все (в том числе, регулярно потребляемые) продовольственные товары покупаются семьей каждую неделю.
Таким образом, целый ряд позиций может быть пропущен в обследовании при заполнении домашним хозяйством соответствующего раздела просто в силу малой длины горизонта опроса. Что приводит к значительным несоответствиям номенклатуры покупок для каждой семьи в соседних волнах опроса и значительно затрудняет межвременные сопоставления.
В процессе анализа данных были выявлены две основных проблемы, которые повлияли на результаты и точность оценивания. Первая - неполная система ответов. То есть ситуация, когда опрашиваемый указывал, что приобретал тот или иной продукт питания, но «забывал» указать количество или стоимость (или, реже, и то, и другое). Такое искажение незначительно занижает общую сумму расходов, так как количество пропусков сравнительно невелико: 97,7% респондентов указали и стоимость, и количество приобретенного товара.
Вторая проблема, в отличие от первой, носит более содержательный характер (тогда как первая скорее технический) и может быть описана как «рыхлость» данных. Многие домашние хозяйства, особенно семьи с относительно низким уровнем доходов, за отчетный период приобретали лишь небольшую часть номенклатуры товарных позиций в опросе (например, для данных 2006 года в среднем семьи приобретали 15,6 позиций из 56 или 28% от номенклатуры). Такое поведение, возможно, также связано с коротким горизонтом опроса одна неделя. Эта проблема может быть частично решена путем перехода от расчетов на уровне индивидуальных показателей к работе с однородными группами домашних хозяйств.
В отличие от ВОБДХ в RLMS при ремонте панели номера не повторяются, так что использование межвременных сопоставлений более корректно, в том числе для структуры расходов отдельных домашних хозяйств. Такой анализ (на примере 2005-2006 годов) подтверждает выводы о «рыхлости» данных. При горизонте опроса о покупках продуктов питания длиной всего одну неделю для одних и тех же семей достаточно сильно различается не только структура, но и номенклатура покупок в соседних волнах обследования. Так, только 10 семей (из 4 тысяч) полностью повторили свои покупки в двух соседних годах. Среднее значение совпадения составляет 78%. Хотя это значение не представляется слишком низким, оно существенно искажает значения индексов цен. Вследствие несовпадения номенклатуры покупок семьи в двух периодах при расчете индекс цен Ласпейреса существенно занижается (значение составляет 0,69 в 2005-06 гг.), а индекс цен Пааше завышается (2,84).
Такое искажение проявляется не только в отклонении индексов от адекватных значений, но и их в их соотношении. Из графика (рис. 1) видно, что индексы Ласпейреса и Пааше являются очень слабо зависимыми, так что выбор индекса может радикально повлиять на выводы о динамике цен индивидуальной продуктовой корзины.
Рис. 1. Соотношение индивидуальных индексов цен по данным RLMS 2005-2006 гг.
При анализе динамики цен и расходов отдельных семей выявляются наблюдения с колоссальными разрывами. Так, не только уровень цен покупок может отличаться в сотни раз для одной семьи двух соседних периодах, но и общая сумма расходов, и сумма расходов на питание могут различаться в 150-170 раз.
Описанная «рыхлость», наличие явных неточностей (в том числе, пропусков в ответах) и значительные разбросы в индивидуальных данных не позволяют работать напрямую с исходной информацией по отдельным домашним при моделировании структуры расходов. Для анализа и моделирования такой структуры, в том числе для целей прогнозирования, необходимо выделение однородных в смысле уровня расходов или других признаков групп домашних хозяйств.
Такой подход оказывается достаточно эффективным. В том числе можно исследовать взаимосвязь уровня расходов и цен покупок, с помощью расчета «пространственных» индексов цен. Подробнее о реализации этого метода говорится в докладе Ершова Э.Б. и Матыцина М.С. «Экономическая теория и статистическая практика анализа потребительского поведения домашних хозяйств» в рамках настоящего Конгресса.
Моделирование и среднесрочное прогнозирование структуры расходов домашних хозяйств в российской экономике представляется важной задачей, особенно актуальной в период кризиса. Однако такое моделирование, невозможное без учета микроэкономических факторов на уровне отдельных семей или однородных групп, существенно затруднено отсутствием свободного доступа к необходимой статистической информации.
Для частичного восполнения пробелов в статистике необходимо комбинировать информацию из различных источников, в том числе объединять результаты ВОБДХ и RLMS, что сопряжено с рядом как технических, так и содержательных проблем. Анализ индивидуальных выборочных показателей свидетельствует в пользу необходимости объединения наблюдений в однородные группы для более корректного моделирования структуры расходов. Отдельной проблемой является согласование результатов моделей на уровне выборочных обследований с макростатистикой и распространение их на генеральную совокупность.
- Deaton A. The Analysis of Household Surveys: A Microeconomic Approach to Development Policy, World Bank Publications, 1997.
- Consumer price index manual: theory and practice (ILO, World Bank, IMF, Eurostat), 2004.
- Бондарев А. Оценивание функций спроса для групп продовольственных товаров по российской экономике за 1999-2004 гг., М.: ИЭПП, 2004.
- Кёвеш П. Теория и практика экономического анализа. Москва, Финансы и статистика, 1990.
- Думнов Д.И. О методологии и организации выборочных обследований домашних хозяйств. Экономическая наука в современной России, №2, 2002.
PAGE \* MERGEFORMAT 1