Регрессионные модели с переменной структурой (фиктивные переменные).
Термин “фиктивные переменные” используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная — это индикаторная переменная, отражающая качественную характеристику. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В литературе можно встретить термины «структурные переменные» или «искусственные переменные»
Например, в результате опроса группы людей 0 может означать, что опрашиваемый — мужчина, а 1 — женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.
Использование фиктивных переменных в моделях с временными рядами
В регрессионных моделях с временными рядами используется три основных вида фиктивных переменных:
1) Переменные-индикаторы принадлежности наблюдения к определенному периоду — для моделирования скачкообразных структурных сдвигов. Границы периода (моменты “скачков”) должны быть установлены из априорных соображений. Например, 1, если наблюдение принадлежит периоду 1941-45 гг. и 0 в противном случае. Это пример использования для моделирования временного структурного сдвига. Постоянный структурный сдвиг моделируется переменной равной 0 до определенного момента времени и 1 для всех наблюдений после этого момента времени.
2) Сезонные переменные — для моделирования сезонности. Сезонные переменные принимают разные значения в зависимости от того, какому месяцу или кварталу года или какому дню недели соответствует наблюдение.
3) Линейный временной тренд — для моделирования постепенных плавных структурных сдвигов. Эта фиктивная переменная показывает, какой промежуток времени прошел от некоторого “нулевого” момента времени до того момента, к которому относится данное наблюдение (координаты данного наблюдения на временной шкале). Если промежутки времени между последовательными наблюдениями одинаковы, то временной тренд можно составить из номеров наблюдений.
Временной тренд отличается от бинарных фиктивных переменных тем, что имеет смысл использовать его степени: t2 , t3 и т. д. Они помогают моделировать гладкий, но нелинейный тренд. (Бинарную переменную нет смысла возводить в степень, потому что в результате получится та же самая переменная.)
Можно также комбинировать указанные виды фиктивных переменных, создавая переменные “взаимодействия” соответствующих эффектов.
Комбинация рассмотренных фиктивных переменных позволяет моделировать еще один эффект — изменение наклона тренда с определенного момента. Помимо тренда в регрессию следует тогда ввести следующую переменную: в начале выборки до некоторого момента времени она равна 0, а вторая ее часть представляет собой временной тренд (1, 2, 3 и т. д. в случае одинаковых интервалов между наблюдениями).
Использование фиктивных переменных имеет следующие преимущества:
1) Интервалы между наблюдениями не обязательно должны быть одинаковыми. В выборке могут быть пропущенные наблюдения.
2) Коэффициенты при фиктивных переменных легко интерпретировать, они наглядно представляют структуру динамического процесса.
3) Для оценивания модели не приходится выходить за рамки классического метода наименьших квадратов.
Пример 3.3.6. Требуется построить регрессионную модель зависимости заработной платы работника (Y) от возраста (Х) с использованием фиктивной переменной по фактору пол по 20 работникам одного предприятия (табл. 3.3.17).
Табл.3.3.17.
№ |
Y – заработная плата работника за месяц ($) |
X - возраст работника (лет) |
Z – пол, М/Ж |
1 |
300 |
29 |
Ж |
2 |
400 |
40 |
М |
3 |
300 |
36 |
Ж |
4 |
320 |
32 |
Ж |
5 |
200 |
23 |
М |
6 |
350 |
45 |
Ж |
7 |
350 |
38 |
Ж |
8 |
400 |
40 |
М |
9 |
380 |
50 |
М |
10 |
400 |
47 |
М |
11 |
250 |
28 |
Ж |
12 |
350 |
30 |
М |
13 |
200 |
25 |
М |
14 |
400 |
48 |
М |
15 |
220 |
30 |
Ж |
16 |
320 |
40 |
М |
17 |
390 |
40 |
М |
18 |
360 |
38 |
М |
19 |
260 |
29 |
Ж |
20 |
250 |
25 |
М |
Решение
Введем в модель фиктивную переменную Z, которая принимает два значения: 1 – если пол мужской; 0 – если пол женский. Оценим параметры модели методом наименьших квадратов. Для вычислений воспользуемся Пакетом анализа в EXCEL. Уравнение множественной регрессии примет вид:
.
Коэффициент детерминации равен 0,74.
Уравнение регрессии значимо по F-критерию на 5% уровне, так как
Из полученного уравнения регрессии следует, что при одном и том же возрасте заработная плата у работников мужчин на 17,27$ в месяц выше, чем у женщин.
Из модели, включающей фиктивную переменную можно получить частные уравнения регрессии для работников мужчин (z=1) и женщин (z=0):
Сопоставляя частные уравнения регрессии, видим, что эти уравнения регрессии отличаются значениями свободного члена, а соответствующие линии регрессии параллельны (рис. 3.3.22). График частного уравнения регрессии для мужчин будет располагаться выше, чем график частного уравнения регрессии для женщин.
Рис. 3.3.22. Графики частных уравнений регрессии.