Эконометрика: шпаргалка

Вопрос №1

Понятие эконометрической модели. Наиболее распространенная форма представления стохастической зависимости. Пример.

Эконометрика — это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым экономическим явлениям и процессам.

Эконометрика представляет собой сочетание трех наук:

  1. экономической теории;2) математической и экономической статистики;3) математики.

Эконометрика ставит своей целью количественно охарактеризовать те экономические закономерности, которые экономическая теория выявляет и определяет лишь в общем.

Анализ экономических процессов и явлений в эконометрике осуществляется с помощью математических моделей, построенных на эмпирических данных.

Выделяют три основных класса эконометрических моделей.

  1. Модель временных рядов.
  2. Регрессионные модели с одним уравнением.
  3. Системы одновременных уравнений.

Наиболее распространенной в эконометрических приложениях формой представления стохастической зависимости является аддитивная линейная форма.

y = f(x,b) + e – стохастическое уравнение

y = b0+b1*xt(1)+b2*xt(2)+…+bp*xt(p)+Et – линейная зависимость

Еt – это ошибка прогноза модели

Вопрос №2

Экзогенные, эндогенные, предопределенные переменные эконометрической модели. Пример.

Итак, в эконометрической модели будем различать следующие переменные:

1. Эндогенные переменные. Эндогенными переменными являются экономические величины, которые объясняются эконометрической моделью. Значения эндогенных переменных формируются в результате одновременного взаимодействия переменных, образующих модель. Эндогенные переменные зависят от экзогенных и возмущающих переменных.

2. Экзогенные переменные. Значения экзогенных переменных в каждый период времени определяются вне модели. Экзогенные переменные являются внешними наперед заданными экономическими величинами. Они, следовательно, объясняются не моделью, а экономическими факторами и закономерностями, лежащими за границами этой модели.

3. Предопределенные переменные. Эндогенные и экзогенные переменные могут быть также лаговыми. Под лаговой мы понимаем переменную, значения которой отстают на один или несколько периодов. Если — значения обычной переменной то — ее лаговые значения, смещенные на один период. При наличии в модели лаговых эндогенных и экзогенных переменных значение эндогенной переменной в период времени зависит как от своих собственных значений в предшествующие периоды, так и от значений экзогенных переменных в те же периоды. Каждая из лаговых экзогенных и эндогенных переменных при этом рассматривается как самостоятельная переменная.

Задача

Исследуя спрос на продукцию марки N, аналитический отдел компании АБС, по данным, собранным по 19 торговым точкам компании, выявил следующую зависимость: =-ln 15,0 0,85ln , y x где y – объем продаж телевизоров марки N в отдельной торговой точке; х – средняя цена телевизора в данной торговой точке.

Задание.

До проведения этого исследования администрация компании предполагала, что эластичность спроса по цене для продукции марки N составляет 0,9. Подтвердилось ли предположение администрации результатами исследования?

Ответ:

Надо просто проверить гипотезу Н0: b1 = -0,9

Вопрос №3
Основные задачи эконометрического моделирования.

· Количественное измерение и анализ (разложение на составляющие) экономических процессов во времени (в динамике), измерение трендов, колеблемости;

· Прогнозирование возможных значений уровня экономических и социально-экономических показателей (переменных), характеризующих состояние и развитие анализируемой системы (например, курса доллара);

· Имитация различных возможных исходов социально-экономического развития анализируемой системы, когда статистически выявленные взаимосвязи между характеристиками производства, потребления, социальной и финансовой политики и т.п.

Характеристики этапов моделирования.

I этап (постановочный). На нем осуществляется определение конечных целей модели, набора участвующих в ней факторов и показателей, их роли.

II этап (априорный). На нем проводится анализ сущности изучаемого объекта, формирование и формализация априорной (известной до начала моделирования) информации.

III этап (параметризация). Моделирование, то есть выбор общего вида модели, состава и формы входящих в нее связей. Основная задача этого этапа - выбор функции f(Х).

IV этап (информационный). На нем осуществляется сбор необходимой

статистической информации.

V этап (идентификация модели). Осуществляется статистический анализ модели и оценка ее параметров. На этом этапе проводится основная часть эконометрических исследований.

VI этап (верификация модели). Проводится проверка адекватности модели, оценка точности модельных данных. Выясняется, насколько удачно решены проблемы спецификации и идентификации, какова точность расчетов по данной модели.

Коэффициент детерминации

Коэффициент детерминации рассматривают, как правило, в качестве основного показателя, отражающего меру качества регрессионной модели, описывающей связь между зависимой и независимыми переменными модели. Коэффициент детерминации показывает, какая доля вариации объясняемой переменной y учтена в модели и обусловлена влиянием на нее факторов, включенных в модель:



где  – значения наблюдаемой переменной,  – среднее значение по наблюдаемым данным,  – модельные значения, построенные по оцененным параметрам.

В случае, когда значение константы задается вручную, коэффициент детерминации рассчитывается по следующей формуле:



где  – фиксированное значение константы. В случае линейной регрессии с константой справедлива следующая формула:



Заметим, что данная формула справедлива только для модели с константой, в общем случае используется предыдущая формула.

Чем ближе  к 1, тем выше качество модели.

При равенстве коэффициента единице линия регрессии точно соответствует всем наблюдениям.

Равенство коэффициента нулю означает, что выбранные факторы не улучшают качество предсказания  по сравнению с тривиальным предсказанием .

Достаточно качественной можно признать модель с коэффициентом детерминации выше 0,8.

Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых объясняющих переменных, что необязательно означает улучшение качества регрессионной модели. По этой причине, для устранения этого недостатка, на практике чаще используется скорректированный коэффициент детерминации.

Вопрос №6. Свойства коэффициентов регрессии

Коэффициент регрессии, вычисленный методом наименьших квадратов, — это особая форма случайной величины, свойства которой зависят от свойств остаточного члена в уравнении. Мы продемонстрируем это сначала теоретически, а затем посредством контролируемого эксперимента. В частности, мы увидим, какое значение для оценки коэффициентов регрессии имеют некоторые конкретные предположения, касающиеся остаточного члена. В ходе рассмотрения мы постоянно будем иметь дело с моделью парной регрессии, в которой y связан с x следующей зависимостью:

(3.1)

и на основе n выборочных наблюдений будем оценивать уравнение регрессии.

(3.2)

Мы также будем предполагать, что x — это неслучайная экзогенная переменная. Иными словами, ее значения во всех наблюдениях можно считать заранее заданными и никак не связанными с исследуемой зависимостью. Во-первых, заметим, что величина состоит из двух составляющих. Она включает неслучайную составляющую , которая не имеет ничего общего с законами вероятности ( и могут быть неизвестными, но тем не менее это постоянные величины), и случайную составляющую и. Отсюда следует, что, когда мы вычисляем b по обычной формуле:

(3.3)

b также содержит случайную составляющую. Cov (x, y) зависит от значений у, а у зависит от значений u.

Если случайная составляющая принимает разные значения в n наблюдениях, то мы получаем различные значения у и, следовательно, разные величины Cov (x,y) и b.

Теоретически мы можем разложить b на случайную и неслучайную составляющие. Воспользовавшись соотношением (3.1), а также правилом расчета ковариации из раздела 1.2, получим:

Cov(x, у) = Cov(x, [ + х + u]) = Cov(x, ) + Cov(x, x) + Cov(x, u) (3.4)

По ковариационному правилу 3, ковариация Cov (х, ) равна нулю. По ковариационному правилу 2, ковариация Cov(x, х) равна Cov (х, х). Причем Cov (x, х) это тоже, что и Var (x). Следовательно, мы можем записать:

Cov(x, у) = Var(x) + Cov(x, u),

и, таким образом

Итак, мы показали, что коэффициент регрессии b, полученный по любой выборке, представляется в виде суммы двух слагаемых: 1) постоянной вели чины, равной истинному значению коэффициента ; 2) случайной составляющей, зависящей от Cov (x, u), которой обусловлены отклонения коэффициента b от константы . Аналогичным образом можно показать, что имеет постоянную составляющую, равную истинному значению , плюс случайную составляющую, которая зависит от случайного фактора u.

Следует заметить, что на практике мы не можем разложить коэффициенты регрессии на составляющие, так как не знаем истинных значений и или фактических значений u в выборке. Они интересуют нас потому, что при определенных предположениях позволяют получить некоторую информацию о теоретических свойствах a и b.

Условия Гаусса-Маркова для случайного члена

Для того что бы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса—Маркова. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты. Рассмотрим теперь эти условия одно за другим:

1-е условие Гаусса—Маркова: для всех наблюдений

Первое условие состоит в том, что математическое ожидание случайного члена в любом наблюдении должно быть равно нулю. Иногда случайный член будет положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в одном из двух возможных направлений. Фактически если уравнение регрессии включает постоянный член, то обычно бывает разумно предположить, что это условие выполняется автоматически, так как роль константы состоит в определении любой систематической тенденции в y, которую не учитывают объясняющие переменные, включенные в уравнение регрессии.

2-е условие Гаусса—Маркова: pop. постоянна для всех наблюдений

Второе условие состоит в том, что дисперсия случайного члена должна быть постоянна для всех наблюдений. Иногда случайный член будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы он порождал большую ошибку в одних наблюдениях, чем в других. Эта постоянная дисперсия обычно обозначается , или часто в более крат кой формеа условие записывается следующим образом: pop. = для всех I (3.12)

Так как = 0 и pop. = ,условие можно переписать в виде:

= для всех i.

Величина , конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена. Если рассматриваемое условие не выполняется, то коэффициенты регрессии, найденные по обычному методу наименьших квадратов, будут неэффективны, и можно получить более надежные результаты путем применения модифицированного метода регрессии.

3-е условие Гаусса—Маркова: pop.

Это условие предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Например, если случайный член велик и положителен в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении (или большим и отрицательным, или малым и положительным, или малым и отрицательным). Случайные члены должны быть абсолютно независимы друг от друга.

В силу того, что , данное условие можно записать следующим образом:

= 0 (3.14) Если это условие не будет выполнено, то регрессия, оцененная по обычному методу наименьших квадратов, вновь даст неэффективные результаты.

4-е условие Гаусса—Маркова: случайный член должен быть распределен независимо от объясняющих переменных

В большинстве глав книги мы будем в сущности использовать более сильное предположение о том, что объясняющие переменные не являются стохастическими, т. е. не имеют случайной составляющей. Значение любой независимой переменной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрессии. Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю. Так как = 0, то

(3.15)

Следовательно, данное условие можно записать также в виде:

= 0. (3.16)

Вопрос №7. Вопрос №8. :

Установлено 5 стадий при проверке гипотез:

  1. Определение нулевой () и альтернативной гипотезы  ()  при исследовании. Определение уровня значимости критерия.   
  2. Отбор необходимых данных из выборки.
  3. Вычисление значения статистики критерия, отвечающей .
  4. Вычисление критической области, проверка статистики критерия на предмет попадания в критическую область. 
  5. Интерпретация достигнутого уровня значимости р и результатов.

Определение нулевой и альтернативной гипотез, уровня статистической значимости

При проверке значимости гипотезу следует формулировать независимо от используемых при ее проверке данных (до проведения проверки). В таком случае можно получить действительно продуктивный результат.

Всегда проверяют нулевую гипотезу (), которая отвергает эффект (например, разница средних равняется нулю) в популяции. 

Затем определяют альтернативную гипотезу (), которая принимается, если нулевая гипотеза неверна. Альтернативная гипотеза больше относится к той теории, которую собираются исследовать.

H0:=0,

H1: 0

— параметры

Двусторонний критерий учитывает любую возможность, он рекомендуется постольку, поскольку редко есть уверенность заранее в направлении какого-либо различия, если таковое существует. 

В некоторых случаях можно использовать односторонний критерий для гипотезы , в котором направление эффекта задано.

Уровень значимости. Важным этапом проверки статистических гипотез является определение уровня статистической значимости , т.е. максимально допускаемой исследователем вероятности ошибочного отклонения нулевой гипотезы.

Получение статистики критерия, определение критической области 

После того как данные будут собраны, значения из выборки подставляют в формулу для вычисления статистики критерия. Эта величина количественно отражает аргументы в наборе данных против нулевой гипотезы.

Критическая область. Для принятия решения об отклонении или не отклонении нулевой гипотезы необходимо также определить критическую область проверки гипотезы.

Выделяют 3 вида критических областей: 

  • двустороняя: 

Рис. 1 Двусторонняя критическая область


  • левосторонняя: 

Рис. 2 Левосторонняя критическая область


  • правосторонняя: 

Рис. 3 Правосторонняя критическая область


 - заданный исследователем уровень значимости.

Если наблюдаемое значение критерия (K) принадлежит критической области (Kкр, заштрихованная область на рис.1-3), гипотезу  отвергают, если не принадлежит - не отвергают.

можно записать и так: 

| K | > Kкр - отклоняем H0

| K | < Kкр - не отклоняем H0

Получение значения р (достигнутого уровня значимости)

p - это вероятность отвергнуть нулевую гипотезу при условии, что она верна. 

В рамках проверки гипотезы мы либо отвергаем нулевую гипотезу и принимаем альтернативу, либо не отвергаем нулевую гипотезу.

Применение значения р

Аргументы, позволяющие отвергнуть нулевую гипотезу в пользу альтернативной. Чем меньше значение р, тем сильнее аргументы против нулевой гипотезы.

  • Традиционно полагают, если р < 0,05, (=0,05) то аргументов достаточно, чтобы отвергнуть нулевую гипотезу, хотя есть небольшой шанс против этого. Тогда можно отвергнуть нулевую гипотезу и сказать, что результаты значимы на 5% уровне.
  • Напротив, если р > 0,05, то аргументов недостаточно, чтобы отвергнуть нулевую гипотезу. Не отвергая нулевую гипотезу, можно заявить, что результаты не значимы на 5% уровне. Данное заключение не означает, что нулевая гипотеза истинна, просто недостаточно аргументов (возможно, маленький объем выборки), чтобы ее отвергнуть.

Уровень значимости 5% задается произвольно. На уровне 5% можно отвергнуть нулевую гипотезу, когда она верна.

Ошибки первого и второго рода в проверке гипотез о коэффициентах регрессии

Ошибка I рода состоит в том, что мы отвергаем Н0, когда на самом деле она истина.

Ошибка II рода имеет место в случае, если мы принимаем Н0, когда она ложна.

Вопрос №9.
F-тест на качество оценивания.

F-тестом или критерием Фишера (F-критерием, *-критерием) — называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).

F-статистика для проверки качества уравнения

Представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на

одну степень свободы)

где k - число объясняющих переменных

Расчет F-критерия

F-статистика для проверки качества уравнения. В парной (k=1) регрессии F-статистика является отношением объясненной суммы квадратов к остаточной сумме квадратов (в расчете на одну степень свободы)

Порядок работы при проверке значимости уравнения по F-статистике

1. Выбираем уровень значимости (1% или 5%)

2. Вычисляем число степеней свободы: 1 и (n-2).

3. По таблицам F-распределения Фишера определяем критическое значение F , 1, n-2 (всегда одностороннее)

4. Если F-статистика больше F , 1, n-2, то уравнение в целом является значимым при выбранном уровне значимости .

В противном случае уравнение в целом незначимо (на данном уровне ).

Вопрос №10.
Взаимосвязи между критериями в парном регрессионном анализе.

Связь t-критерия и F-критерия в парной регрессии

Связь между значимостью коэффициента регрессии и уравнения в целом

В парной регрессии F-статистика является квадратом t-статистики, то же верно и для их критических уровней (двухсторонний для t-статистики)

В парной регрессии значимость коэффициента регрессии и значимость уравнения в целом эквивалентны.

F-статистики в разных моделях с разным числом наблюдений (и переменных) несравнимы.

Коэффициент корреляции и коэффициент детерминации

Взаимосвязь критериев в парном регрессионном анализе.

Коэффициент корреляции по абсолютной величине совпадает с квадратным корнем из коэффициента детерминации.

t-статистики для коэффициента корреляции и для коэффициента регрессии совпадают

Проверка значимости коэффициента регрессии эквивалентна проверке наличия линейной связи

11 вопрос.

Нелинейные модели регрессии и линеаризации. Критерии Энгеля, эластичность

Нелинейные модели регрессии и линеаризации

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например

– полиномы различных степеней – 

– равносторонняя гипербола –

–полулогарифмическая функция – 

2. Регрессии, нелинейные по оцениваемым параметрам, например

– степенная – ;

– показательная – ;

– экспоненциальная – .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов.

Критерии Энгеля

критерий Энгеля–Грангера. Алгоритм применения этого критерия: 
1.Выдвигается ноль-гипотеза об отсутствии коинтеграции м/д рядами  и 
2. Рассчитывают параметры уравнения регрессии вида:  где  - первые разности остатков, полученных из соотношения 
3. Определяют фактическое значение t-критерия для коэффициента регрессии  в уравнении 
4.Сравнивают полученное значение с критическим значением статистики . Критические значения, рассчитанные Энгелем и Грангером для уровня значимости 1%, 5% и 10%, составляют 2,5899; 1,9439; 1,6177. Если фактическое значение больше критического значения для заданного уровня значимости ?,, ноль-гипотезу об отсутствии коинтеграции рядов отклоняют и с вероятностью (1- ?,) принимают альтернативную гипотезу о том, что между рядами  и  есть коинтеграция. В противном случае гипотеза об отсутствии коинтеграции не отклоняется. 

12 вопрос.

Нелинейная регрессия. Проблема выбора модели. Тест Бокса-Кокса в форме Зарембки.

Нелинейная регрессия

Предположим, вы считаете, что переменная связана с переменной х следующим соотношением: y=a+Bxy+u и хотите получить оценки а, B и у, имея значения у и х. Уравнение не может быть преобразовано в уравнение линейного вида, поэтому в этом случае невозможно применение обычной процедуры оценивания регрессии.

Процедуру лучше всего описать как последовательность шагов.

1. Принимаются некоторые правдоподобные исходные значения параметров.

2. Вычисляются предсказанные значения у по фактическим значениям х с

использованием этих значений параметров.

3. Вычисляются остатки для всех наблюдений в выборке и, следовательно,

S — сумма квадратов остатков.

4. Вносятся небольшие изменения в одну или более оценку параметров.

5. Вычисляются новые предсказанные значения у, остатки и S.

6. Если S меньше, чем прежде, то новые оценки параметров лучше пре­

жних и их следует использовать в качестве новой отправной точки.

7. Шаги 4, 5 и 6 повторяются вновь до тех пор, пока не окажется невозможным внести такие изменения в оценки параметров, которые привели бы к уменьшению S.

8. Делается вывод о том, что величина *У минимизирована и конечные оценки

параметров являются оценками по методу наименьших квадратов.

Метод Зарембки

Применим для выбора из двух форм моделей (несравнимых непосредственно), в одной из которых зависимая переменная входит с логарифмом, а в другой – нет. Метод позволяет сравнить линейную и логарифмическую регрессии и оценить значимость наблюдаемых различий

Тест Бокса-Кокса в форме Зарембки

Вопрос №13) Классическая линейная модель множественной регрессии (КЛММР). Постановка задачи. Понятие гомоскедастичности регрессионных остатков.

Классическая линейная модель множественной регрессии (КЛММР) представляет собой простейшую версию конкретизации требований к общему виду функции регрессии f(X), природе объясняющих переменных X и статистических регрессионных остатков e(Х) в общих уравнениях регрессионной связи. Процесс конкретизации подобных требований к структуре и характеру анализируемых моделей регрессионного типа обычно называют спецификацией модели

В рамках КЛММР рассматриваются только линейные функции регрессии, т.е.

Теоретическое уравнение линейной модели множественной регрессии

(ЛММР) записывается следующим образом:

где объясняющие переменные x(1), x(2),…, x(p) играют роль неслучайных параметров, от которых зависит закон распределения вероятностей результирующей переменной y. Это, в частности, означает, что в повторяющихся выборочных наблюдениях (xi(1), xi(2),..., хi(p); yi) единственным источником случайных возмущений значений yi являются случайные возмущения регрессионных остатков ei

При k = 1 уравнение становится уравнением парной линейной

регрессии.

Кроме того, постулируется взаимная некоррелированность случайных регрессионных остатков (E(eiej) = 0 для i  j). Это требование к регрессионным остаткамe1,...,en относится к основным предположениям классической модели и оказывается вполне естественным в широком классе реальных ситуаций, особенно, если речь идет о пространственных выборках т.е. о ситуациях, когда значения анализируемых переменных регистрируются на различных объектах (индивидуумах, семьях, предприятиях, банках, регионах и т. п.). В этом случае данное предположение означает, что «возмущения» (регрессионные остатки), получающиеся при наблюдении одного какого-либо обследуемого объекта, не влияют на «возмущения», характеризующие наблюдения над другими объектами, и наоборот.

Тот факт, что для всех остатков e1,E2,...,en выполняется соотношение Eei2; =s2 , где величина s2 от номера наблюдения i не зависит, означает неизменность (постоянство, независимость от того, при каких значениях объясняющих переменных производятся наблюдения) дисперсий регрессионных остатков. Последнее свойство принято называть гомоскедастичностью регрессионных остатков.

Что касается требования к рангу матрицы X, то оно означает, что не должно существовать строгой линейной зависимости между объясняющими переменными. Так, если, например, одна объясняющая переменная может быть линейно выражена через какое-то количество других, то ранг матрицы X окажется меньше р + 1, а следовательно, и ранг матрицы XTX будет тоже меньше р + 1. А это означает вырождение симметрической матрицы ХTХ (т.е. det(XTX) = 0), что исключает существование матрицы (XTX)-1 , которая, как мы увидим, играет важную роль в процедуре оценивания параметров анализируемой модели.

Пример 2.1. Исследуется зависимость урожайности зерновых культур (у ц/га) от ряда переменных, характеризующих различные факторы сельскохозяйственного производства, а именно:

x(1) — число тракторов (приведенной мощности) на 100 га;

x(2) — число зерноуборочных комбайнов на 100 га;

x(3)_ — число орудий поверхностной обработки почвы на 100 га;

x(4) — количество удобрений, расходуемых на гектар (т/га);

x(5) — количество химических средств защиты растений, расходуемых на гектар (ц/га).

Исходные данные для 20 сельскохозяйственных районов области приведены в табл. 2.1.

Таким образом, в данном примере мы располагаем пространственной выборкой объема n = 20; число объясняющих переменных р = 5. Матрица X будет составлена из шести столбцов размерности 20 каждый, причем в качестве первого столбца используется вектор, состоящий из одних единиц, а столбцы со 2-го по 6-й представлены соответственно 3-7-м столбцами табл. 2.1. Вектор-столбец Y определяется 2-м столбцом табл. 2.1. Специальный анализ технологии сбора исходных статистических данных показал, что допущение о взаимной некоррелированности и гомоскедастичности регрессионных остатков e может быть принято в качестве рабочей гипотезы. Поэтому мы можем записать уравнения статистической связи между yi и Xi = (хi(1), хi(2),  xi(3), хi(4),хi(5))T

Гомоскелостичность. Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора х остатки Sj имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место ге- тероскедастичность.
При нарушении гомоскедастичности мы имеем неравенства
2 2 2 . s i^S , jФ i.
При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта. Основная идея теста Гольдфель- да- Квандта состоит в следующем:

упорядочение п наблюдений по мере возрастания переменной х; исключение из рассмотрения С центральных наблюдений, при этом (п - С) : 2 > р, где p - число оцениваемых параметров; разделение совокупности из (n - С) наблюдений на две группы (соответственно с малыми и с большими значениями фактора х) и определение по каждой из групп уравнений регрессии; определение остаточной суммы квадратов для первой (51) и второй (52) групп и нахождение их отношения: R = 52 : 51.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию со степенями свободы k1 = (п - С - 2р) : 2, k2 = (п - С - 2р) : 2. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

№14 Вопрос.

16. Качество оценивания регрессии в случае КЛММР.

Для оценки параметров регрессии используется метод наименьших квадратов. В соответствии с МНК минимизируется сумма квадратов остатков

Q=ei2=(yi-y^i)2min

Необходимым условием ее минимума является равенство нулю всех ее частных производных по b0,b1…bk.

В результате приходим к системе из (к + 1) линейного уравнения с (к + 1) неизвестным, называемой системой нормальных уравнений. Ее решение в явном виде обычно записывается в матричной форме, иначе оно становится слишком громоздким.

Оценки параметров модели и их теоретические дисперсии в матричной форме определяются выражениями

b = (XT X)-1 XTY, S(bj) = (XT X)-1 jj2,

где b — вектор с компонентами b0, b1…bk X— матрица значений объясняющих переменных; Y — вектор значений зависимой переменной, 2--дисперсия случайного члена.

Несмещенной оценкой 2 является величина S^2 (остаточная дисперсия):

S^2=(1/n-k-1)ei2

Величина S^ называется стандартной ошибкой регрессии.

Заменяя в теоретических дисперсиях неизвестную дисперсию 2 на ее оценку S2=S^2 и извлекая квадратный корень, получим стандартные ошибки оценок коэффициентов регрессии

Следует иметь ввиду что эти оценки находятся на главной диагонали ковариационной матрицы S(b) = 2 (XT X)-1

Если предпосылки относительно случайного члена выполняются, оценки параметров множественной регрессии являются несмещенными, состоятельными и эффективными.

При использовании компьютерных программ коэффициенты регрессии b0, b1,..., bk и их стандартные отклонения вычисляются одновременно.

Множественный коэффициент детерминации.

Множественным коэффициентом детерминации (выборочным) называют следующую величину: множественный коэффициент детерминации характеризует, какая доля вариации (изменения) результирующего признака y определяется совместным изменением независимых факторов . Значения принадлежат отрезку [0;1]. Чем ближе величина к 1, тем больше у нас оснований быть уверенными в правильности выбора линейной многофакторной модели для аппроксимации значений у. Множественный коэффициент детерминации обладает следующим свойством: введение нового m-го фактора в регрессионную модель, по крайней мере, не уменьшает значение .

Вопрос №17

Статистические свойства оценок параметров КЛММР.

Вопрос №18

Ковариационная матрица вектора b.

Вопрос №19.
1)КЛММР. Классическая линейная модель множественной регрессии (КЛММР) представляет собой простейшую версию конкретизации требований к общему виду функции регрессии f(X), природе объясняющих переменных X и статистических регрессионных остатков e(Х) в общих уравнениях регрессионной связи (2.3) В рамках КЛММР эти требования формулируются следующим образом:

Из (2.5) следует, что в рамках КЛММР рассматриваются только линейные функции регрессии, т.е.

где объясняющие переменные x(1), x(2),…, x(p) играют роль неслучайных параметров, от которых зависит закон распределения вероятностей результирующей переменной y. Это, в частности, означает, что в повторяющихся выборочных наблюдениях (xi(1), xi(2),..., хi(p); yi) единственным источником случайных возмущений значений yi являются случайные возмущения регрессионных остатков ei .

2)

Проверка гипотез вида .

статистический критерий

При справедливости нулевой гипотезы данная статистика имеет распределение Фишера с числом степеней свободы числителя k и знаменателя N+M-2k

Критическую точку находим из таблиц распределения Фишера для выбранного уровня значимости a и числу степеней свободы числителя k и знаменателя N+M-2k

если , мы нулевую гипотезу отвергаем.

.

Вопрос №20.
Мультиколлинеарность. Рекомендации по выявлению мультиколлинеарности. Ошибки спецификации модели..

1.)Слово “коллинеарность” описывает линейную связь между двумя независимыми переменными, тогда как “мультиколлинеарность” – между более, чем двумя переменными. На практике всегда используется один термин

3) Ошибки

Невключение в модель существенных переменных

истинная модель

оцениваем

оценка смещена

Проблема смещения

Оценка b в короткой регрессии будет завышать или занижать истинное значение коэффициента в зависимости от знака смещения

Оценка будет несмещенной в двух случаях:

  • g = 0 (Y действительно не зависит от Z);
  • X и Z статистически независимы.

Предположим, что b и g положительны, а X и Z положительно коррелированны, тогда с увеличением X

  • Y будет иметь тенденцию к росту, поскольку b положителен;
  • Z будет иметь тенденцию к увеличению, поскольку X и Z положительно коррелированны;
  • Y получит дополнительное ускорение из-за увеличения Z, поскольку g положительно.

Изменение Y будет преувеличивать влияние текущих значений X, т. к. отчасти они будут связаны с изменениями Z. Т.е. часть изменения Y за счет изменения Z будет приписано X.

Другие последсвия

Это смещенная оценка, но обладающая меньшей дисперсией;

  • оценка s2 смещена. Поскольку s2 участвует во многих статистических тестах, то используя их для проверки гипотез, мы можем получить ложные выводы.

Включение в модель несущественных переменных точность ухудшится

оцеваем

истинная модель

Вопрос №21

Методы устранения мультиколлинеарности

1. Изменить или увеличить выборку

2. Исключить одну из переменных

3. Преобразовать мультиколлинеарные переменные

- использовать нелинейные формы

- использовать агрегаты (линейные комбинации

нескольких переменных

- использовать первые разности вместо самих

переменных

4. Ничего не делать!

Самое главное - выбрать правильное средство.

Вопрос №22

Вопрос №23.

Обобщённый метод наименьших квадратов (ОМНК, GLS — англ. Generalized Least Squares) — метод оценки параметров регрессионных моделей, являющийся обобщением классического метода наименьших квадратов. Обобщённый метод наименьших квадратов сводится к минимизации «обобщённой суммы квадратов» остатков регрессии — , где  — вектор остатков,  — симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем обобщённого, когда весовая матрица пропорциональна единичной. Необходимо отметить, что обычно обобщённым методом наименьших квадратов называют частный случай, когда в качестве весовой матрицы используется матрица, обратная ковариационной матрице случайных ошибок модели.

Сущность обобщённого МНК

Известно, что симметрическую положительно определенную матрицу можно разложить как , где P- некоторая невырожденная квадратная матрица. Тогда обобщённая сумма квадратов может быть представлена как сумма квадратов преобразованных (с помощью P) остатков . Для линейной регрессии  это означает, что минимизируется величина:

где , то есть фактически суть обобщённого МНК сводится к линейному преобразованию данных и применению к этим данным обычного МНК. Если в качестве весовой матрицы  используется обратнаяковариационная матрица  случайных ошибок  (то есть ), преобразование P приводит к тому, что преобразованная модель удовлетворяет классическим предположениям (Гаусса-Маркова), следовательно оценки параметров с помощью обычного МНК будут наиболее эффективными в классе линейных несмещенных оценок. А поскольку параметры исходной и преобразованной модели одинаковы, то отсюда следует утверждение — оценки ОМНК являются наиболее эффективными в классе линейных несмещенных оценок (теорема Айткена). Формула обобщённого МНК имеет вид:

2i При i=j

E(ui ,uj )= (4.5)

ij При i j

Оценки ОМНК получаются по формуле = (X -1 ) X -1 y. Подчеркнем, что для применения ОМНК в (4.5) необходимо знать значения в правой части равенства (в частности элементы матрицы), что на практике случается крайне редко. Поэтому каким либо способом оценивают величины 2 i , y, i, j=1,…,n. А затем используют эти оценки в расчетах коэффициентов модели. Этот подход составляет суть так называемого доступного обобщенного метода наименьших квадратов.

Вопрос №24. Проверка гипотез о гомоскедастичности регрессионных остатков:

1.Составим вариационный ряд: 0,1,2,3,4,5. Если в статистическом распределении вместо частот (относительных частот) указать накопленные частоты (относительные накопленные частоты), то такой ряд распределения называют кумулятивным.

Накопленная частота представляет собой сумму частот всех значений, от x1 до xi.: Fi = ij=1 nj. По накопленной частоте можно определить, для какой части выборки значения переменной X не превосходят значения xi.

Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni – сумму частот вариант, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом. 

Для получения группированной выборки нужно:

1) Опредеить минимальное и максимальное значение вариант и рассчитываем размах вариационного ряда по формуле: R=Xmax - Xmin

2) Рассчитать число классов по формуле Стерджеса: 

3) Рассчитать интервал каждого класса по формуле: 

4) Составить таблицу границ классов.

5) Рассчитать среднее значение каждого класса.

Критерий Глейзера

ТестГлейзера

Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что qi, пропорционально хi и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма например qi=a+bxY(1).Чтобы использовать данный метод, следует оценить регрессионную зависимость у от х с помощью обычного МНК, а затем вычислить абсолютные величины остатков |ei|по функции (1) для данного значения у. Можно построить несколько таких функций, изменяя значение у. В каждом случае нулевая гипотеза об отсутствии гетероскедастичности будет отклонена, если оценка b значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка b, то ориентиром при определении характера гетероскедастичности может служить наилучшая из них.

Подход Глейзера

После выполнения теста Глейзера мы могли устранить гетероскедастичность. Оценивание регрессионной зависимости его остатков от GDPi, где у равно —0,5, 0,5 и 1,0, не привело к отклонению нулевой гипотезы о наличии гомоскедастичности.

Вопрос №25

Линейная модель множественной регрессии с автокоррелированными остатками.

В линейной множественной регрессии

Параметры при x называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего параметра на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Под автокорреляцией остатков понимают зависимость распределения значений остатков друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Оценить эту зависимость можно вычислив коэффициент корреляции между этими остатками по формуле

Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированны.

В экономических задачах значительно чаще встречается положительная автокорреляция , чем отрицательная автокорреляция .

Для обнаружения автокорреляции используют либо графический метод, либо статистические тесты.

Критерий ДарбинаУотсона это наиболее известный критерий обнаружения автокорреляции первого порядка.

Сначала по построенному эмпирическому уравнению регрессии определяются значения отклонений . Рассчитывается статистика

.

Далее по таблице критических точек ДарбинаУотсона определяются два числа dl и du и осуществляются выводы по правилу:

положительная автокорреляция;

зона неопределенности;

автокорреляция отсутствует;

зона неопределенности;

отрицательная автокорреляция.

Искажение характеристик точности МНК–оценок.

Нарушение условий на вторые моменты – условия гомоскедастичности (1.4) и условия независимости (1.5) – приводит к тому, что МНК-оценки перестают быть эффективными в своем классе. Кроме того, МНК-оценка ковариационной матрицы оценок коэффициентов оказывается смещенной и несостоятельной, из-за чего тесты на значимость коэффициентов показывают неверный уровень значимости. Как правило, теоретические оценки дисперсии оценок коэффициентов занижаются, т.е. оценки оказываются слишком «оптимистическими». На практике же часто имеет место своеобразная неустойчивость оценки точности МНК-оценок. Она заключается в том, что при сколь угодно малых отклонениях от заданных значений математического ожидания и ковариационной матрицы ошибок исходных данных относительная погрешность оценки точности конечного результата неограниченно возрастает с увеличением числа используемых наблюдений/

Вопрос №26. Проверка гипотезы об отсутствии автокоррелированности регрессионных остатков. Критерий Дарбина-Уотсона.

Частный случай, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка: ut=put-1+t

Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении (т. е. его значению в период t —1), умноженному на p, плюс новый Данная схема оказывается авторегрессионной, поскольку и определяется значениями этой же самой величины с запаздыванием, и схемой первого порядка, потому что в этом простом случае максимальное запаздывание равно единице. Предполагается, что значение в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если р = 0, то автокорреляции нет и третье условие Гаусса—Маркова удовлетворяется.
Широко известная статистика Дарбина—Уотсона (d) определяется следующим образом:

(квадратик не надо)

Если автокорреляция отсутствует, то р = 0, и поэтому величина d должна быть близкой к двум. Так как р должно находиться между значениями 1 и —1, то d должно лежать между 0 и 4.

Вопрос №27 Математически коэф.корреляции Еi и ЕJ выражается через коэффициент Р – корреляция между соседними значениями, матрица состоит из разных значений Р.

VE(i)E(j) =P|i-j|

1 P P2 …Pn-1

P 1 P … Pn-2

0 = P2 P 1 P… Pn-3

Pn-1 Pn-2 Pn-3…1

|P| < 1

Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности.

Вмнк=(ХтХ)-1ХтУ

в=2(ХтХ)-1

Вомнк=(Хт0-1Х)Хт0-1У – обобщ.метод наименьших квадратов

В рамках обобщенной модели оценки коэффициентов обычным МНК остаются состоятельными и несмещенными. Однако формулы для матрицы в оказываются неприменимыми.

Несмещенность параметров в обобщенной модели

Вомнк=(Хт0-1Х)Хт0-1(ХВ+Е)

<B>= (Хт0-1Х)Хт0-1ХВ+ Хт0-1Х)Хт0-1<E>

<B>=B

Устранение автокорреляции в остатках .Метод Кохрейна – Оркатта

  1. В=(ХтХ)-1ХтУ
  2. ОМНК: В=(Хт0-1Х)Хт0-1У
  3. Подсчитываем значение Еi
  4. Связываем Еi=PEi-1+i (уравнение Маркова) =>P

Делам столько раз пока меняется Р.

Вопрос №28

Точечный и интервальный прогноз значения результирующего показателя в условиях ОЛММР

ТT

=(0,0,…0)

Требуется построить наилучший линейный прогноз для

Можно показать что наилучшим будет след. Прогноз

Прогноз будет наилучшим только при отсутствии корреляции между и ост. Остатками.

Если автокорреляция будет, то

=

, тогда

-1

-1=

Рассмотрим интервальные прогнозы оценки значений функции регрессии заданной точки.

Т.Гаусса – Маркова

Наилучшая точечная оценка определяется значением эмпирической функции регрессии

Ср. квадрат ошибки наилучшего точечного прогноза

-1xn+1

Эконометрика: шпаргалка