Реферат: «Анализ модели множественной линейной регрессии»
Название: «Анализ модели множественной линейной регрессии» Раздел: Остальные рефераты Тип: реферат | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Министерство образования и науки Украины Донецкий Национальный университет Кафедра теории вероятности и математической статистики специальность «математическая экономика» Курсовая работа на тему «Анализ модели множественной линейной регрессии» Донецк 2006 План Введение………………………………………………………………….2 1. Описание модели и предварительный анализ……………………….5 2. Гетероскедастичность 2.1 Гетероскедастичность и ее последствия……………………..6 2.2 Обнаружение гетероскедастичности…………………………7 3. Автокорреляция 3.1 Автокорреляция и ее последствия…………………………...12 3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона……………………………………………..13 4. Мультиколлинеарность 4.1. Мультиколлинеарность и ее последствия…………………..16 4.2 Обнаружение мультиколлинеарности……………………….17 5. Спецификация модели………………………………………………...18 6. Анализ особенностей модели…………………………………………23 7. Список использованной литературы…………………………………24 8. Приложение 1. Исходные данные…………………………………….25 9. Приложение 2. Стандартизированные данные………………………26 10. Приложение 3. Пример применения метода Голдфельда-Квандта……………………………………………………..27 Введение Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова : Предположим, что 1. 2. 3. 4. тогда оценка метода наименьших квадратов Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования: 5. Модель является линейной относительно параметров; 6.Между объясняющими переменными нет строгой или сильной зависимости; 7. Ошибка Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе. 1. Описание модели и предварительный анализ В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида
Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1. Таблица 1.1
Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид
Коэффициенты для этой новой модели соответственно равны
А уравнение множественной линейной регрессии записывается следующим образом
Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand. Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии. 2. Гетероскедастичность 2.1 Гетероскедастичность и ее последствия Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия». Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом: Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными. 2.2 Обнаружение гетероскедастичности Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющих переменных: тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера. Тест ранговой корреляции Спирмена При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения
где Применим тест ранговой корреляции Спирмена к нашей модели. Для простоты изложения подробные расчеты приведены лишь для
Т.к. статистики по модулю меньше 1,96, то при уровне значимости 0,05 нет оснований отвергнуть нулевую гипотезу об отсутствии гетероскедастичности. Тест Голдфелда-Квандта Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом . При проведении проверки по этому критерию предполагается, что стандартное отклонение ( Все Метод Голдфелда—Квандта может также использоваться для проверки гетероскедастичность при предположении, что Применим метод Голдфелда-Квандта к нашей модели. Для простоты изложения подробные расчеты приведены лишь для Для
Для
Для
Тест Глейзера Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что
Чтобы использовать данный метод, следуёт оценить регрессионную зависимость у от Х с помощью обычного МНК, а затем вычислить абсолютные величины остатков
Статистически значимых оценок получить не удалось. Дальнейший перебор гамма в данной работе не целесообразен, так как остальные критерии указывают на отсутствие гетероскедастичности. По той же причине не рассматривается тест Глейзера для остальных переменных. Вывод: в результате применения теста ранговой корреляции Спирмена, метода Голдфельда-Квандта и теста Глейзера мы пришли к выводу, что нет основания отвергнуть гипотезу об отсутствии гетероскедастичности в нашей модели. 3. Автокорреляция 3.1 Автокорреляция и ее последствия Автокорреляция – нарушение третьего условия теоремы Гаусса-Маркова. Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются). Автокорреляция обычно встречается только в регрессионном анализе данных временных рядов. 3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона Начнем с частного случая, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка:
Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении, умноженному на
Так как среднее значение Т остатков равно нулю, Кроме того, Широко известная статистика Дарбина—Уотсона определяется следующим образом:
Если автокорреляция отсутствует, то Если бы мы знали значение Вместе с тем мы знаем только, что 1. Величина DW меньше, чем 2. Величина DW больше, чем З. Величина DW находится между В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавшееся положение нельзя. Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симметрично справа от 2. Величина (4- Таким образом, если DW находится между Для нашей модели DW=1.75, 4. Мультиколлинеарность 4.1. Мультиколлинеарность и ее последствия. Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки. Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии. Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности. 4.2 Обнаружение мультиколлинеарности Основной способ проверки наличия мультиколлинеарности среди поясняющих переменных состоит в исследовании корреляционной матрицы, состоящей из выборочных частичных коэффициентов корреляции. Значимость одного или нескольких коэффициентов означает присутствие в регрессионной модели явления автокорреляции. В случае двух объясняющих переменных частичный выборочный коэффициент корреляции между y и
Остальные частичные коэффициенты корреляции вычисляются аналогично. Для случая трех и более регрессоров также существуют подобные формулы, но вследствие их громоздкости представляется более приятным с практической точки зрения следующий метод: вычисляется матрица Z, обратная к матрице полной корреляции, и тогда частичный выборочный коэффициент между переменными
Вычислим полной корреляции для нашей модели.
Вычислим матрицу Z.
Вычислим теперь матрицу частичных коэффициентов корреляции
Коэффициенты частичной корреляции между 5. Спецификация модели Если точно известно, какие объясняющие переменные должны быть включены в уравнение при проведении регрессионного анализа, то наша задача — ограничиться оцениванием их коэффициентов, определением доверительных интервалов для этих оценок и т. д. Однако на практике мы никогда не можем быть уверены, что уравнение специфицировано правильно. Экономическая теория должна указывать направление, но теория не может быть совершенной. Не будучи уверенными в ней, мы можем включить в уравнение переменные, которых там не должно быть, и в то же время мы можем не включить другие переменные, которые должны там присутствовать. Вообще говоря, в проблему спецификации модели входят также вопросы выбора функциональной зависимости между y и объясняющими переменными. Но так как в данном случае нас интересует непосредственно множественная линейная регрессия, то мы не будем здесь рассматривать приемы функциональной спецификации. Для спецификации нашей модели будем использовать следующий метод. Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от Используется F-тест, и соответствующая F-статистика может быть Поскольку
в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы. В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно Исключим из модели переменную
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим
Следовательно, дополнительные переменные увеличивают возможности объяснения уравнения. Исключим
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Вывод: исключать Исключим теперь
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Вывод: исключение переменных Исключим теперь все переменные, кроме
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Таким образом, приходим к выводу, что оптимальной будет модель, в которой y зависит только от Скорректированный коэффициент детерминации
где k – число независимых переменных в этом случае будет равен 0,676. 6. Анализ особенностей модели Итак, нами проведен подробный анализ множественной линейной регрессии. В результате этого анализа мы выяснили, что в данном случае выполняется условие гомоскедастичности, отсутствует автокорреляция, но присутствует мультиколлинеарность, так как переменные Если же взглянуть на нашу модель с точки зрения «здравого смысла», то становится очевидным, что производительность труда напрямую зависит от уровня затрат рабочего времени. И это подтверждается результатами анализа с математической точки зрения. А в свою очередь уровень затрат рабочего времени зависит от фондоёмкости, стажа, текучести, что отражено в таблице частичных выборочных коэффициентов корреляции. Таким образом, есть основания считать, что анализ модели проведен верно.
Список использованной литературы 1. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1997. 2.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд., испр. – М.: Дело, 1998. 3. Назаренко О.М. Основи економетрики: Підручник. – Київ: «Центр навчальної літератури», 2004. Приложение 1 Исходные данные
Приложение 2 Стандартизированные данные
Приложение 3. Пример применения метода Голдфельда-Квандта
|
Работы, похожие на Реферат: «Анализ модели множественной линейной регрессии»