Дипломная работа: Порушення основних припущень лінійного регресійного аналізу
Название: Порушення основних припущень лінійного регресійного аналізу Раздел: Рефераты по математике Тип: дипломная работа | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Міністерство освіти і науки України Дніпропетровський національний університетімені Олеся Гончара МАГІСТЕРСЬКА РОБОТА Порушення основних припущень лінійного регресійного аналізуВиконавець: студентка групи МС-08-1м Черемісіна В.О. «__»________2009р. Керівник роботи: __________________ «__»________2009р. Рецензент: __________________ «__»________2009р. Дніпропетровськ2009 Реферат Магістерська робота містить 85 сторінок, 38 рисунків, 13 таблиць, 4 джерела. Об’єктом дослідження є основні припущення лінійного регресійного аналізу. Мета роботи – вивчення наслідків порушення основних припущень лінійного регресійного аналізу. Методика дослідження – оцінювання параметрів лінійної регресії МНК-методом, перевірка статистичних гіпотез, побудова простої лінійної регресії та лінійної регресії з двома незалежними змінними. Результати досліджень можуть бути використані при розв’язанні задач та при подальшому вивченні порушень припущень лінійного регресійного аналізу. Перелік ключових слів: ПОРУШЕННЯ ПРИПУЩЕНЬ, ЛІНІЙНА РЕГРЕСІЯ, ЗАЛИШКИ, РОЗПОДІЛ, НЕКОРЕЛЬОВАНІСТЬ, ЗНАЧУЩІСТЬ, АДЕКВАТНІСТЬ. ЗМІСТ ВСТУП РОЗДІЛ І Проста лінійна регресія 1.1 Постановка задачі 1.2 Метод найменших квадратів 1.3 Точність оцінки регресії 1.4 -критерій значущості регресії 1.5 Геометрична інтерпретація коефіцієнтів регресії 1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта 1.7 Довірчий інтервал для . Стандартне відхилення вільного члена 1.8 Довірча смуга для регресії 1.9 Повторні спостереження. Неадекватність і “чиста помилка” 1.10 Деякі відомості з математичної статистики 1.10.1 Критерій (гіпотетичний розподіл визначений) 1.10.2.Критерій (гіпотетичний розподіл невизначений) 1.10.3 Критерій Бартлетта 1.11 Аналіз залишків 1.12 Лінійна регресія з двома незалежними змінними РОЗДІЛ ІІ Дослідження порушень основних припущень лінійного регресійного аналізу 2.1 „Ідеальна” модель лінійної регресії 2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна 2.3 Модель лінійної регресії, в якій спостереження величини залежні 2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини 2.5 Модель лінійної регресії, в якій спостереження показниково розподілені величини ВИСНОВКИ СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ВСТУП Нехай – результат спостереження, який описується лінійною моделлю виду (1) де – регресійна матриця розміру , , – вектор невідомих параметрів, – вектор похибок спостережень. Припущення відносно вектора спостережень позначатимемо : .(2) Або, що те ж саме, припущення відносно вектора похибок мають вигляд: (3) Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими? Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме: 1) припущення про незміщеність похибок ; 2) припущення про однакову дисперсію і некорельованість похибок ; 3) припущення про нормальний розподіл похибок ; 4) припущення про незалежність спостережень . РОЗДІЛ І П РОСТА ЛІНІЙНА РЕГРЕСІЯ 1.1 Постановка задачі Нехай – вибірка, утворена незалежними нормально розподіленими випадковими величинами з однією і тією ж дисперсією і середніми, про які відомо, що вони лінійно залежать від параметрів, тобто мають вигляд ,(1.1.1) де – відомі невипадкові величини; – невідомі параметри. Кожну з випадкових величин можна подати у вигляді , (1.1.2) де називають похибкою спостережень. Похибка змінюється від спостереження до спостереження, () - незалежні випадкові величини. Відносно будемо припускати, що 1) 2) , некорельовані при (з незалежності , випливає їх некорельованість) 3) розподілені нормально з параметрами . Отже, нехай – результати спостережень, які описуються моделлю виду (1.1.3) Параметри невідомі, і їх необхідно оцінити за вибіркою . Для оцінки невідомих параметрів використовують метод максимальної правдоподібності або метод найменших квадратів. 1.2 Метод найменших квадратів Означення 1.2.1. МНК-оцінкою параметрів будемо називати точку , в якій функція (1.2.1) досягає найменшого значення. Здиференцюємо по , а потім по Прирівнюємо похідні нулеві: (1.2.2) (1.2.3) Останню систему називають системою нормальних рівнянь. Із (1.2.2) маємо: (1.2.4) Підставляємо в (1.2.3): (1.2.5) Оскільки і, крім того, то (1.2.5) запишеться у вигляді Тоді рівняння простої лінійної регресії має вигляд Перевіримо, що в точці функція дійсно досягає мінімуму. Візьмемо другі похідні: Складаємо дискримінант: Отже, і . Тоді в точці функція досягає мінімального значення. Зауваження 1. Якщо в рівнянні регресії обрати , то . Це означає, що точка лежить на підібраній прямій. Зауваження 2. Сума всіх залишків дорівнює нулю, дійсно, в кожній точці. 1.3 Точність оцінки регресії Тепер розглянемо питання про те, яка точність може бути приписана лінії регресії, коефіцієнти якої були оцінені. Розглянемо таку тотожність: (1.3.1) Розглянемо доданок Підставляємо останнє в (1.3.1): Звідки (1.3.2) Означення 1.3.1. Величина – це відхилення -го спостереження від загального середнього, тому суму називають сумою квадратів відхилень відносно середнього значення. Означення 1.3.2. Величина – це відхилення -го спостереження від його передбаченого значення, тому суму називають сумою квадратів відхилень відносно регресії. Означення 1.3.3. Величина – це відхилення -го передбаченого значення від загального середнього, тому суму називають сумою квадратів, обумовленою регресією. Тоді (1.3.2) можна переписати в еквівалентній формі сума квадратів сума квадратів сума квадратів = + відносно обумовлена відносно (1.3.3) середнього регресією регресії З останнього випливає, що розсіювання відносно можна приписати у деякій мірі тому факту, що не всі спостереження знаходяться на лінії регресії. Якщо це було б не так, то відносно регресії дорівнювала б нулю З цих міркувань зрозуміло, що придатність лінії регресії з метою прогнозування залежить від того, яка частина суму квадратів відносно середнього приходиться на суму квадратів, обумовлену регресією, і яка на суму квадратів відносно регресії. Задовільним вважається випадок, коли сума квадратів, обумовлена регресією, буде набагато більша, ніж сума квадратів відносно регресії. Кожна сума квадратів пов’язана з числом, яке називають її ступенем вільності. Число ступенів вільності – це число незалежних елементів, які складаються з незалежних чисел , необхідних для утворення даної суми квадратів. Розглянемо суму квадратів відхилень відносно середнього значення . Серед величин незалежними є тільки величина, оскільки останній елемент знаходиться як лінійна комбінація інших Число ступенів вільності цієї суми квадратів дорівнює . Розглянемо суму квадратів, обумовлену регресією . Єдиною функцією від є оцінка , оскільки, . Тому число ступенів вільності цієї суми квадратів дорівнює . Число ступенів вільності суми квадратів дорівнює . Отже, згідно з (1.3.3) ми можемо розкласти ступені вільності суми квадратів так: (1.3.4) За допомогою (1.3.3) та (1.3.4), побудуємо таблицю дисперсійного аналізу. Таблиця 1.3.1. Таблиця дисперсійного аналізу
1.4 -критерій значущості регресії -критерій. Якщо гіпотезу відхиляти при (1.4.1) і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива. Якщо гіпотеза відхиляється, то регресія значуща, тобто між змінними та існує лінійна залежність. Якщо ж гіпотеза не відхиляється, то регресія незначуща, між змінними та лінійної залежності немає. На практиці для перевірки гіпотези також можна використовувати -критерій, який еквівалентний -критерію, оскільки
А -критерій. Якщо гіпотезу відхиляти при (1.4.2) і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива. 1.5 Геометрична інтерпретація коефіцієнтів регресії Коефіцієнт визначає точку перетину прямої регресії з віссю ординат, а коефіцієнт характеризує нахил прямої регресії до вісі абсцис. 1 Нехай – кут, утворений прямою регресії з віссю абсцис, тоді Отже, – це міра залежності від . Згідно з оцінка показує на скільки змінюється при зміні на одиницю. Знак визначає напрям цієї зміни. Оцінки параметрів регресії не безрозмірні величини. Оцінка має розмірність змінної , а оцінка має розмірність, яка дорівнює відношенню розмірності до розмірності . 1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта Введемо основні припущення (постулати) про те, що в лінійній моделі 1. Похибка – випадкова величина з середнім і невідомою дисперсією . 2. Похибки некорельовані при , тобто Тому 3. некорельовані при , тобто 4. Похибка нормально розподілена з параметрами , отже, стають не тільки некорельованими, але й незалежними. В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра : Перепишемо цю оцінку у вигляді Далі розглянемо функцію Порахуємо дисперсію цієї функції , Якщо – попарно некорельовані (), – константи, крім того, , отже, У виразі для константи , оскільки можна розглядати як величини. Отже, дисперсія оцінки дорівнює (1.6.1) Стандартне відхилення оцінки – це корінь квадратний з дисперсії (1.6.2) Оскільки невідома, то заміть неї використовується оцінка , припускаючи, що модель коректна. Нагадаємо, що середній квадрат дорівнює Тоді оцінка стандартного відхилення дорівнює (1.6.3) Перепишемо її у вигляді Якщо розсіювання спостережень відносно лінії регресії нормальне, тобто, всі похибки розподілені нормально з параметрами , то %-вий довірчий інтервал для параметра має вигляд (1.6.4) і містить невідомий параметр з імовірністю . З іншого боку, якшо це доцільно, то ми можемо перевірити гіпотезу ( – const) проти альтернативи . -критерій. Якщо гіпотезу відхиляти при (1.6.5) і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива. Після того, як ми знайшли довірчий інтервал для , немає необхідності знаходити величину для перевірки гіпотези за допомогою t-критерію. Дійсно, досить дослідити довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то гіпотеза не відхиляється, і відхиляється у супротивному разі. Отже, гіпотеза відхиляється, якщо , , тобто лежить за межами, які відповідають (1.6.4). 1.7 Довірчий інтервал для . Стандартне відхилення вільного члена В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра Порахуємо дисперсію оцінки : (1.7.1) Тоді стандартне відхилення оцінки дорівнює: (1.7.2) Оскільки дисперсія невідома, то замість неї використовується оцінка , припускаючи, що модель коректна (1.7.3) %-ий довірчий інтервал для параметра має вигляд і містить невідомий параметр з імовірністю . -критерій. Якщо гіпотезу ( – const) відхиляти при і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива. Перевірити гіпотезу можна й за допомогою довірчого інтервалу для . Необхідно записати довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то не відхиляється, і відхиляється у супротивному разі. 1.8 Довірча смуга для регресії Спочатку розглянемо лінійні комбінації , де – const, , де – const, В припущеннях некорельованості при ( при ) , обчислимо . В підрозділі 1.2 було знайдено рівняння простої лінійної регресії: . Нехай , тоді , звідси . А , тоді , звідси . Отже, тобто і некорельовані випадкові величини. Порахуємо дисперсію (або при заданому ). (1.8.1) Стандартне відхилення оцінки при заданому є (1.8.2) Оскільки невідома, то замість неї використовують оцінку , припускаючи, що модель коректна. Оцінка стандартного відхилення має вигляд: (1.8.3) Ця величина досягає мінімального значення, коли , і зростає при віддаленні від в будь-якому напрямі. %-ві довірчі інтервали для регресії мають вигляд: або, що те ж саме, Чим більша різниця між та , тим більше відхилення між та (довжина довірчого інтервалу). Останнє означає, що точність прогнозу різна в різних точках . Дві криві по обидві сторони від лінії регресії визначають %-ві довірчі границі й показують, як змінюються границі в залежності від зміни . Ці криві – гіперболи. Для того, щоб одержати ці криві, необхідно з’єднати неперервною лінією всі значення при всіх (нижня гіпербола) та при всіх (верхня гіпербола). 1.9 Повторні спостереження. Неадекватність і “чиста” помилка Побудована лінія регресії – це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель. Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні . Нехай – спостережень при , – спостережень при , . . . . . . . . . – спостережень при , при цьому . Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії . Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для . Тому при плануванні експериментів має сенс ставити експерименти з повтореннями. Оцінка величини , пов’язана з “чистою помилкою”, знаходиться так. Сума квадратів, пов’язана з “чистою помилкою” при дорівнює , де Число ступенів вільності цієї суми . Сума квадратів, пов’язана з “чистою помилкою” при дорівнює , де Число ступенів вільності цієї суми і т. д. Загальна сума квадратів, пов’язана з “чистою помилкою”дорівнює з загальним числом ступенів вільності Звідси середній квадрат для “чистої помилки” дорівнює (1.9.1) і є оцінкою для . Покажемо, що сума квадратів, пов’язана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії). Залишок для -того спостереження при можна записати у вигляді: Піднесемо праву та ліву частини рівності до квадрату. Візьмемо суму по кожному з індексів та . (1.9.2) при цьому . Суму (1.9.2) можна записати так Сума Сума квадратів Сума квадратів = “чистих + квадратів (1.9.3.) залишків помилок” неадекватності Число ступенів вільності: Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу. Таблиця 1.9.1. Таблиця дисперсійного аналізу
Критерій для перевірки адекватності моделі регресії можна сформулювати так. Якщо (1.9.4) то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку: (1.9.5) відношення є незначущим (лінійна модель адекватна), при цьому як , так і можна використовувати як оцінки для . Об’єднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх об’єднання у суму квадратів залишків і поділу її на число ступенів вільності . Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну). 1.10 Деякі відомості з математичної статистики 1.10.1 Критерій (гіпотетичний розподіл визначений) Постановка задачі. Нехай – реалізація вибірки з невідомого розподілу , відносно якого висувається гіпотеза , де належить заданому класу розподілів (зокрема, може бути повністю визначеним розподілом). Гіпотезу можна сформулювати і так: є вибіркою з розподілу із заданими властивостями. Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні. Відхилення емпіричного розподілу від гіпотетичного. Незалежно від того, справджується гіпотеза чи ні, емпіричний розподіл , побудований за вибіркою з , а саме, для кожного фіксованого значення емпіричної функції розподілу є незміщеною і спроможною оцінкою . Тому, якщо ввести відхилення емпіричного розподілу від гіпотетичного , причому так, щоб воно набирало малих значень, коли гіпотеза справджується, і великих, коли гіпотеза не справджується (а це видається цілком можливим, оскільки мало відрізняється від ), то гіпотезу природно відхиляти або не відхиляти залежно від того, якого значення набрало відхилення - великого чи малого. Відхилення Пірсона емпіричного розподілу від гіпотетичного . Відхилення між двома розподілами: - емпіричним, побудованим за вибіркою , і –гіпотетичним, заданими на множинівибіркових значень (на вибірковому просторі), можна будувати різними способами. Далі описано відхилення від , запропоноване Пірсоном. Воно будується так. Ділимо на скінчене число неперетинних множин : . І як відхилення від розглядаємо (1.10.1.1) де - імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом (тобто )); – імовірність вибірковому значенню потрапити до множини , обчислена за емпіричним розподілом ; чисельно ця ймовірність дорівнює частоті вибірковому значенню потрапити до множини , знайденій за вибіркою (– кількість вибіркових значень з , що потрапили до ). Далі, якщо , то є ймовірність вибірковому значенню потрапити до , обчислена за розподілом , з якого добуто вибірку , а тому для кожного частоти вибіркового значення потрапити до є незміщеними і спроможними оцінками ймовірностей . І отже, відхилення є малим порівняно з відхиленням від , обчисленими за розподілом , відмінним від . А разом із ними малим є відхилення порівняно з відхиленням , коли розподіл відмінний від (більш того, – мінімально можливе відхилення). Таким чином, для перевірки гіпотези : є вибірка з розподілу , обчислюємо відхилення . Якщо при цьому набрало малого значення, то гіпотезу не відхиляємо , у супротивному разі – відхиляємо. Межі, що відокремлюють великі значення відхилення від малих, установлюються на підставі того факту, що для вибірки з розподілу при великих розподіл (розподіл мінімально можливого відхилення) мало відрізняється від розподілу з ступенями вільності. Критерій (гіпотетичний розподіл не залежить від невідомих параметрів). Нехай – вибірка із розподілу і – верхня α-межа - розподілу з ступенями вільності. Якщо гіпотезу : є вибірка з розподілу відхиляти при (1.10.1.2) і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується. 1.10.2 Критерій (гіпотетичний розподіл невизначений) Нехай – вибірка з невідомого розподілу , стосовно якого висувається гіпотеза . Розподіл залежить від параметрів , які невідомо, причому єдиним джерелом інформації про значення цих параметрів є вибірка . Іншими словами, гіпотеза полягає в тому, що є вибіркою із розподілу, який належить до класу розподілів . Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні. Природно діяти так. Визнаємо за значення невідомих параметрів їхні оцінки , знайдені за вибіркою , і, отже, за гіпотетичний приймемо розподіл . Відхилення будуємо так само, як і раніше: (1.10.2.1) де – імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом. Фішер встановив, що коли гіпотеза справджується і оцінки знайдено за методом максимальної правдоподібності, то розподіл відхилення між і , коли , збігається до розподілу з ступенями вільності, де – кількість параметрів, оцінених за вибіркою . Таким чином, коли параметри оцінюються за вибіркою методом максимальної правдоподібності, можна користуватися критерієм у такому формулюванні. Якщо гіпотезу відхиляти при (1.10.2.2) і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується. 1.10.3 Критерій Бартлетта Доволі поширеним є випадок, в якому вважається відомим, що дисперсії похибок всередині певних груп рівні. Припустимо, що ми хочемо перевірити гіпотезу . Тоді, якщо маємо взаємно незалежних статистик ( – число ступенів вільності ), то можна перевірити гіпотезу , використовуючи критерій Бартлетта. Цей критерій вимагає обчислення статистики , де і . Якщо гіпотеза справедлива, то статистика розподілена приблизно як, причому така апроксимація виявляється задовільною і при досить малих вибірках (). На жаль, цей критерій надто чутливий до будь-якого відхилення від нормальності величин, що складають кожне . Значимість статистики може вказувати не на відсутність однорідності дисперсії, а просто на відхилення від нормальності. 1.11 Аналіз залишків Електронні обчислювальні машини дають нам можливість обчислення відхилень кожного серед значень , що спостерігались, від апроксимуючої регресії . Ці різниці називаються залишками і позначаються символами , Критерій Дарбіна-Уотсона. Нехай нам треба підібрати постульовану лінійну модель (1.11.1) методом найменших квадратів за спостереженнями . Зазвичайми повинні припускати, що похибки – незалежні випадкові величини з розподілом , тобто всі серіальні кореляції . За допомогою критерію Дарбіна-Уотсона можна перевірити гіпотезу про те, що всі проти альтернативної гіпотези : залишки пов’язані корельовано лінійною залежністю , де . Для перевірки гіпотези проти альтернативи будуємо модель за рівнянням (1.15.1) і знаходимо набір залишків . Тепер можна побудувати статистику (1.11.2) і визначити на її основі, чи можна відхиляти гіпотезу . Критичні точки статистики Дарбіна-Уотсона табульовані. Знаходимо верхню і нижню границі (вони залежать від числа в моделі і кількості спостережень ). Якщо , то залишки додатньо автокорельовані. Якщо , то залишки некорельовані. Якщо , то залишки від’ємно корельовані. Якщо або , то необхідно збільшити кількість спостережень. 1.12 Лінійна множинна регресія з двома незалежн ими змінн ими Нехай – результати спостережень, які описуються моделлю: (1.12.1) Основні припущення мають вигляд: Значення змінних відомій ці змінні незалежні. Необхідно знайти оцінки невідомих параметрів . Використаємо МНК-метод: Отримаємо систему нормальних рівнянь для моделі (1.12.1). Ця система включає систему нормальних рівнянь простої лінійної регресії. (1.12.2) знаходяться з першого та другого рівнянь останньої системи. Отримали рівняння регресії: Матричний спосіб знаходження . ; ; ; ; – транспонована матриця. Систему (1.12.2) перепишемо у вигляді: Або в матричному виді: Домножимо праву та ліву частини на . Звідси . Або, що те ж саме, . У множинній лінійній регресії на значущість треба перевіряти всю регресію, а також окремі коефіцієнти регресії. В першому випадку використовується загальний -критерій, а у другому – частинний -критерій. Загальний -критерій. Для перевірки гіпотези використовується -критерій, в якому Загальна сума квадратів , де Сума квадратів залишків Сума квадратів, обумовлена регресією
-критерій перевірки значущості. Гіпотеза відхиляється, якщо , (1.12.3) і в цьому випадку кажуть, що регресія значуща; і не відхиляється в супротивному разі (регресія незначуща). Частинний -критерій. Розглянемо 3 моделі: 1. . – МНК-оцінки параметрів . ; . 2. . – МНК-оцінки параметрів , які не збігаються з оцінками моделі 1. ; . 3. . – МНК-оцінки параметрів , які не збігаються з оцінками моделей 1, 2. ; . Означення 1. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 2 члена ; . Означення 2. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 3 члена ; . Оскільки ,, де – число ступенів вільності, що відповідають середній сумі квадратів : , ми можемо записати 2 частинні -критерії. Гіпотеза (при умові, що включено в модель) відхиляється, якщо: , і не відхиляється в супротивному разі. Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель. Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді . Гіпотеза (при умові, що включено в модель) відхиляється, якщо: , і не відхиляється в супротивному разі. Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель. Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді . РОЗДІЛ ІІ ДОСЛІДЖЕННЯ ПОРУШЕНЬ ОСНОВНИХ ПРИПУЩЕНЬ ЛІНІЙНОГО РЕГРЕСІЙНОГО АНАЛІЗУ 2.1 „Ідеальна” модель лінійної регресії Нехай – незалежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами , де – невідомі параметри, – відомі невипадкові величини. Кожну випадкову величину можна подати у вигляді , де – похибки спостережень, і вони змінюються від спостереження до спостереження. Відносно похибок висуваються припущення: 1) , – незалежні випадкові величини; 2) . За спостереженнями , які описуються моделлю (2.1.1) необхідно оцінити невідомі параметри . Означення 2.1.1. «Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду (2.1.2) «Ідеальна» модель лінійної регресії – це модель (2.1.1) з коефіцієнтами . Означення 2.1.2. «Ідеальною» моделлю простої лінійної регресії називатимемо модель виду (2.1.3) «Ідеальна» модель простої лінійної регресії – це модель (2.1.1) з коефіцієнтами та змінною. Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з параметрами відповідно, де а середні обирались так. Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні .
Рис. 2.1.1. Вибір значень , які набувають невипадкові змінні «Ідеальна» модель простої лінійної регресії. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі. Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.1.2. Рис. 2.1.2. „Ідеальна” модель простої лінійної регресії Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії наведено в таблиці 2.1.1. Таблиця 2.1.1. Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії
F1 = 1,77 < 2,11 = F0,05;6;632, „ідеальна” модель адекватна. F2 = 1411,53 > 3,86 = F0,05;1;638, „ідеальна” модель значуща. Перевіримо гіпотези за допомогою критерію Стьюдента. Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку. Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку. |t1| = 1,46 < 1,96 = t0,025;638, гіпотеза не відхиляється. |t2| = 1 < 1,96 = t0,025;638, гіпотеза не відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки „ідеальної” моделі некорельовані.
Рис. 2.1.3. Графік залишків – смуга постійної ширини Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.1.4. Нормальний розподіл залишків Статистика, тому залишки можна вважати нормально розподіленими з параметрами . Статистика Бартлетта , тому дисперсія залишків постійна. Отже, 1) „ідеальна” модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється); 3) залишки , „ідеальної” моделі некорельовані; 4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами ; 5) дисперсія залишків „ідеальної” моделі величина постійна. «Ідеальна» модель лінійної регресії з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі. Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.1.5. Рис. 2.1.5. „Ідеальна” модель лінійної регресії з двома незалежними змінними Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії наведено в таблиці 2.1.2. Таблиця 2.1.2. Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії
F1 = 0,76 < 1,34= F0,05;61;576, „ідеальна” модель адекватна. F2 = 1399,4 > 3,01= F0,05;2;637, регресія значуща. Перевіримо гіпотези за допомогою критерію Стьюдента. Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку. Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку. Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку. |t1| = 0,04 < 1,96 = t0,025;637, гіпотеза не відхиляється. |t2| = 0,3 < 1,96 = t0,025;637, гіпотеза не відхиляється. |t3| = 0,7 < 1,96 = t0,025;637, гіпотеза не відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки „ідеальної” моделі некорельовані.
Рис. 2.1.6. Графік залишків – смуга постійної ширини Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.1.6. Нормальний розподіл залишків Статистика, тому залишки можна вважати нормально розподіленими з параметрами . Статистика Бартлетта , тому дисперсія залишків постійна. Отже, 1) „ідеальна” модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється); 3) залишки , „ідеальної” моделі некорельовані; 4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами; 5) дисперсія залишків „ідеальної” моделі величина постійна. 2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна Нехай – незалежні нормально розподілені випадкові величини з середніми , лінійними за параметрами та дисперсією , що змінюється від спостереження до спостереження. Параметри невідомі, – відомі невипадкові величини. За спостереженнями , які описуються моделлю , (2.2.1) необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.2.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу. Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з середніми, що дорівнюють сумі координат точок квадрата, і змінними дисперсіями: Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.2.1. Рис. 2.2.1. Модель простої лінійної регресії, в якій дисперсія спостережень величина змінна Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.2.1. Таблиця 2.2.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій дисперсія спостережень величина змінна
F1 = 0,67 < 2,11 = F0,05;6;632, лінійна модель адекватна. F2 = 166,26 > 3,86 = F0,05;1;638, регресія значуща. |t1| = 0,04 < 1,96 = t0,025;638, гіпотеза не відхиляється. |t2| = 0,38 < 1,96 = t0,025;638, гіпотеза не відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.2.2. Графік залишків – дисперсія змінюється Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.2.3. Нормальний розподіл залишків Статистика ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.2.4. Рис. 2.2.4. Модель лінійної регресії, в якій дисперсія спостережень величина змінна Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.2.2. Таблиця 2.2.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій дисперсія спостережень величина змінна
F1 = 0,66 < 1,34= F0,05;61;576, лінійна модель адекватна. F2 = 132,29 > 3,01= F0,05;2;637, регресія значуща. |t1| = 1,09 < 1,96 = t0,025;637, гіпотеза не відхиляється. |t2| = 1,88 < 1,96 = t0,025;637, гіпотеза не відхиляється. |t3| = 0,38 < 1,96 = t0,025;637, гіпотеза не відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані. Рис. 2.2.5. Графік залишків – смуга постійної ширини Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.2.6. Нормальний розподіл залишків Статистика ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. 2.3 Модель лінійної регресії, в якій спостереження величини залежні Нехай – залежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами . Параметри невідомі, – відомі невипадкові величини. За спостереженнями , які описуються моделлю , (2.3.1) необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.3.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу. Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з нормального розподілу з параметрами 0 та 1. Наступні 7 вибірок рахуються за формулою , де сталі – елементи послідовності Фібоначчі, а саме: . Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що , наведено на рисунку 2.3.1. Рис. 2.3.1. Модель лінійної регресії, в якій спостереження величини залежні Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.3.1. Таблиця 2.3.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження величини залежні
F1 = 0,05 < 2,11 = F0,05;6;632, лінійна модель адекватна. F2 = 0,03 < 3,86 = F0,05;1;638, регресія незначуща. |t1| = 0,29 < 1,96 = t0,025;638, гіпотеза не відхиляється. |t2| = 100 > 1,96 = t0,025;638, гіпотеза відхиляється.
Рис. 2.3.2. Графік залишків – дисперсія змінюється Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію. Рис.2.3.3. Нормальний розподіл залишків Статистика ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія незначуща (гіпотеза не відхиляється; гіпотеза не відхиляється, а гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.3.4. Рис. 2.3.4. Модель лінійної регресії, в якій спостереження величини залежні Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.3.2. Таблиця 2.3.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження величини залежні
F1 = 0,07 < 1,34= F0,05;61;576, лінійна модель адекватна. F2 = 0,25 < 3,01= F0,05;2;637, регресія незначуща. |t1| = 0,94 < 1,96 = t0,025;637, гіпотеза не відхиляється. |t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється. |t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.3.5. Графік залишків – дисперсія змінюється Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.3.6. Нормальний розподіл залишків Статистика ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. 2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини Нехай – незалежні рівномірно розподілені випадкові величини. За спостереженнями , які описуються моделлю , (2.4.1) необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.4.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу. Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень з рівномірного на відрізку розподілу. Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.4.1. Рис. 2.4.1. Модель простої лінійної регресії, в якій спостереження рівномірно розподілені Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.4.1. Таблиця 2.4.1 Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження рівномірно розподілені
F1 = 1,07 < 2,11 = F0,05;6;632, модель адекватна. F2 = 437,88 > 3,86 = F0,05;1;638, регресія значуща. |t1| = 0,16 < 1,96 = t0,025;638, гіпотеза не відхиляється. |t2| = 25,5 > 1,96 = t0,025;638, гіпотеза відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис.2.4.2. Графік залишків – дисперсія залишків змінюється Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.4.3. Нормальний розподіл залишків Статистика, ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. Лінійна регресія з двома незалежними змінними. Знайдемо МНК-оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що значення обираються згідно рис. 2.1.1, наведено на рисунку 2.4.4. Рис. 2. 4 .4. Модель лінійної регресії, в якій спостереження рівномірно розподілені Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.4.2. Таблиця 2.4.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження рівномірно розподілені
F1 = 0,89 < 1,34 = F0,05;61;576, модель адекватна. F2 = 220,04 > 3,01 = F0,05;2;637, модель значуща. |t1| = 0,74< 1,96 = t0,025;637, гіпотеза не відхиляється. |t2| = 25,5 > 1,96 = t0,025;637, гіпотеза відхиляється. |t3| = 48,5 > 1,96 = t0,025;637, гіпотеза відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерія . Оскільки , то залишки цієї моделі некорельовані.
Рис.2. 4 .5. Графік залишків – дисперсія залишків змінюється Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.4.5. Нормальний розподіл залишків Статистика, ,тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. 2.5 Модель простої лінійної регресії, в якій спостереження показниково розподілені величини Нехай – незалежні показниково розподілені випадкові величини з параметром . За спостереженнями , які описуються моделлю , (2.5.1) необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.5.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу. Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з показникового розподілу з параметром . Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.5.1. Рис. 2.5.1. Модель простої лінійної регресії, в якій спостереження показниково розподілені Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.1. Таблиця 2.5.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
F1 = 0,85 < 2,11 = F0,05;6;632, модель адекватна. F2 = 2,11 < 3,86 = F0,05;1;638, тому регресія незначуща. |t1| = 12,29 > 1,96 = t0,025;498, гіпотеза відхиляється. |t2| = 99 > 1,96 = t0,025;498, гіпотеза відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.5.2. Графік залишків – смуга постійної ширини Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.5.3. Нормальний розподіл залишків Статистика , тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) модель незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі. Результати стохастичного експерименту, за умов, що значення обиралися згідно рис.2.1.1, наведено на рисунку 2.5.4.
Рис. 2. 5 .4. Модель лінійної регресії, в якій спостереження показниково розподілені Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.2. Таблиця 2. 5 .2. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
F1 = 0,92 < 1,34 = F0,05;61;576, лінійна модель адекватна. F2 = 1,49 < 3,01 = F0,05;2;637, регресія незначуща. |t1| = 8,42 > 1,96 = t0,025;637, гіпотеза відхиляється. |t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється. |t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється. Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2. 5 .5. Графік залишків – смуга постійної ширини Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.5.6. Нормальний розподіл залишків Статистика , тому залишки не можна вважати нормально розподіленими. Статистика Бартлетта , тому дисперсія залишків змінна величина. Отже, 1) лінійна модель адекватна; 2) регресія незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється, гіпотеза відхиляється); 3) залишки некорельовані; 4) залишки не можна вважати нормально розподіленими; 5) дисперсія залишків змінна величина. ВИСНОВКИ Нехай – результат спостереження, який описується лінійною моделлю виду (1) де – регресійна матриця розміру , , – вектор невідомих параметрів, – вектор похибок спостережень. Припущення відносно вектора спостережень позначатимемо : .(2) Або, що те ж саме, припущення відносно вектора похибок мають вигляд: (3) Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими? Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме: 1) припущення про незміщеність похибок ; (4) 2) припущення про однакову дисперсію і некорельованість похибок (5) 3) припущення про нормальний розподіл похибок ; (6) 4) припущення про незалежність спостережень . (7) Наслідки порушення припущень (4)-(7) розглянемо на прикладі лінійної регресії з двома незалежними змінними. «Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду (8) «Ідеальна» модель – це модель (1) з коефіцієнтами . Опишемо вибір невипадкових змінних . Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні . Рис. 1. Вибір значень , які набувають невипадкові змінні Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (8). Результати експерименту наведено на рисунку 2.
Рис. 2 За допомогою критеріїв математичної статистики ми будемо перевіряти не тільки, чи виконуються припущення регресійного аналізу, але й гіпотези про адекватність лінійної моделі, про значущість регресії, про значущість коефіцієнтів регресії. Отже, модель (8) узгоджується з результатами експерименту, жодне з вихідних припущень не порушено. 1) „ідеальна” модель адекватна (модель лінійна); 2) „ідеальна” регресія значуща; 3) гіпотези , не відхиляються; 4) дисперсія залишків постійна; 5) залишки некорельовані; 6) залишки нормально розподілені . Розглянемо модель лінійної регресії, в якій дисперсія спостережень величина змінна, тобто припущення (5) місця не має. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (9) Результати експерименту наведено на рисунку 3.
Рис. 3 В порівнянні з ідеальною моделлю залишки не мають . Отже, разом з порушенням припущення про постійну дисперсію залишків порушується й припущення про нормальний розподіл залишків. Якщо залишки не мають нормального розподілу, то використовувати МНК-метод для оцінки параметрів регресії неприпустимо (МНК-оцінки не збігаються з ММП-оцінками). Розглянемо модель лінійної регресії, в якій спостереження величини залежні, тобто припущення (7) місця не має. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (10) Результати експерименту наведено на рисунку 4.
Рис. 4 В порівнянні з ідеальною моделлю 1) регресія незначуща; 2) гіпотези , відхиляються; 3) дисперсія залишків змінна величина; 4) залишки не мають . Отже, разом з порушенням припущення про незалежність спостережень , порушуються й припущення про постійність дисперсії залишків і припущення про нормальний розподіл залишків. Такі порушення неприпустимі. Розглянемо модель лінійної регресії, в якій спостереження рівномірно розподілені, тобто припущення (6) місця не має. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (11) Результати експерименту наведено на рисунку 5.
Рис. 5 В порівнянні з ідеальною моделлю 1) гіпотези , відхиляються; 2) дисперсія залишків змінна величина. Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків. Розглянемо модель лінійної регресії, в якій спостереження показниково розподілені, тобто припущення (6) місця не має. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (12) Результати експерименту наведено на рисунку 6. Рис. 6 В порівнянні з ідеальною моделлю, 1) лінійна регресія незначуща; 2) гіпотези відхиляються; 3) дисперсія залишків змінна величина. Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків. СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 1. Дрейпер Н., Смит Г. Прикладнойрегрессионный анализ. – М.: Статистика, 1973. 2. Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений, 2-е изд. – М.: Физматгиз, 1962. 3. Рао С.Р. Линейные статистические методы и их применение. – М.: Наука, 1968. 4. Себер Дж. Линейный регрессионный анализ. – М: Мир, 1980. |