Елементи дисперсійного аналізу і теорії кореляції
Размещено на /
ЕЛЕМЕНТИ ДИСПЕРСІЙНОГО АНАЛІЗУ
І ТЕОРІЇ КОРЕЛЯЦІЇ
Вступ
У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.
1 Сутність і задачі дисперсійного аналізу. Однофакторний дисперсійний аналіз
Нехай є груп сукупностей, кожна з яких характеризується випадковою величиною . Це можуть бути підмножини однієї генеральної сукупності чи різні генеральні сукупності. При цьому кожна група сукупностей відповідає визначеному рівню досліджуваного фактора ( , , , ... , ), який якось впливає на випадкову величину . Рівні фактора можуть бути фіксованими (обраними і визначеними заздалегідь) чи випадковими, тобто такими, коли кількісний рівень фактора визначається випадковим чином. Крім того, рівні фактора можуть не мати кількісної міри, а розрізнятися між собою тільки якісно.
Введемо наступні основні обмеження, що накладаються на розглянуту модель:
– випадкові величини , , , ... , у кожній групі розподілені нормально з математичними сподіваннями , , , , і дисперсіями , , , , ;
– дисперсії у групах є рівними між собою, тобто ;
– вибірки, що організовані з груп сукупностей, є незалежними.
Будь-яке значення випадкової величини (кількісної характеристики розглянутих сукупностей) може бути поданим у вигляді наступної лінійної моделі
(1)
де:
– -е значення у групі (при рівні фактора );
– компонента, що обумовлена рівнем фактора (факторна компонента);
– постійний компонент, що залежить тільки від природи випадкової величини і є незалежним від рівня фактора ;
– "похибка" лінійної моделі, що подає собою залишок, який утвориться після вирахування і з усього результату випробування, тобто випадкова компонента, що враховує вплив усіх інших факторів, крім розглянутого чинника .
Модель (1) відображає те, що у формуванні значення беруть участь дві компоненти: факторна і випадкова. Якщо припустити, що випадкова компонента відсутня і для різних рівнів фактора отримано по одному невипадковому значенню , , , ... , , то як показник впливу фактора можна застосувати нормовану суму квадратів відхилень від їх середнього значення
(2)
де
Цю величину, подібну до (2), можна назвати дисперсією фактора (факторною дисперсією), хоча вона не є характеристикою випадкової величини.
Порівнюючи цю факторну дисперсію з дисперсією випадкової компоненти, що називають дисперсією відтворюваності , можна зробити висновок про значущість (чи незначущість) їхньої відмінності.
Якщо факторна дисперсія і дисперсія відтворюваності розрізняються значущо, то слід визнати вплив досліджуваного фактора на результати випробування, а якщо вони розрізняються суттєво, то роблять статистичний висновок про те, що вплив фактора є несуттєвим.
При цьому вивчати вплив фактора на наслідки випробувань слід не на результатах окремих дослідів, а на середніх значеннях, отриманих при фіксованих рівнях фактора, тому що дисперсії середніх менше дисперсії самої випадкової величини і вплив фактора (якщо він є) проявиться більш наочно.
Таким чином, за нульову гіпотезу, що буде перевірятися за допомогою дисперсійного аналізу, висувається статистична гіпотеза про рівність математичних сподівань по рівнях фактора
: (3)
проти альтернативної гіпотези : "не менш двох математичних сподівань є різними".
Припустимо, що для кожного з рівнів фактора ( , , , ... , ) отримано значень випадкової величини , що характеризує досліджувану сукупність (усього значень). Результати випробувань подані в таблиці 1.
Обчислимо середнє по вимірах окремо для кожного рівня фактора, а також загальну середню за всіма спостереженнями
, (4)
Таблиця 1
Номер випробування | Рівень фактора | |||||
... | ... | |||||
1 | ... | |||||
2 | ... | |||||
... | ||||||
... | ... | |||||
... | ||||||
... | ... | |||||
... | ... |
Повну суму квадратів відхилень усіх значень від загальної середньої, при обчисленні якої спільно врахуються факторна та випадкова компоненти, можна розкласти на суму двох складових, що подають ці фактори роздільно
(5)
Для перетворення цих сум у відповідні дисперсії необхідно їх поділити на відповідні кількості ступенів волі, результати чого представлено в табл. 2, яку називають таблицею однофакторного дисперсійного аналізу.
Таблица 2
Компонента | Сума квадратів | Число ступенів волі |
Дисперсія |
Факторна |
(6) |
||
Залишкова |
(7) |
||
Повна |
|
Для того, щоб перевірити тепер нульову гіпотезу про рівність математичних сподівань за рівнями фактора (3), необхідно за критерієм Фішера порівняти факторну (6) і залишкову дисперсії (7).
Для цього проведемо розрахунок статистики критерію
і порівняємо її з критичною точкою при рівні значущості і таких ступенях волі
,
Якщо
то нульову гіпотезу приймають, тобто при заданому рівні значущості приймають рішення про те, що вплив фактора можна вважати несуттєвим.
Якщо
то вплив фактора визнають значимим.
Отже, метод дисперсійного аналізу складається в перевірці нульової гіпотези про рівність групових середніх нормальних сукупностей з однаковими дисперсіями. Для цього досить перевірити за критерієм нульову гіпотезу про рівність факторної і залишкової дисперсій.
2 Поняття про кореляцію і регресію
Оцінка залежності між випадковими величинами та поява можливості прогнозувати при цьому значення однієї випадкової величини за значеннями іншої випадкової величини є важливою проблемою статистичного аналізу.
2.1