Реферат: Кореляційний і регресивний методи аналізу зв язку
Название: Кореляційний і регресивний методи аналізу зв язку Раздел: Рефераты по астрономии Тип: реферат | ||||||||||||||||||||||||||||||||||||||||||||||
Реферат з вищої математики на тему: Кореляційний і регресивний методи аналізу зв ’ язку . Основне завдання кореляційного і регресійного методів полягає в аналізі статистичних даних для виявлення математичної залежності між досліджуваними ознаками і встановлення за допомогою коефіцієнта кореляції порівняльної оцінки щільності взаємозв’язку. Після того, як через економічний аналіз встановлено, що зв’язок між явищами є, і визначено загальний характер цього зв’язку, статистика за допомогою кореляційного і регресійного методів надає цим зв’язкам числового виразу. Кореляційний і регресій ний методи аналізу вирішують два основні завдання : - визначають за допомогою рівнянь регресії аналітичного форму зв’язку між варіацією ознак XiY, - встановлюють ступінь щільності зв’язку між ознаками. Найчастіше трапляються такі типи кореляційних зв’язків: - факторна ознака безпосередньо пов’язана з результативною, - результативна ознака визначається комплексом діючих факторів, - дві результативні ознаки спричинені дією однієї загальної причини. У практиці економіко-статистичних досліджень часто доводиться мати справу з прямолінійною формою зв’язку яку описує рівняння регресії ( рис.1 ) . На цьому графіку середній арифметичній результативної ознаки Y відповідає пряма, паралельна осі абсцис, лінійне кореляційне рівняння Y(X) зображує похила пряма, а кут нахилу між ними характеризує щільність зв’язку. Рівняння регресії характеризує зміну середнього рівня результативної ознаки Y залежно від зміни факторної ознаки X. Воно визначає математичне сподівання групових середніх результативної ознаки під впливом різних значень факторної ознаки. У разі лінійної форми зв’яку результативна ознака змінються під впливом факторної ознаки рівномірно: Ŷx = a0 +a1 X, Де, Ŷx - згладжене середнє значення результативної ознаки , X - факторна ознака, a0 і a1 - параметри рівняння , a0 – значення Y при X= 0,a1 – коефіцієнт регресії. Коефіцієнт регресіїa1, вказує на те, наскільки змінюється результативна ознака Y внаслідок зміни факторної ознаки X на одиницю. Якщо a1 має позитивний знак,то зв’язок прямий, якщо від’ємний - зв’язок обернений. Y X Y(X) Y 0 X Рис. 1. Теоретична лінія регресії . Параметри рівняння зв’язку визначають за способом найменших квадратів складеної і роз’язаної системи двох рівнянь з двома невідомими: SY= na0 +a1 SX , SYX= a0 SX + a1 SX 2 , деn - число членів у кожному з двох порівнюваних рядів, SX - сума значень факторної ознаки ,SX2 - сума кадратів значень факторної ознаки ,SY - сума значень результативної ознаки, SYX - cума добутків значень факторної та результативної ознак. Рзв’язавши дану систему рівнянь, дістанемо такі параметри: SX 2 SY - SX SXY n SXY - SXSY a0 = , a1 = nSX 2 - SXSX n SX 2 - SXSX Обчисливши за фактичними даними всі записані вище суми й підставивши їх у наведені формули, знайдемо параметри прямої. Рз\озглянемо розрахунок параметрів лінійного рівняння зв’язку між вартістю основних виробничих фондів і випуском продукції за даними десяти однорідних підприємств. (табл.1.) Табл. 1 Розрахунки для визначення параметрів лінійного рівняння зв ’ язку факторної та результативної ознак.
За способом найменших квадратів визначемо параметри : 1236 · 47.2 – 108 · 539.1 58339.2 – 58222.8 116.4 a0 = = = = 0.167 10 · 1236 – 108 · 108 12360 – 11664 696.0 10 · 539.1 – 108 · 47.2 5391.0 – 5097.6 293.4 a1 = = = = 0.421 696.0 696.0 696.0 Тоді лінійне рівняння регресії зв’язку між вартістю основних виробничих фондів і випуском продукції матиме такий вигляд : Ŷx = 0.167 + 0.421X. Отже, при збільшенні вартості основних виробничих фондів на 1 млн грн. Випуск продукції зросте на 0,42 млн грн. Послідовно підставляючи в дане рівняння значення факторної ознаки X , дістанемо згладжені значення результативної ознаки Ŷx , які й укажуть на те, яким має бути середній розмір випущеної продукції для даного розміру основних виробничих фондів ( за інших рівних умов ). Згладжені ( теоретичні ) значення ( із заокругленням до десятих ) наведено в останній графі табл. 1.Якщо параметри рівняння визначено правильно,то SY= SŶх = 47,2. Побудуємо графік, який покаже згладжування емпіричних даних рівняння прямої ( рис.1.). Y
Рис. 2. Емпіричний і згладжені рівні ряду : 1 - Y, 2 - Ŷx =0.167+ 0.421 X, 3- Y = 4.72 Для економічної інтерпретації лінійних і нелінійних зв’язків між двома досліджуваними явищами часто використовують розраховані за рівняннями регресії коефіцієнти еластичності. Коефіцієнт еластичності показує,на скільки процентів зміниться в середньому результативна ознака Y при зміненні факторної ознаки X на 1 %. Відповідно до лінійної залежності коефіцієнт еластичності визначається за формулою XX e = a1 або e = a1 , Ŷx Y де e , коефіцієнт еластичності. Підставивши в формулу різні значення X, дістанемо різні e . У наведеному прикладі коефіцієнт еластичності на першому підприємстві при X= 12: X 12 e1 = a1 = 0.421· = 0.97. Отже, 1% приросту вартості основних виробничих ŶX 5.2 9 фондів випуск продукції зростає на 0,97%.На п’ятому підприємстві при X=9: e5 =0.421· = 0.95, 4 На десятому при X = 10: e10 =0.96%. Для всіх підприємств разом коефіцієнт еластичності X 10.8 e= a1 = 0.421 · = 0.963 % . Y 4.72 Це означає, що при збільшенні середньої вартості основних виробничих фондів на 1 % випуск продукції зростає в середньому на 0,963 %. Якщо залежність між ознаками представити за даними,згладженими параболою другого порядку, то коефіцієнт еластичності має такий вигляд: X e= (a1 + a2 X ) . Y Визначення щільності зв’язку в кореляційно-регресійному аналізі ґрунтується на правилі додавання дисперсій,як і в методі аналітичного групування. Але на відміну від нього, де для оцінки лінії регресії застосовують групові середні результативної ознаки, в кореляційно-регресійному аналізі для цієї мети використовують теоретичні значення результативної ознаки. Зобразити і обґрунтувати кореляційно-регресійний аналіз можна на прикладі графіка на рис.1. На ньому є три лінії Y – ламана лінія фактичних даних(1),ŶX - пряма похила лінія 2 теоретичних значень Y при абстрагуванні від впливу всіх факторів, крім фактора X(змінна середня) ,Y – пряма горизонтальна лінія 3, із середнього значення якої виключено вплив на Y всіх без винятку факторів ( стала середня ). Розбіг лінії змінної середньої Ŷх з лінією сталої середньої Y пояснюється впливом факторної ознаки Х, що,в свою чергу , свідчить про існування між ознаками Y і X наповного не функціонального зв’язку.Для визначення щільності цього зв’язку потрібно обчислити дисперсію відхилень Y і Ŷх , тобто залишкову дисперсію,яка зумовлена впливом усіх факторів, крім Х. Різниця між загальною і залишковою дисперсіями дає теоретичну ( факторну ) дисперсію, яка вимірює варіацію,зумовлену фактором Х . На зіставленні цієї різниці із загальною дисперсією побудовано індекс кореляції, або теоретичне кореляційне відношення: s2 заг - s2 е s2 е s2 у R = Ö = Ö1 - , або R = Ö s2 заг sзаг s2 заг де s2 заг - загальна дисперсія,s2 е - залишкова дисперсія,s2 у - факторна ( теоретична ) дисперсія. Факторну дисперсію обчислюють з теоретичних значень за формулою : S ( Ŷx -Y) 2 s2 Ŷ = n або за формулою без теоретичних значень: ( a 0 S Y + a 1 SXY ) – (Y) 2 s2 Ŷ =. n S( Y – Ŷx ) Залишку дисперсію визначають або за формулою s2 е = n або за правилом додавання дисперсій s2 е =s2 заг - s2 Ŷ . У наведеному прикладі ( за даними розрахунків у табл..1 ) факторна дисперсія ( 0.167 · 47.2 + 0.421 · 539.1 ) - 4.72 2 s2 Ŷ = = 1.206. 10 Загальну дисперсію обчислимо за формулою s2 заг = Y2 - ( Y )2 = 23.974 – 22.278 = 1.696. Залишкову дисперсію визначаємо як різницю між загальною і факторною дисперсіями : s2 е = s2 заг - s2 Ŷ = 1.696 –1.206 = 0.409 Отже, знаходимо індекс кореляції за наведеними вище формулами : s2 заг - s2 е 1.696 - 0.490 R = Ö = Ö= 0.843. s2 заг 1.696 або s2 е 0.490 R = Ö 1- = Ö1 - = 0.843 s2 заг 1.696 s2 Ŷ 1.206 або R= Ö = Ö=Ö0.711= 0.843 s2 заг 1.696 Індекс кореляції вказує на щільну залежність випуску продукції від вартості основних виробничих фондів. Коефіцієнт детермінації ( R2 ) характеризує ту частину варіації результативної ознаки Y, яка відповідає лінійному рівнянню регресії : s2 Ŷ 1.206 R2 = = = 0.711 s2 заг 1.696 Отже, в обстеженій сукупності заводів 71.1% варіації випуску продукції пояснюється різними рівнями оснащеності заводів основними виробничими фондами. Індекс кореляції набирає значень від 0 до 1. Коли R=0, то зв’язку між варіацією ознак YiX немає.Залишкова дисперсія дорівнює загальній, s2 е = s2 заг , а теоретична дисперсія дорівнює нулю, s2 заг = 0, Всі теоретичні значення YX збігаються із середніми значеннями Y, лінія ŶX на графіку збігається з лінією Y, тобто набуває горизонтального положення . При R=1 теоретична дисперсія дорівнює загальний,s2 Ŷ = s2 заг , а залишкова s2 е = 0. Фактичні значення Y збігаеться з теоретичними ŶX , зв’язок між досліджуваними ознаками лінійно-функціональний. Індекс кореляції оцінює щільність зв’язку.Він, як і емпіричне кореляційне відношення,вимірує лише щільність зв’язку і не вказує на її напрямок. Аби доповнити дослідження визначенням напрямку зв’язку в разі лінійної залежності використовують лінійний коефіцієнт кореляції. XY – X Y r = . sx sу Значення r коливається в межах від – 1 до +1. Додатне значення відповідає прямову зв ’ язку між ознаками , а від ’ ємне – зворотному. Оцінюють щільність зв ’ язку за схемою ( табл. 1 ) Таблиця 2
Всі дані для обчислення лінійного коефіцієнта кореляції в наведеному прикладі є в табл.1. sx = Ö Х2 - (Х)2 = Ö 123.6 – 10.82 = Ö 6.96 = 2.638 sy = Ö Y 2 - ( Y )2 = Ö 23.974 – 4.722 = 1.302 XY – XY 53.91 – 10.8 · 4.72 2.9340 r = = = = 0.854 sx sу 2.638 · 1.302 3.4349 Скористкємося для знаходження лінійного коефіцієнта кореляції іншою формулою: sx 2.638 r = а1 = 0.421 · = 0.853, sу 1.302 тобто відповідь вийшла ідентичною.Це означає,що зв’язок між вартістю основних виробничих фондів і випуском продукції сильний ( щільний ) і прямий. Абсолютне значення лінійного коефіцієнта кореляції збугається з індексом кореляції ( відхилення становить 0.01 ). Знаведених формул коефіцієнта кореляції можна визначити коефіцієнт регресії, не розраховуючи рівняння зв’язку: XY – X Y 2.934 a1 = = = 0.421 s2 x 6.960 або sy 1.302 а1 = r= 0.853 · = 0.421. sx 2.638 Перевірку сили зв’язку в кореляційно-регресійному аналізі здійснюють за допомогою тих самих критеріїв і процедур,що й у аналітичному групуванні.Ступені вільності залежать від числа параметрів рівняння регресії k1 = m –1 і кількості одиниць дослуджіваної сукупності k2 = n – m. Істотність зв’язку коефіцієнта детермінації R2 перевіряють за допомогою таблиці критерію Fдля 5 % - го рівня значущості. Так, при k1 = m –1= 2 – 1 = 1 ( для лінійної моделі) і k2 = n – m = 10 – 2 = 8. Фактичне значення F-критерію у наведеному вище прикладі визначають за формулою R2 k2 0.711 8 F ф = = · = 19.68. 1 - R2 k1 1 – 0.711 1 Критичне значення Fт ( 0.95 ) = 5.32 набагато менше від фактичного Fт ( 0.95 ) ÐFф ( 5.32 Ð19.68) , що підтверджує істотність кореляційного зв’язку між досліджуваними ознаками. Для встановлення достовірності обчисленого нами лінійного коефіцієнта кореляції використовують критерій Стьюдента ( t– критерій ): r tr = , mr де mr - середня похибка коефіцієнта кореляції,яку визначають за формулою : 1 – r2 mr = Ö n – 1 При достатньо великому числі спостережень ( n > 50) коефіцієнт кореляції можна вважати достовірним, якщо він перевищує свою похибку в три і більше разів, а якщо він менший ніж три, то зв’язок між досліджуваними ознаками XiY не доведено. У наведеному прикладі середня похибка коефіцієнта кореляції 1 – r2 1 – 0.853 2 1 – 0.723 0.277 mr = = = = = 0.092 Ö n – 1Ö 9 3 3 Відношення коефіцієнта кореляції до його середньої похибки 0.853 tr = = 9.27 0.092 Це дає підставу вважати, що обчислений лінійний коефіцієнт кореляції достатньо точно характеризує щільність зв’язку між досліджуваними ознаками. |