<< Пред.           стр. 8 (из 19)           След. >>

Список литературы по разделу

 По условию т = 193; п = 200; р0 = 0,97; q0 = 1 - р0= 0,03; a = 0,02.
 Найдем наблюдаемое значение (uнабл )
 Так как конкурирующая гипотеза — левосторон­няя, то критическое значение (икр ) следует находить по таблице функции Лапласа (приложение 2) из равенства
 Ф0(икр)= (1 - 2а)/2.
 По условию a= 0,02.
 Отсюда
 Ф0(икр)=(1-2·0,02)/2=0,48.
 По таблице функции Лапласа (приложение 2) найдем, при каком икрФ0(икр ) = 0,48.
 Ф0(2,05)= 0,48.
 Учитывая, что конкурирующая гипотеза — ле­восторонняя, критическому значению необходимо присвоить знак «минус».
 Следовательно, -икр= -2,05.
 Заметим, что при правосторонней конкурирую­щей гипотезе Н1: р > 0,97 икр следует находить по таблице функции Лапласа (приложение 2) из ра­венства Ф0(икр ) == (1 - 2a)/2.
 При двусторонней конкурирующей гипотезе Н1: р ? 0,97 икр находим по таблице функции Лапласа (приложение 2) из равенства Ф0(икр) = (1 - a)/2.
 инабл>икр , следовательно, на данном уровне зна­чимости нет оснований отклонить нулевую гипо­тезу. По имеющимся данным на уровне значимос­ти a = 0,02 нельзя отклонить гипотезу о том, что вероятность того, что изделие окажется соответ­ствующим стандарту, составляет 0,97. Следователь­но, партию изделий принять можно.
 Наблюдаемое значение критерия попадает в об­ласть допустимых значений (рис. 8.8), следователь­но, нет оснований отклонить нулевую гипотезу.
 Ответ. На уровне значимости a = 0,02 партию изделий принять можно.
 Пример 8. Два завода изготавливают однотип­ные детали. Для оценки их качества сделаны вы­борки из продукции этих заводов и получены сле­дующие результаты (табл. 8.4):
 Таблица 8.4
 Выборки
  Завод №1
  Завод №2
 
 Объем выборки
  n1
  n2
 
 Число бракованных деталей
  m1
  m2
 
 
 
 На уровне значимости a = 0,025 определите, име­ется ли существенное различие в качестве изготавливаемых этими заводами деталей?
 Решение. Для решения данной задачи необходи­мо сравнить 2 вероятности биномиальных распределений.
 Сформулируем нулевую и конкурирующую ги­потезы согласно условию задачи.
 Н0: р1= р2 — вероятности появления события в 2 генеральных совокупностях, имеющих биномиальное распределение, равны (применительно к ус­ловию данной задачи — вероятность того, что де­таль, изготовленная на заводе №1, окажется брако­ванной, равна вероятности того, что деталь, изготовленная на заводе №2, окажется бракованной).
 Н1: р1 ? р2 — вероятности появления события в 2 генеральных совокупностях, имеющих биномиальное распределение, не равны (применительно к усло­вию этой задачи — вероятность того, что деталь, из­готовленная на заводе №1, окажется бракованной, не равна вероятности того, что деталь, изготовлен­ная на заводе №2, окажется бракованной; заводы изготавливают детали разного качества). Так как по условию задачи не требуется проверить, на каком заводе качество изготавливаемых деталей выше, выд­вигаем двустороннюю конкурирующую гипотезу.
 Поскольку конкурирующая гипотеза — двусто­ронняя, то и критическая область — двусторонняя.
 В качестве критерия для сравнения 2 вероятно­стей биномиальных распределений используется случайная величина U.
 Его наблюдаемое значение uнабл рассчитывается по формуле
 где т1/n1- — относительная частота (частость) появ­ления события в 1-й выборке; т2/п2— относитель­ная частота (частость) появления события во 2-й выборке; -средняя частость появления события
 ` — средняя частость непоявления события
 
 =1-` п1 — объем 1-й выборки; п2 — объем 2-й выборки.
 По условию т1=20; n1=200; m2=15; n2=300; a= 0,025.
 Найдем среднюю частость появления события
 Найдем среднюю частость непоявления события
 ` = 1 - ` = 1 — 0,07 = 0,93.
 Найдем инабл
 Так как конкурирующая гипотеза — двусторон­няя, критическое значение (икр)следует находить по таблице функции Лапласа (приложение 2) из равенства
 Ф0(икр)= (1 - a)/2.
 По условию ? = 0,025. Отсюда
 Ф0(икр) = (1 - 0,025)/2 = 0,4875.
 По таблице функции Лапласа (приложение 2) найдем, при каком икрФ0(икр ) = 0,4875.
 Ф0(2,24) = 0,4875.
 Учитывая, что конкурирующая гипотеза — дву­сторонняя, находим две критические точки
 uкр.п.=2,24; -икр.л.= -2,24.
 Заметим, что при правосторонней конкурирую­щей гипотезе Н1: р1 > р2икр следует находить по таблице функции Лапласа (приложение 2) из ра­венства Ф0(икр ) = (1 - 2a)/2.
 При левосторонней конкурирующей гипотезе Н1. p 1 < p2 uкр следует находить по таблице функции Лапласа (приложение 2) из равенства Ф0(икр) = (1 - 2a)/2 и присваивать ему знак «минус».
 -икр < инабл < икр , следовательно, на данном уров­не значимости нет оснований отвергнуть нулевую гипотезу. По имеющимся данным на уровне значи­мости a = 0,025 нет оснований отклонить нулевую гипотезу. Следовательно, заводы изготавливают де­тали одинакового качества.
 Наблюдаемое значение критерия попадает в область допустимых значений (рис. 8.9), следовательно, нет оснований отклонить нулевую гипотезу.
 Ответ. Нет оснований отклонить нулевую гипо­тезу, т. е. имеющееся различие в качестве изготав­ливаемых этими заводами деталей — случайно, незначимо.
 
 Задачи к теме 8
 1. Компания, производящая средства для потери веса, утверждает, что прием таблеток в сочетании со специальной диетой позволяет сбросить в сред­нем в неделю 400 г веса. Случайным образом отобраны 25 человек, использующих эту терапию, и обнаружено, что в среднем еженедельная потеря в весе составила 430 г со средним квадратическим отклонением 110 г. Проверьте гипотезу о том, что средняя потеря в весе составляет 400 г. Уровень значимости a = 0,05.
 2. Поступление страховых взносов в 130 филиа­лов страховых организаций в регионе А составило 26·104 у. е., в регионе В на 100 филиалов пришлось 18·104 у. е. Дисперсия величины страховых взно­сов в регионе А равна 39·108 (у. е.)2, в регионе В — 25·108 (у. е.)2. На уровне значимости a= 0,05 опре­делите, существенно ли различается средняя ве­личина поступления страховых взносов в регионах А и В из расчета на 1 филиал.
 3. Компания утверждает, что новый вид зубной пасты для детей лучше предохраняет зубы от кариеса, чем зубные пасты, производимые другими фир­мами. Для проверки эффекта в случайном порядке была отобрана группа из 400 детей, которые пользо­вались новым видом зубной пасты. Другая группа из 300 детей, также случайно выбранных, в это же время пользовалась другими видами зубной пасты. После окончания эксперимента было выяснено, что у 30 детей, использующих новую пасту, и 25 детей из контрольной группы появились новые признаки кариеса. Имеются ли у компании достаточные ос­нования для утверждения о том, что новый сорт зубной пасты эффективнее предотвращает кариес, чем другие виды зубной пасты? Принять уровень значимости a = 0,05.
 4. В 1995 г. число договоров добровольного стра­хования, заключенных государственными страховыми организациями, составило в Ростовской об­ласти 1 858·103 на сумму 7 461·106 руб. Негосудар­ственные страховые организации заключили 1 250·104 договоров добровольного страхования на сумму 34 884·106 руб. Предположительно диспер­сия страховой суммы договоров, заключенных государственными страховыми организациями, равна 1016 руб.2, а договоров, заключенных негосударствен­ными страховыми организациями, — 8·1017 руб.2. Имеются ли существенные различия в средних раз­мерах страховых сумм договоров добровольного страхования, заключаемых государственными и не­государственными страховыми организациями? Уровень значимости a принять равным 0,01.
 5. Крупный коммерческий банк заказал марке­тинговое исследование по выявлению эффекта «премирования» (калькулятор, набор ручек и др.) как стимула для открытия счета в банке. Для проверки случайным образом было отобрано 200 «премиро­ванных» посетителей и 200 «непремированных». В результате выяснилось, что 89% посетителей, ко­торым предлагалась премия, и 79% посетителей, которым не предлагалась премия, открыли счет в банке в течение 6 мес. Используя эти данные, про­верьте гипотезу о том, что доля «премированных» посетителей, открывших счет в банке, статистичес­ки существенно отличается от удельного веса «не­премированных» посетителей, открывших счет в банке. Принять уровень значимости a = 0,05.
 6. Инженер по контролю качества проверяет сред­нее время горения нового вида электроламп. Для проверки в порядке случайной выборки было ото­брано 100 ламп, среднее время горения которых со­ставило 1 075 ч. Предположим, что среднее квадратическое отклонение времени горения для генераль­ной совокупности известно и составляет 100 ч. Ис­пользуя уровень значимости a= 0,05, проверьте ги­потезу о том, что среднее время горения ламп — более 1 000 ч.
 Предположим, что инженер по контролю каче­ства не имеет информации о генеральной диспер­сии и использует выборочное среднее квадратическое отклонение. Изменится ли ответ задачи?
 7. Компания, выпускающая в продажу новый сорт растворимого кофе, провела проверку вкусов поку­пателей по случайной выборке из 400 человек и вы­яснила, что 220 из них предпочли новый сорт всем остальным. Проверьте на уровне значимости a = 0,01 гипотезу о том, что, по крайней мере, 52% потреби­телей предпочтут новый сорт кофе.
 8. Страховая компания изучает вероятность до­рожных происшествий для подростков, имеющих мотоциклы. За прошедший год проведена случай­ная выборка 2 000 страховых полисов подростков-мотоциклистов и выявлено, что 15 из них попада­ли в дорожные происшествия и предъявили компа­нии требование о компенсации за ущерб. Может ли аналитик компании отклонить гипотезу о том, что менее 1% всех подростков-мотоциклистов, имею­щих страховые полисы, попадали в дорожные происшествия в прошлом году? Принять уровень зна­чимости a = 0,05.
 
 9. Новое лекарство, изобретенное для лечения атеросклероза, должно пройти экспериментальную проверку для выяснения возможных побочных эф­фектов. В ходе эксперимента лекарство принимали 4 тыс. мужчин и 5 тыс. женщин. Результаты выя­вили, что 60 мужчин и 100 женщин испытывали побочные эффекты при приеме нового медикамен­та. Можем ли мы на основании эксперимента ут­верждать, что побочные эффекты нового лекарства у женщин проявляются в большей степени, чем у мужчин? Принять уровень значимости a = 0,05.
 10. В 1995 г. в Ростовской области обследовано 12 промышленных предприятий и 14 строительных (подрядных) организаций. Средняя балансовая при­быль промышленных предприятий оказалась равной 25·107pyб., а строительных организаций - 12·108 руб. Исправленная выборочная дисперсия прибыли про­мышленных предприятий составила 64·1016 руб.2, строительных организаций — 16·1016 руб.2. На уров­не значимости a = 0,01 определите, являются ли различия в результатах финансовой деятельности промышленных предприятий и строительных орга­низаций случайными.
 11. На 1 января 1996 г. численность беженцев в Ростовской области составляла 32 412 чел. при об­щей численности наличного населения 4 425 400 чел. В Краснодарском крае на 5 043 900 чел. на­личного населения приходилось 30 423 беженца. На уровне значимости ? = 0,05 ответьте на вопрос: «Объясняется ли более высокий удельный вес бе­женцев в общей численности населения в Ростовской области в сравнении с Краснодарским краем случайными факторами или имеет смысл поиск факторов, обусловивших это явление?».
 12. Компания по производству безалкогольных напитков предполагает выпустить на рынок новую модификацию популярного напитка, в котором са­хар заменен сукразитом. Компания хотела бы быть уверенной в том, что не менее 70% ее потребителей предпочтут новую модификацию напитка. Новый напиток был предложен на пробу 2 тыс. чел., и 1 422 из них сказали, что он вкуснее старого. Может ли компания отклонить предположение о том, что толь­ко 70% всех ее потребителей предпочтут новую модификацию напитка старой? Принять уровень зна­чимости a = 0,05.
 13. Производители нового типа аспирина утвер­ждают, что он снимает головную боль за 30 мин. Случайная выборка 100 чел., страдающих голов­ными болями, показала, что новый тип аспирина снимает головную боль за 28,6 мин при среднем квадратическом отклонении 4,2 мин. Проверьте на уровне значимости a= 0,05 справедливость утверж­дения производителей аспирина о том, что это лекарство излечивает головную боль за 30 мин.
 14. Доля убыточных предприятий в промышлен­ности в целом по России в 1995 г. составила 26%, а в Ростовской области — 27%. В 1995 г. в Ростов­ской области насчитывалось 7 579 промышленных предприятий. На уровне значимости a = 0,05 опре­делите, являются ли различия в удельном весе убы­точных промышленных предприятий в России и в Ростовской области случайными или в Ростовской области действует комплекс экономических усло­вий, обусловливающих повышенную долю вила 2,3% от общего числа промышленных пред­приятий. Среди 2 236 машиностроительных и ­ нерентабельных предприятий?
 
 15. В 1995 г. доля предприятий государственной формы собственности в Ростовской области метаталлообрабатывающих предприятий она оказалась равной 2,1%. На уровне значимости ? = 0,01 опре­делите, существенно ли меньше удельный вес госу­дарственных предприятий в машиностроении и ме­таллообработке, чем в целом в промышленности области?
 16. В 1996 г. годовой оборот 4 бирж в регионе А составил 12·104 у. е.; в регионе В годовой оборот 5 бирж — 125·103 у. е. Исправленная выборочная дисперсия оборота в регионе А оказалась равной 3·104(у.е.)2, в регионе В — 2·104 (у.е.)2. Можно ли на уровне значимости a = 0,05 утверждать, что средний оборот бирж в регионе А больше, чем в регионе B?
 17. Компания, занимающаяся консультировани­ем в области инвестиций, заявляет, что среднего­довой процент по акциям определенной отрасли промышленности составляет 11,5%. Инвестор, желая проверить истинность этого утверждения, на основе случайной выборки 50 акций выявил, что среднегодовой процент по ним составил 10,8% с исправленным средним квадратическим отклоне­нием s = 3,4%. На основе имеющейся информации определите, имеет ли инвестор достаточно основа­ний, чтобы опровергнуть заявление компании? При­нять уровень значимости a = 0,05.
 18. Производитель некоторого вида продукции утверждает, что 95% выпускаемой продукции не имеют дефектов. Случайная выборка 100 изделий показала, что только 92 из них свободны от дефек­тов. Проверьте справедливость утверждения произ­водителя продукции на уровне значимости a = 0,05.
 19. Главный бухгалтер большой корпорации про­вел обследование по данным прошедшего года с целью выяснения доли некорректных счетов. Из 2000 выбранных счетов в 25 оказались некоррект­ные проводки. Для уменьшения доли ошибок он внедрил новую систему. Год спустя он решил про­верить, как работает новая система, и выбрал для проверки в порядке случайного отбора 3 000 счетов компании. Среди них оказалось 30 некорректных. Можем ли мы утверждать, что новая система позволила уменьшить долю некорректных проводок в счетах? Принять уровень значимости a = 0,05.
 20. Владелец фирмы считает, что добиться более высоких финансовых результатов ему помешала неравномерность поставок комплектующих по месяцам года, несмотря на то, что поставщик в пол­ном объеме выполнил свои обязательства за год. Поставщик утверждает, что поставки были не так уж неравномерны. Распределение поставок по ме­сяцам года имеет следующий вид:
 Месяц123456789101112
 Объем поставок, ед.192326182020202032273540
 
 
 На уровне значимости a = 0,05 определите, кто прав: владелец фирмы или поставщик? Изменится ли ответ на поставленный вопрос, если уровень значимости принять равным 0,01? Объясните результаты.
 
 9. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗЕЙ МЕЖДУ ЯВЛЕНИЯМИ И ИХ ИСПОЛЬЗОВАНИЕ ДЛЯ УПРАВЛЕНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИМИ ПРОЦЕССАМИ
 9.1. Виды и формы связей, различаемые в статистике
 Современная наука об обществе объясняет суть явлений через изучение взаимосвязей явлений. Объем продукции предприятия связан с численностью работников, стоимостью основных фондов и т. д.
 Различают два типа взаимосвязей между различ­ными явлениями и их признаками: функциональ­ную или жестко детерминированную и статистичес­кую или стохастически детерминированную.
 Функциональная связь — это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результатив­ного признака. Например, при у = Ox— связь между у и х является строго функциональной, но значению х = 4 соответствует не одно, а два значе­ния y1 = +2; y2= -2.
 Стохастическая связь — это вид причинной за­висимости, проявляющейся не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений. Например, изучается зависи­мость роста детей от роста родителей. В семьях, где родители более высокого роста, дети в среднем ниже, чем родители. И, наоборот, в семьях, где родители ниже ростом, дети в среднем выше, чем родители. Еще один пример: потребление продуктов питания пенсионеров зависит от душевого дохода: чем выше доход, тем больше потребление. Однако такого рода зависимости проявляются лишь при большом чис­ле наблюдений.
 Корреляционная связь — это зависимость сред­него значения результативного признака от изме­нения факторного признака; в то время как каж­дому отдельному значению факторного признака Х может соответствовать множество различных зна­чений результативного (Y).
 Задачами корреляционного анализа являются:
 1) изучение степени тесноты связи 2 и более яв­лений;
 2) отбор факторов, оказывающих наиболее суще­ственное влияние на результативный признак;
 3) выявление неизвестных причинных связей. Исследование корреляционных зависимостей включает ряд этапов:
 1) предварительный анализ свойств совокупности;
 2) установление факта наличия связи, определе­ние ее направления и формы;
 3) измерение степени тесноты связи между при­знаками;
 4) построение регрессионной модели, т. е. нахож­дение аналитического выражения связи;
 5) оценку адекватности модели, ее экономическую интерпретацию и практическое использование.
 Корреляционная связь между признаками может возникать различными путями. Важнейший путь-причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, Х — балл оценки плодородия почв, Y — урожайность сельскохозяйственной культуры. Здесь ясно, какой признак выступает как независимая переменная (фактор), а какой как зависимая пере­менная (результат).
 Очень важно понимать суть изучаемой связи, по­скольку корреляционная связь может возникнуть между двумя следствиями общей причины. Здесь можно привести множество примеров. Так, классическим является пример, приведенный известным статистиком начала XX в. А.А.Чупровым. Если в качестве признака Х взять число пожарных команд в городе, а за признак Y — сумму убытков в городе от пожаров, то между признаками Х и Y в городах обнаружится значительная прямая корреляция. В среднем, чем больше пожарников в городе, тем боль­ше убытков от пожаров. В чем же дело? Данную корреляцию нельзя интерпретировать как связь причины и следствия, оба признака - следствия общей причины - размера города. В крупных горо­дах больше пожарных частей, но больше и пожа­ров, и убытков от них за год, чем в мелких.
 Современный пример. Сразу после 17 августа 1998 г. резко возросли цена валюты и объем покуп­ки валюты частными лицами. Здесь также нельзя рассматривать эти два явления как причину и след­ствие. Общая причина - обострение финансового кризиса, приведшее к росту курсовой стоимости валюты и стремлению населения сохранить свои накопления в твердой валюте. Такого рода корре­ляцию называют ложной корреляцией.
 Корреляция возникает и в случае, когда каждый из признаков и причина, и следствие. Например, при сдельной оплате труда существует корреляция между производительностью труда и заработком. С одной стороны, чем выше производительность тру­да, тем выше заработок. С другой — высокий заработок сам по себе является стимулирующим факто­ром, заставляющим работника трудиться более ин­тенсивно.
 По направлению выделяют связь прямую и об­ратную, по аналитическому выражению — прямолинейную и нелинейную.
 В начальной стадии анализа статистических дан­ных не всегда требуются количественные оценки, достаточно лишь определить направление и харак­тер связи, выявить форму воздействия одних фак­торов на другие. Для этих целей применяются ме­тоды приведения параллельных данных, аналити­ческих группировок и графический.
 Метод приведения параллельных данных осно­ван на сопоставлении 2 или нескольких рядов ста­тистических величин. Такое сопоставление позво­ляет установить наличие связи и получить пред­ставление о ее характере. Сравним изменения двух величин (табл. 9.1).
 Таблица 9.1
 Х123456789
 Y596101217152023
 
 
 С увеличением Х возрастает и Y, поэтому связь между ними можно описать уравнением прямой.
 Метод аналитических группировок характеризует влияние качественного признака на относительные средние величины, на показатели вариации коли­чественных признаков. В качестве группировочного признака выбирается факторный. В таблице раз­мещают средние значения одного или нескольких результативных признаков. Изменения факторно­го признака при переходе от одной группы к дру­гой вызывают соответствующие изменения резуль­тативного признака (табл. 9.2).
 Оборачиваемость в днях - факторный признак, обозначаемый обычно X, а прибыль - результатив­ный - Y. Табл. 9.2 ясно демонстрирует присутствие связи между признаками, это - отрицательная связь. Судить о том, линейная она или нет, по этим данным сложно.
 Таблица 9.2
 Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств на 1998 г.
 Продолжительность оборота средств, дн.(Х)Число малых предприятийСредняя прибыль, млн. руб. (Y)
 40-50614,57
 51-70812,95
 71-10167,40
 Итого2011,77
 
 
 Графический метод используется для наглядно­го изображения формы связи между изучаемыми признаками. Для этого в прямоугольных осях ко­ординат строят график, по оси ординат которого откладывают индивидуальные значения результа­тивного признака, а по оси абсцисс - индивидуаль­ные значения факторного признака. Совокупность точек результативного и факторного признаков называется полем корреляции (рис. 9.1).
 
 
 Оценка тесноты связи между признаками пред­полагает определение меры соответствия вариации результативного признака от одного (при изучении парных зависимостей) или нескольких (множественных) факторов.
 Большинство методов измерения тесноты связи заключается в сопоставлении отклонений абсолютных значений величин от их средних. Они основа­ны на предположении, что при полной независимо­сти переменных отклонения значений факторного признака от средней (X – )носят случайный ха­рактер и должны случайно сочетаться с различны­ми отклонениями значений результативного при­знака (Y - `Y). При наличии значительного переве­са совпадений или несовпадений знаков отклонений делается предположение о наличии связи между Х и Y. Одну из первых попыток установления тесноты связи между переменными сделал Г. Фехнер, пред­ложивший простейший показатель тесноты связи:
 Показатель Фехнера изменяется в промежутке [-1; 1]. При значении, равном 1, он указывает на положительную функциональную связь, при зна­чении -1 — на отрицательную функциональную связь, при i = 0 связь отсутствует. Промежуточные значения i характеризуют степень близости связи к функциональной (табл. 9.3).
 Таблица 9.3
 Х123456789
 Y596101217152023
 Х-`Х-4-5-2-101234
 Y-`Y-8-4-7-3-142710
 
 
 Например, для данных табл. 9.1.
 Получим `Х = 5; `Y = 13; sx, = 3,2; sy = 5,85;
 i = (9 - 1)/9 = 0,89.
 Недостаток показателя Фехнера состоит в том, что разные по абсолютной величине отклонения имеют одинаковый вес. Более совершенный изме­ритель тесноты связи между признаками — ли­нейный коэффициент корреляции Пирсона (назван по имени английского статистика К. Пирсона) ха­рактеризует тесноту и направление связи между двумя коррелируемыми признаками в случае на­личия между ними линейной зависимости.
 Смысл линейного коэффициента корреляции Пирсона более понятен, если его расчет производить с использованием коэффициента ковариации. Это — мера совместной вариации признаков. Ко­эффициент ковариации рассчитывается с помощью формулы
 С помощью коэффициента ковариации можно определить наличие и направление связи. Однако его нельзя использовать для определения степени тесноты связи, так как он имеет смешанную раз­мерность (Х•Y). Коэффициент ковариации — не нормирован, следовательно, нельзя сравнивать ко­эффициенты ковариации разных пар переменных. Для преодоления этого недостатка можно выраже­ние (9.2) разделить на средние квадратические от­клонения по х и по у. Полученный показатель ин­тенсивности линейной связи называется коэффи­циентом корреляции:
 Это — безразмерная величина, которая изменя­ется в интервале от -1 до +1, -1 ? r ? 1.
 Путем ряда преобразований можно получить сле­дующие аналитические выражения для коэффициента корреляции:
 Производя расчет по итоговым значениям исход­ных переменных, линейный коэффициент корреляции можно вычислить по формуле
 Линейный коэффициент корреляции имеет боль­шое значение при исследовании социально-экономических явлений и процессов, распределения ко­торых близки к нормальным.
 
 9.2. Оценка достоверности коэффициента корреляции
 Коэффициент парной корреляции, исчисленный по выборочным данным, является случайной величиной. С уменьшением числа наблюдений надеж­ность коэффициента корреляции падает. С увеличением числа наблюдений (свыше 500) распределе­ние коэффициента корреляции r (не превышающее 0,9) стремится к нормальному.
 Полученный из выборки коэффициент корреля­ции r является оценкой коэффициента корреляции ? в генеральной совокупности.
 Определим доверительный интервал для оценки истинного значения коэффициента корреляции в генеральной совокупности (? )
 где ?r . — среднеквадратическая ошибка выборочного коэффициента парной корреляции;
 t — распределение Стьюдента с числом степеней свободы k = п - 2 и уровнем значимости a.
 Если коэффициент корреляции меньше 0,9 или выборка мала, среднеквадратическая ошибка выборочного коэффициента корреляции sr рассчиты­вается по формуле
 Значимость коэффициента корреляции можно проверить с помощью статистики t, имеющей распределение Стьюдента с п - 2 степенями свободы.
 Наблюдаемое значение t (tнабл) вычисляется как
 Критическое значение (tкр) определяется по табли­це распределения Стьюдента (приложение 5) по уров­ню значимости a и числу степеней свободы k = п - 2.
 По общему правилу проверки статистических гипотез:
 — если tнабл ? tкр, нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь
 (Н0: r = 0), нельзя отклонить на заданном уровне значимости а;
 — если tнабл< tкр , нулевая гипотеза отклоняется в пользу альтернативной о том, что коэффициент корреляции значимо отличается от нуля (Н1: r?0), т. е. о наличии линейной корреляционной зависимости между Х и Y.
 Критерий tрасч подчиняется закону распределения Стьюдента с п - 2 степенями свободы.
 При малом числе наблюдений в выборке и вы­соком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипо­тезы о наличии корреляционной связи, а также при построения доверительного интервала приме­няется z-преобразование Фишера.
 Для этого применяется статистика
 Распределение z асимптотически приближается к нормальному. Вариация z выражается формулой
 9.3. Эмпирическое и теоретическое корреляционные отношения
 При выявлении статистической зависимости по данным аналитической группировки в качестве меры степени тесноты связи может быть использо­вано эмпирическое корреляционное отношение (hэмп)
 
 
 где
 межгрупповая дисперсия зависимой переменной Y;
 общая дисперсия зависимой переменной Y;
 `уj — средняя арифметическая j-й группы, где j= 1..., k;
 `у — общая средняя арифметическая;
 тj — объем j-й группы;
 п — объем выборки;
 у — наблюдаемые значения Y.
 Значения hэмп распределены на отрезке [0; 1]
  Чем ближе hэмп к 1, тем теснее связь между пере­менными Х и Y, тем больше колеблемость Y объясняется колеблемостью X.
 Квадрат эмпирического корреляционного отно­шения (h2эмп ) называют коэффициентом детерми­нации. Он показывает, какая часть Y колеблемости объясняется колеблемостью X.
 Степень тесноты связи между переменными в случае не только линейной, но и нелинейной регрессионной зависимости можно оценить с помощью теоретического корреляционного отношения (hтеор). Поэтому ?теор часто называют «индексом корреля­ции». Теоретическое корреляционное отношение рассчитывается по формуле
 где SR— сумма квадратов вследствие регрессии;
 ST — общая сумма квадратов.
 Ниже (п. 9.11) приведены формулы расчета SR (9.29) и ST (9.27).
 Легко увидеть, что в случае линейной регресси­онной зависимости r = hтеор . Если связь — нелинейная, h < hтеор . Это позволяет использовать hтеор в качестве меры линейности связи между переменны­ми X и Y. Если линейный коэффициент корреляции Пирсона (r) мало отличается от теоретического кор­реляционного отношения (hтеор), т.е. r » hтеор , то за­висимость между переменными близка к линей­ной. В противном случае имеет, место нелинейная зависимость между X и Y.
 Проверка значимости и эмпирического (hэмп), и теоретического (hтеор) корреляционного отношения осуществляется с помощью критерия Фишера — F. Его наблюдаемое значение рассчитывается по формуле
 где n — число наблюдений (объем выборки); т — число групп (если проверяется значимость эмпири­ческого корреляционного отношения hэмп ) или чис­ло параметров в уравнении регрессии (если прове­ряется значимость теоретического корреляционно­го отношения hтеор).
 Ясно, что в уравнении парной регрессии — 2 па­раметра: b0 и b1, т. е. т = 2.
 Критическое значение F определяется по табли­цам распределения Фишера (приложение 6) по уро­ню значимости ? и числу степеней свободы.
 Наблюдаемое значение (Fнабл) необходимо срав­нить с критическим (Fкр). По общему правилу проверки статистических гипотез:
 — если Fнабл ? Fкр , нулевую гипотезу (H1:h = 0) о том, что h незначим, нельзя отклонить;
 — если Fнабл > Fкр нулевая гипотеза отклоняется в пользу альтернативной (H1:h ? 0) о том, что h значимо отличается от нуля.
 9.4. Ранговая корреляция
 Если п объектов какой-либо совокупности N про­нумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi, указывает место, которое занимает i-й объект среди других n объектов, расположенных в соот­ветствии с признаком Х (i= 1,2,.... п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т. п.) таким образом, чтобы они распреде­лили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то мож­но попытаться установить степень линейной зави­симости между ними. Предположим, имеется 5 про­дуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристика­ми А и В (табл.9.4).
 Таблица 9.4
 Характеристики для ранжированияПродукт
 VWXYZ
 А
  2
  5
  1
  3
  4
 
 B13245
 
 
 Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет осно­ван на различии между рангами:
 D = Ранг А - Ранг В.
 Коэффициент корреляции рангов Спирмена ? рассчитывается по формуле
 где п - число пар ранжированных наблюдений.
 В нашем примере мы имеем 5 пар рангов, следо­вательно, п = 5.
 т. е. между признаками есть достаточно сильная линейная связь. Этот коэффициент изменяется в промежутке от [-1; 1] и интерпретируется так же, как и коэффициент Пирсона. Разница лишь в том, что он применяется для ранжированных данных.
 Значимость коэффициента Спирмена проверяет­ся на основе t критерия Стьюдента по формуле
 Значение коэффициента считается существен­ным, если tнабл > tкрит (a ;k = п — 2).
 
 9.5. Корреляция альтернативных признаков
 Альтернативные признаки — это признаки, при­нимающие только два возможных значения. Ис­следование их корреляции основано на показате­лях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков:
 ав
 сd
 
 
 Например, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 9.5).
 Таблица 9.5
  ЗаболелиНе заболелиИтого
 Привитые302050
 Непривитые15520
 Всего452570
 
 
 Для измерения тесноты взаимосвязи признаков производится расчет коэффициента контингенции по формуле
 Коэффициент контингенции принимает значение в промежутке [-1; 1]. Его интерпретация аналогич­на интерпретации коэффициента корреляции. Мы получили слабую отрицательную связь -0,14.
 Другой метод измерения связи основан на расче­те коэффициента ассоциации
 Минус перед коэффициентом говорит об обрат­ном направлении связи, т. е. чем больше прививок, тем меньше заболеваний.
 9.6. Оценка уравнения парной регрессии
 В начале этой главы было установлено, каким об­разом можно провести предварительный анализ наличия связи, определить ее направление и форму c помощью метода приведения параллельных данных, аналитических группировок, графического метода.
 Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).
 Уточнение формы связи, нахождение ее анали­тического выражения производится путем построе­ния уравнения связи (уравнения регрессии).
 Регрессия — это односторонняя статистичес­кая зависимость.
 Уравнение регрессии позволяет определить, ка­ким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X), если остальные факторы, влияющие на Y и не связанные с X, рассматривались неиз­менными (т. е. мы абстрагировались от них).
 К задачам регрессионного анализа относятся:
 1) установление формы зависимости;
 2) определение функции регрессии;
 3) оценка неизвестных значений зависимой пе­ременной.
 По аналитическому выражению различают пря­молинейную и криволинейную связи.
 Прямолинейная связь имеет место, когда с воз­растанием (или убыванием) значений Х значения Y увеличиваются (или уменьшаются) более или менее равномерно.
 В этом случае уравнение связи записывается так:
 `yх = b0 + b1х.
 Криволинейная форма связи может выражаться различными кривыми, из которых простейшими являются:
 1) парабола второго порядка
 `yх = b0 + b1х +b2х2;
 
 2) гипербола
 `yx =b0+b1 /x;
 3) показательная
 `yx = b0b1x;
 либо в логарифмическом виде
 ln`yx = lnb0 + xlnb1.
 После определения формы связи, т. е. вида урав­нения регрессии, по эмпирическим данным определяют параметры искомого уравнения.
 При этом отыскиваемые параметры должны быть такими, чтобы рассчитанные по уравнению теоретические значения результативного признака мак­симально приближались к эмпирическим данным.
 Чаще всего определение параметров уравнения регрессии осуществляется с помощью метода наименьших квадратов, в котором предполагается, что сумма квадратов отклонений теоретических значе­ний от эмпирических должна быть минимальной,
 В зависимости от формы связи в каждом конк­ретном случае определяется своя система уравне­ний, удовлетворяющая принципу минимизации.
 
 9.7. Парная линейная зависимость
 Предположение о парной линейной зависимости между Х и Y можно описать функцией
 Y = b0 + b1Х + и,
 где b0, b1 — истинные значения параметров урав­нения регрессии в генеральной совокупности; и — случайная составляющая.
 Существует несколько причин возникновения случайной составляющей:
 1) невключение объясняющих переменных в урав­нение регрессии;
 2) агрегирование объясняющих переменных, включенных в уравнение регрессии;
 3) неправильное описание структуры модели, т. е. неверный выбор объясняющих переменных;
 4) неправильная функциональная спецификация модели. Например, для моделирования использо­вана линейная функция, в то время как зависи­мость между переменными — нелинейная;
 5) ошибки наблюдения (ошибки данных).
 По выборочным данным определяются оценки истинных (в случае правильной спецификации модели) параметров уравнения регрессии и случайной составляющей
 `yx=b0+b1х+e
 где b0,b1, е — оценки неизвестных b0 , b1, и. В случае парной линейной зависимости вида
 `yx=b0+b1х
  условие минимума суммы квадратов отклонений теоретических значений от эмпирических (ST) имеет вид
 Условие 1-го порядка для минимума
 
 
 Отсюда получаем систему нормальных уравнений
 где n — число рассматриваемых пар взаимозависи­мых величин;
 Sx — сумма значений факторного признака;
 Sy — сумма значений результативного признака. Вычислив по эмпирическим данным все записанные выше суммы и подставив их в систему уравне­ний, находим оценки параметров искомой прямой:
 b0 и b1
 В настоящее время необходимость в ручных рас­четах отпала, так как существует множество компьютерных программ, реализующих методы регрес­сионного анализа. Важно понимать смысл параметров и уметь их адекватно интерпретировать.
 Из системы нормальных уравнений можно вы­вести формулы для расчета b0 и b1
 
 b0=`y-b1·`x. (9.23)

<< Пред.           стр. 8 (из 19)           След. >>

Список литературы по разделу