<< Пред. стр. 8 (из 19) След. >>
ОтсюдаФ0(zкр)=(1-0,05)/2=0,475.
По таблице функции Лапласа (приложение 2) найдем, при каком zкрФ0(zкр) = 0,475.
Ф0(1,96) = 0,475.
Учитывая, что конкурирующая гипотеза - двусторонняя, находим две критические точки:
Заметим, что при левосторонней конкурирующей гипотезе Н1:?X < ?Y zкр следует находить по таблице функции Лапласа (приложение 2) из равенства Ф0(zкр ) = (1 - 2?)/2 и присваивать ему знак "минус".
При правосторонней конкурирующей гипотезе Н1: ?X > ?Y zкр находим по таблице функции Лапласа (приложение 2) из равенства Ф0(zкр)= (1- 2?)/2.
zнабл> zкрследовательно, на данном уровне значимости нулевая гипотеза отвергается в пользу конкурирующей. На уровне значимости ?= 0,05 можно утверждать, что полученное различие средних показателей производительности труда в группах неслучайно, имеются 2 типа предприятий с различной средней величиной производительности труда.
Наблюдаемое значение критерия попадает в критическую область (рис. 8.6), следовательно, нулевая гипотеза отклоняется в пользу конкурирующей.
Ответ. На уровне значимости ? = 0,05 можно утверждать, что полученное различие средних показателей производительности труда в группах не случайно, имеются 2 типа предприятий с различной средней величиной производительности труда.
Пример 6. Предполагается, что применение нового типа резца сократит время обработки некоторой детали. Хронометраж времени обработки 9 деталей, обработанных старым типом резцов, дал следующие результаты: среднее время обработки детали X?- 57 мин, исправленная выборочная дисперсия s2x = 186,2 (мин2). Среднее время обработки 15 деталей, обработанных новым типом резцов, - ? по данным хронометражных измерений - 52 мин, а исправленная выборочная дисперсия s2y = 166,4 (мин2). На уровне значимости ? = 0,01 ответьте на вопрос, позволило ли использование нового типа резцов сократить время обработки детали?
Решение. Для решения данной задачи необходимо сравнить 2 средние нормально распределенных генеральных совокупностей, генеральные дисперсии которых неизвестны, но предполагаются одинаковыми (малые независимые выборки). В этой задаче речь идет о малых выборках, так как пx = 9 и ny = 15 меньше 30. Выборки - независимые, поскольку из контекста задачи видно, что они извлечены из непересекающихся генеральных совокупностей.
Сформулируем нулевую и конкурирующую гипотезы, согласно условию задачи.
Н0: ?X = ?Y - генеральные средние 2 нормально распределенных совокупностей с неизвестными дисперсиями (но предполагаемыми одинаковыми) равны (применительно к условию данной задачи - среднее время, затрачиваемое на обработку детали резцами нового и старого типа, - одинаково, т. е. использование нового типа резца не позволяет снизить время на обработку детали).
Н1: ?X > ?Y - генеральная средняя для Х больше, чем генеральная средняя для Y (применительно к условию данной задачи - среднее время, затрачиваемое на обработку детали резцами старого типа, больше, чем - нового, т. е. использование нового типа резца позволяет снизить время на обработку детали).
Так как конкурирующая гипотеза - правосторонняя, то и критическая область - правосторонняя.
Приступать к проверке гипотезы о равенстве генеральных средних 2 нормально распределенных совокупностей с неизвестными дисперсиями можно лишь в том случае, если генеральные дисперсии равны. В противном случае, данная задача в теории неразрешима.
Поэтому, прежде чем проверять эту гипотезу, проверим гипотезу о равенстве генеральных дисперсий нормальных совокупностей.
Сформулируем нулевую и конкурирующую гипотезы, согласно условию задачи.
Н0: D(X) = D(Y) - генеральные дисперсии 2 нормально распределенных совокупностей равны.
Н1: D(X) > D(Y) - генеральная дисперсия для Х больше генеральной дисперсии для Y. Выдвигаем правостороннюю конкурирующую гипотезу, так как исправленная выборочная дисперсия для Х значительно больше, чем исправленная выборочная дисперсия для Y.
Так как конкурирующая гипотеза - правосторонняя, то и критическая область - правосторонняя.
В качестве критерия для сравнения 2 дисперсий нормальных генеральных совокупностей используется случайная величина F - критерий Фишера-Снедекора (приложение 6).
Его наблюдаемое значение (fнабл) рассчитывается по формуле
где s2б - большая (по величине) исправленная выборочная дисперсия; s2м - меньшая (по величине) исправленная выборочная дисперсия.
Найдем fнабл
Критическое значение (fкр)следует находить с помощью таблицы распределения Фишера-Снедекора (приложение 6) по уровню значимости ? и числу степеней свободы k1 и k2.
По условию ? = 0,01; число степеней свободы найдем по формуле
k1= n1 - 1; k2 = n2 - 1,
где k1 - число степеней свободы большей (по величине) исправленной дисперсии; k2 - число степеней свободы меньшей (по величине) исправленной дисперсии; п1 - объем выборки большей (по величине) исправленной дисперсии; n2 - объем выборки меньшей (по величине) исправленной дисперсии. Найдем k1 и k2
k1 = 10 - 1 = 9;
k2=15 - 1 = 14.
Определяем fкр по уровню значимости ? = 0,01 и числу степеней свободы k1 =9 и k2=14 :
fнабл< fкр следовательно, на данном уровне значимости нет оснований отвергнуть нулевую гипотезу о равенстве генеральных дисперсий нормальных совокупностей.
Следовательно, можно приступить к проверке гипотезы о равенстве генеральных средних двух нормально распределенных совокупностей.
В качестве критерия для проверки этой гипотезы используется случайная величина t-критерий Стьюдента.
Его наблюдаемое значение (tнабл ) рассчитывается по формуле
где X?- выборочная средняя для X;?- выборочная средняя для Y; s2x - "неправленная" выборочная дисперсия для X; s2y - "неправленная" выборочная дисперсия для Y; пx - объем выборки, извлеченной из генеральной совокупности X; пy - объем выборки, извлеченной из генеральной совокупностиY. Найдем tнабл,
Критическое значение (tкр ) следует находить по таблице распределения Стьюдента (приложение 5) по уровню значимости ? и числу степеней свободы k.
По условию ? = 0,01; число степеней свободы найдем по формуле
k = пx + ny - 2,
где k - число степеней свободы; пx - объем выборки для X; пy - объем выборки для Y.
k = 9 + 15 - 2 = 22.
Найдем t кр по уровню значимости ? = 0,01 (для односторонней критической области) и числу степеней свободы k = 22
Заметим, что при левосторонней конкурирующей гипотезе ?X < ?Y tкр следует находить по таблицам распределения Стьюдента (приложение 5) по уровню значимости ? (для односторонней критической области) и числу степеней свободы k = пx + пy - 2 и присваивать ему знак "минус".
При двусторонней конкурирующей гипотезе ?X ??Y tкр находим по таблицам распределения Стьюдента приложение 5) по уровню значимости ? (для двусторонней критической области) и числу степеней свободы k= пx+ пy - 2.
tнабл < tкр , следовательно, на этом уровне значимости нет оснований отвергнуть нулевую гипотезу. По имеющимся хронометрическим данным на уровне значимости ? = 0,01 нельзя отклонить гипотезу о том, что генеральные средние равны, т. е. среднее время, затрачиваемое на обработку детали старым и новым типом резцов, отличается незначимо, расхождения между средними - случайны, использование нового типа резцов не позволяет снизить время обработки детали.
Наблюдаемое значение критерия попадает в область допустимых значений (рис. 8.7), следовательно, нулевую гипотезу нельзя отклонить.
Ответ. На уровне значимости ? = 0,01 нельзя утверждать, что использование нового типа резцов позволило сократить время обработки детали.
Пример 7. Партия изделий принимается в том случае, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0,97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости ? = 0,02 принять партию?
Решение. Для решения данной задачи необходимо проверить гипотезу о том, что неизвестная генеральная доля точно равна определенному числу.
Сформулируем нулевую и конкурирующую гипотезы согласно условию задачи.
Н1: р =р0 = 0,97 - неизвестная генеральная доля р равна р0 (применительно к условию этой задачи - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0,97, т. е. партию изделий можно принять).
Н1: р < 0,97 - неизвестная вероятность р меньше гипотетической вероятности p0 (применительно к условию данной задачи - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0,97, т. е. партию изделий нельзя принять).
Так как конкурирующая гипотеза - левосторонняя, то и критическая область - левосторонняя.
В качестве критерия для сравнения наблюдаемой относительной частоты с гипотетической вероятностью появления события используется случайная величина U.
Его наблюдаемое значение (uнабл) рассчитывается по формуле
где т/п - относительная частота (частость) появления события;p0 - гипотетическая вероятность появления события; q0 - гипотетическая вероятность непоявления события; п - объем выборки.
По условию т = 193; п = 200; р0 = 0,97; q0 = 1 - р0= 0,03; ? = 0,02.
Найдем наблюдаемое значение (uнабл )
Так как конкурирующая гипотеза - левосторонняя, то критическое значение (икр ) следует находить по таблице функции Лапласа (приложение 2) из равенства
Ф0(икр)= (1 - 2а)/2.
По условию ?= 0,02.
Отсюда
Ф0(икр)=(1-2·0,02)/2=0,48.
По таблице функции Лапласа (приложение 2) найдем, при каком икрФ0(икр ) = 0,48.
Ф0(2,05)= 0,48.
Учитывая, что конкурирующая гипотеза - левосторонняя, критическому значению необходимо присвоить знак "минус".
Следовательно, -икр= -2,05.
Заметим, что при правосторонней конкурирующей гипотезе Н1: р > 0,97 икр следует находить по таблице функции Лапласа (приложение 2) из равенства Ф0(икр ) == (1 - 2?)/2.
При двусторонней конкурирующей гипотезе Н1: р ? 0,97 икр находим по таблице функции Лапласа (приложение 2) из равенства Ф0(икр) = (1 - ?)/2.
инабл>икр , следовательно, на данном уровне значимости нет оснований отклонить нулевую гипотезу. По имеющимся данным на уровне значимости ? = 0,02 нельзя отклонить гипотезу о том, что вероятность того, что изделие окажется соответствующим стандарту, составляет 0,97. Следовательно, партию изделий принять можно.
Наблюдаемое значение критерия попадает в область допустимых значений (рис. 8.8), следовательно, нет оснований отклонить нулевую гипотезу.
Ответ. На уровне значимости ? = 0,02 партию изделий принять можно.
Пример 8. Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты (табл. 8.4):
Таблица 8.4
Выборки
Завод №1
Завод №2
Объем выборки
n1
n2
Число бракованных деталей
m1
m2
На уровне значимости ? = 0,025 определите, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей?
Решение. Для решения данной задачи необходимо сравнить 2 вероятности биномиальных распределений.
Сформулируем нулевую и конкурирующую гипотезы согласно условию задачи.
Н0: р1= р2 - вероятности появления события в 2 генеральных совокупностях, имеющих биномиальное распределение, равны (применительно к условию данной задачи - вероятность того, что деталь, изготовленная на заводе №1, окажется бракованной, равна вероятности того, что деталь, изготовленная на заводе №2, окажется бракованной).
Н1: р1 ? р2 - вероятности появления события в 2 генеральных совокупностях, имеющих биномиальное распределение, не равны (применительно к условию этой задачи - вероятность того, что деталь, изготовленная на заводе №1, окажется бракованной, не равна вероятности того, что деталь, изготовленная на заводе №2, окажется бракованной; заводы изготавливают детали разного качества). Так как по условию задачи не требуется проверить, на каком заводе качество изготавливаемых деталей выше, выдвигаем двустороннюю конкурирующую гипотезу.
Поскольку конкурирующая гипотеза - двусторонняя, то и критическая область - двусторонняя.
В качестве критерия для сравнения 2 вероятностей биномиальных распределений используется случайная величина U.
Его наблюдаемое значение uнабл рассчитывается по формуле
где т1/n1- - относительная частота (частость) появления события в 1-й выборке; т2/п2- относительная частота (частость) появления события во 2-й выборке; -средняя частость появления события
?- средняя частость непоявления события
=1-?
п1 - объем 1-й выборки; п2 - объем 2-й выборки.
По условию т1=20; n1=200; m2=15; n2=300; ?= 0,025.
Найдем среднюю частость появления события
Найдем среднюю частость непоявления события
? = 1 - ? = 1 - 0,07 = 0,93.
Найдем инабл
Так как конкурирующая гипотеза - двусторонняя, критическое значение (икр)следует находить по таблице функции Лапласа (приложение 2) из равенства
Ф0(икр)= (1 - ?)/2.
По условию ? = 0,025. Отсюда
Ф0(икр) = (1 - 0,025)/2 = 0,4875.
По таблице функции Лапласа (приложение 2) найдем, при каком икрФ0(икр ) = 0,4875.
Ф0(2,24) = 0,4875.
Учитывая, что конкурирующая гипотеза - двусторонняя, находим две критические точки
uкр.п.=2,24; -икр.л.= -2,24.
Заметим, что при правосторонней конкурирующей гипотезе Н1: р1 > р2икр следует находить по таблице функции Лапласа (приложение 2) из равенства Ф0(икр ) = (1 - 2?)/2.
При левосторонней конкурирующей гипотезе Н1. p 1 < p2 uкр следует находить по таблице функции Лапласа (приложение 2) из равенства Ф0(икр) = (1 - 2?)/2 и присваивать ему знак "минус".
-икр < инабл < икр , следовательно, на данном уровне значимости нет оснований отвергнуть нулевую гипотезу. По имеющимся данным на уровне значимости ? = 0,025 нет оснований отклонить нулевую гипотезу. Следовательно, заводы изготавливают детали одинакового качества.
Наблюдаемое значение критерия попадает в область допустимых значений (рис. 8.9), следовательно, нет оснований отклонить нулевую гипотезу.
Ответ. Нет оснований отклонить нулевую гипотезу, т. е. имеющееся различие в качестве изготавливаемых этими заводами деталей - случайно, незначимо.
Задачи к теме 8
1. Компания, производящая средства для потери веса, утверждает, что прием таблеток в сочетании со специальной диетой позволяет сбросить в среднем в неделю 400 г веса. Случайным образом отобраны 25 человек, использующих эту терапию, и обнаружено, что в среднем еженедельная потеря в весе составила 430 г со средним квадратическим отклонением 110 г. Проверьте гипотезу о том, что средняя потеря в весе составляет 400 г. Уровень значимости ? = 0,05.
2. Поступление страховых взносов в 130 филиалов страховых организаций в регионе А составило 26·104 у. е., в регионе В на 100 филиалов пришлось 18·104 у. е. Дисперсия величины страховых взносов в регионе А равна 39·108 (у. е.)2, в регионе В - 25·108 (у. е.)2. На уровне значимости ?= 0,05 определите, существенно ли различается средняя величина поступления страховых взносов в регионах А и В из расчета на 1 филиал.
3. Компания утверждает, что новый вид зубной пасты для детей лучше предохраняет зубы от кариеса, чем зубные пасты, производимые другими фирмами. Для проверки эффекта в случайном порядке была отобрана группа из 400 детей, которые пользовались новым видом зубной пасты. Другая группа из 300 детей, также случайно выбранных, в это же время пользовалась другими видами зубной пасты. После окончания эксперимента было выяснено, что у 30 детей, использующих новую пасту, и 25 детей из контрольной группы появились новые признаки кариеса. Имеются ли у компании достаточные основания для утверждения о том, что новый сорт зубной пасты эффективнее предотвращает кариес, чем другие виды зубной пасты? Принять уровень значимости ? = 0,05.
4. В 1995 г. число договоров добровольного страхования, заключенных государственными страховыми организациями, составило в Ростовской области 1 858·103 на сумму 7 461·106 руб. Негосударственные страховые организации заключили 1 250·104 договоров добровольного страхования на сумму 34 884·106 руб. Предположительно дисперсия страховой суммы договоров, заключенных государственными страховыми организациями, равна 1016 руб.2, а договоров, заключенных негосударственными страховыми организациями, - 8·1017 руб.2. Имеются ли существенные различия в средних размерах страховых сумм договоров добровольного страхования, заключаемых государственными и негосударственными страховыми организациями? Уровень значимости ? принять равным 0,01.
5. Крупный коммерческий банк заказал маркетинговое исследование по выявлению эффекта "премирования" (калькулятор, набор ручек и др.) как стимула для открытия счета в банке. Для проверки случайным образом было отобрано 200 "премированных" посетителей и 200 "непремированных". В результате выяснилось, что 89% посетителей, которым предлагалась премия, и 79% посетителей, которым не предлагалась премия, открыли счет в банке в течение 6 мес. Используя эти данные, проверьте гипотезу о том, что доля "премированных" посетителей, открывших счет в банке, статистически существенно отличается от удельного веса "непремированных" посетителей, открывших счет в банке. Принять уровень значимости ? = 0,05.
6. Инженер по контролю качества проверяет среднее время горения нового вида электроламп. Для проверки в порядке случайной выборки было отобрано 100 ламп, среднее время горения которых составило 1 075 ч. Предположим, что среднее квадратическое отклонение времени горения для генеральной совокупности известно и составляет 100 ч. Используя уровень значимости ?= 0,05, проверьте гипотезу о том, что среднее время горения ламп - более 1 000 ч.
Предположим, что инженер по контролю качества не имеет информации о генеральной дисперсии и использует выборочное среднее квадратическое отклонение. Изменится ли ответ задачи?
7. Компания, выпускающая в продажу новый сорт растворимого кофе, провела проверку вкусов покупателей по случайной выборке из 400 человек и выяснила, что 220 из них предпочли новый сорт всем остальным. Проверьте на уровне значимости ? = 0,01 гипотезу о том, что, по крайней мере, 52% потребителей предпочтут новый сорт кофе.
8. Страховая компания изучает вероятность дорожных происшествий для подростков, имеющих мотоциклы. За прошедший год проведена случайная выборка 2 000 страховых полисов подростков-мотоциклистов и выявлено, что 15 из них попадали в дорожные происшествия и предъявили компании требование о компенсации за ущерб. Может ли аналитик компании отклонить гипотезу о том, что менее 1% всех подростков-мотоциклистов, имеющих страховые полисы, попадали в дорожные происшествия в прошлом году? Принять уровень значимости ? = 0,05.
9. Новое лекарство, изобретенное для лечения атеросклероза, должно пройти экспериментальную проверку для выяснения возможных побочных эффектов. В ходе эксперимента лекарство принимали 4 тыс. мужчин и 5 тыс. женщин. Результаты выявили, что 60 мужчин и 100 женщин испытывали побочные эффекты при приеме нового медикамента. Можем ли мы на основании эксперимента утверждать, что побочные эффекты нового лекарства у женщин проявляются в большей степени, чем у мужчин? Принять уровень значимости ? = 0,05.
10. В 1995 г. в Ростовской области обследовано 12 промышленных предприятий и 14 строительных (подрядных) организаций. Средняя балансовая прибыль промышленных предприятий оказалась равной 25·107pyб., а строительных организаций - 12·108 руб. Исправленная выборочная дисперсия прибыли промышленных предприятий составила 64·1016 руб.2, строительных организаций - 16·1016 руб.2. На уровне значимости ? = 0,01 определите, являются ли различия в результатах финансовой деятельности промышленных предприятий и строительных организаций случайными.
11. На 1 января 1996 г. численность беженцев в Ростовской области составляла 32 412 чел. при общей численности наличного населения 4 425 400 чел. В Краснодарском крае на 5 043 900 чел. наличного населения приходилось 30 423 беженца. На уровне значимости ? = 0,05 ответьте на вопрос: "Объясняется ли более высокий удельный вес беженцев в общей численности населения в Ростовской области в сравнении с Краснодарским краем случайными факторами или имеет смысл поиск факторов, обусловивших это явление?".
12. Компания по производству безалкогольных напитков предполагает выпустить на рынок новую модификацию популярного напитка, в котором сахар заменен сукразитом. Компания хотела бы быть уверенной в том, что не менее 70% ее потребителей предпочтут новую модификацию напитка. Новый напиток был предложен на пробу 2 тыс. чел., и 1 422 из них сказали, что он вкуснее старого. Может ли компания отклонить предположение о том, что только 70% всех ее потребителей предпочтут новую модификацию напитка старой? Принять уровень значимости ? = 0,05.
13. Производители нового типа аспирина утверждают, что он снимает головную боль за 30 мин. Случайная выборка 100 чел., страдающих головными болями, показала, что новый тип аспирина снимает головную боль за 28,6 мин при среднем квадратическом отклонении 4,2 мин. Проверьте на уровне значимости ?= 0,05 справедливость утверждения производителей аспирина о том, что это лекарство излечивает головную боль за 30 мин.
14. Доля убыточных предприятий в промышленности в целом по России в 1995 г. составила 26%, а в Ростовской области - 27%. В 1995 г. в Ростовской области насчитывалось 7 579 промышленных предприятий. На уровне значимости ? = 0,05 определите, являются ли различия в удельном весе убыточных промышленных предприятий в России и в Ростовской области случайными или в Ростовской области действует комплекс экономических условий, обусловливающих повышенную долю вила 2,3% от общего числа промышленных предприятий. Среди 2 236 машиностроительных и нерентабельных предприятий?
15. В 1995 г. доля предприятий государственной формы собственности в Ростовской области метаталлообрабатывающих предприятий она оказалась равной 2,1%. На уровне значимости ? = 0,01 определите, существенно ли меньше удельный вес государственных предприятий в машиностроении и металлообработке, чем в целом в промышленности области?
16. В 1996 г. годовой оборот 4 бирж в регионе А составил 12·104 у. е.; в регионе В годовой оборот 5 бирж - 125·103 у. е. Исправленная выборочная дисперсия оборота в регионе А оказалась равной 3·104(у.е.)2, в регионе В - 2·104 (у.е.)2. Можно ли на уровне значимости ? = 0,05 утверждать, что средний оборот бирж в регионе А больше, чем в регионе B?
17. Компания, занимающаяся консультированием в области инвестиций, заявляет, что среднегодовой процент по акциям определенной отрасли промышленности составляет 11,5%. Инвестор, желая проверить истинность этого утверждения, на основе случайной выборки 50 акций выявил, что среднегодовой процент по ним составил 10,8% с исправленным средним квадратическим отклонением s = 3,4%. На основе имеющейся информации определите, имеет ли инвестор достаточно оснований, чтобы опровергнуть заявление компании? Принять уровень значимости ? = 0,05.
18. Производитель некоторого вида продукции утверждает, что 95% выпускаемой продукции не имеют дефектов. Случайная выборка 100 изделий показала, что только 92 из них свободны от дефектов. Проверьте справедливость утверждения производителя продукции на уровне значимости ? = 0,05.
19. Главный бухгалтер большой корпорации провел обследование по данным прошедшего года с целью выяснения доли некорректных счетов. Из 2000 выбранных счетов в 25 оказались некорректные проводки. Для уменьшения доли ошибок он внедрил новую систему. Год спустя он решил проверить, как работает новая система, и выбрал для проверки в порядке случайного отбора 3 000 счетов компании. Среди них оказалось 30 некорректных. Можем ли мы утверждать, что новая система позволила уменьшить долю некорректных проводок в счетах? Принять уровень значимости ? = 0,05.
20. Владелец фирмы считает, что добиться более высоких финансовых результатов ему помешала неравномерность поставок комплектующих по месяцам года, несмотря на то, что поставщик в полном объеме выполнил свои обязательства за год. Поставщик утверждает, что поставки были не так уж неравномерны. Распределение поставок по месяцам года имеет следующий вид:
Месяц 1 2 3 4 5 6 7 8 9 10 11 12 Объем поставок, ед. 19 23 26 18 20 20 20 20 32 27 35 40
На уровне значимости ? = 0,05 определите, кто прав: владелец фирмы или поставщик? Изменится ли ответ на поставленный вопрос, если уровень значимости принять равным 0,01? Объясните результаты.
9. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗЕЙ МЕЖДУ ЯВЛЕНИЯМИ И ИХ ИСПОЛЬЗОВАНИЕ ДЛЯ УПРАВЛЕНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИМИ ПРОЦЕССАМИ
9.1. Виды и формы связей, различаемые в статистике
Современная наука об обществе объясняет суть явлений через изучение взаимосвязей явлений. Объем продукции предприятия связан с численностью работников, стоимостью основных фондов и т. д.
Различают два типа взаимосвязей между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную.
Функциональная связь - это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результативного признака. Например, при у = ?x- связь между у и х является строго функциональной, но значению х = 4 соответствует не одно, а два значения y1 = +2; y2= -2.
Стохастическая связь - это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений. Например, изучается зависимость роста детей от роста родителей. В семьях, где родители более высокого роста, дети в среднем ниже, чем родители. И, наоборот, в семьях, где родители ниже ростом, дети в среднем выше, чем родители. Еще один пример: потребление продуктов питания пенсионеров зависит от душевого дохода: чем выше доход, тем больше потребление. Однако такого рода зависимости проявляются лишь при большом числе наблюдений.
Корреляционная связь - это зависимость среднего значения результативного признака от изменения факторного признака; в то время как каждому отдельному значению факторного признака Х может соответствовать множество различных значений результативного (Y).
Задачами корреляционного анализа являются:
1) изучение степени тесноты связи 2 и более явлений;
2) отбор факторов, оказывающих наиболее существенное влияние на результативный признак;
3) выявление неизвестных причинных связей. Исследование корреляционных зависимостей включает ряд этапов:
1) предварительный анализ свойств совокупности;
2) установление факта наличия связи, определение ее направления и формы;
3) измерение степени тесноты связи между признаками;
4) построение регрессионной модели, т. е. нахождение аналитического выражения связи;
5) оценку адекватности модели, ее экономическую интерпретацию и практическое использование.
Корреляционная связь между признаками может возникать различными путями. Важнейший путь-причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, Х - балл оценки плодородия почв, Y - урожайность сельскохозяйственной культуры. Здесь ясно, какой признак выступает как независимая переменная (фактор), а какой как зависимая переменная (результат).
Очень важно понимать суть изучаемой связи, поскольку корреляционная связь может возникнуть между двумя следствиями общей причины. Здесь можно привести множество примеров. Так, классическим является пример, приведенный известным статистиком начала XX в. А.А.Чупровым. Если в качестве признака Х взять число пожарных команд в городе, а за признак Y - сумму убытков в городе от пожаров, то между признаками Х и Y в городах обнаружится значительная прямая корреляция. В среднем, чем больше пожарников в городе, тем больше убытков от пожаров. В чем же дело? Данную корреляцию нельзя интерпретировать как связь причины и следствия, оба признака - следствия общей причины - размера города. В крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких.
Современный пример. Сразу после 17 августа 1998 г. резко возросли цена валюты и объем покупки валюты частными лицами. Здесь также нельзя рассматривать эти два явления как причину и следствие. Общая причина - обострение финансового кризиса, приведшее к росту курсовой стоимости валюты и стремлению населения сохранить свои накопления в твердой валюте. Такого рода корреляцию называют ложной корреляцией.
Корреляция возникает и в случае, когда каждый из признаков и причина, и следствие. Например, при сдельной оплате труда существует корреляция между производительностью труда и заработком. С одной стороны, чем выше производительность труда, тем выше заработок. С другой - высокий заработок сам по себе является стимулирующим фактором, заставляющим работника трудиться более интенсивно.
По направлению выделяют связь прямую и обратную, по аналитическому выражению - прямолинейную и нелинейную.
В начальной стадии анализа статистических данных не всегда требуются количественные оценки, достаточно лишь определить направление и характер связи, выявить форму воздействия одних факторов на другие. Для этих целей применяются методы приведения параллельных данных, аналитических группировок и графический.
Метод приведения параллельных данных основан на сопоставлении 2 или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин (табл. 9.1).
Таблица 9.1
Х 1 2 3 4 5 6 7 8 9 Y 5 9 6 10 12 17 15 20 23
С увеличением Х возрастает и Y, поэтому связь между ними можно описать уравнением прямой.
Метод аналитических группировок характеризует влияние качественного признака на относительные средние величины, на показатели вариации количественных признаков. В качестве группировочного признака выбирается факторный. В таблице размещают средние значения одного или нескольких результативных признаков. Изменения факторного признака при переходе от одной группы к другой вызывают соответствующие изменения результативного признака (табл. 9.2).
Оборачиваемость в днях - факторный признак, обозначаемый обычно X, а прибыль - результативный - Y. Табл. 9.2 ясно демонстрирует присутствие связи между признаками, это - отрицательная связь. Судить о том, линейная она или нет, по этим данным сложно.
Таблица 9.2
Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств на 1998 г.
Продолжительность оборота средств, дн.(Х) Число малых предприятий Средняя прибыль, млн. руб. (Y) 40-50 6 14,57 51-70 8 12,95 71-101 6 7,40 Итого 20 11,77
Графический метод используется для наглядного изображения формы связи между изучаемыми признаками. Для этого в прямоугольных осях координат строят график, по оси ординат которого откладывают индивидуальные значения результативного признака, а по оси абсцисс - индивидуальные значения факторного признака. Совокупность точек результативного и факторного признаков называется полем корреляции (рис. 9.1).
Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного (при изучении парных зависимостей) или нескольких (множественных) факторов.
Большинство методов измерения тесноты связи заключается в сопоставлении отклонений абсолютных значений величин от их средних. Они основаны на предположении, что при полной независимости переменных отклонения значений факторного признака от средней (X - )носят случайный характер и должны случайно сочетаться с различными отклонениями значений результативного признака (Y - ?Y). При наличии значительного перевеса совпадений или несовпадений знаков отклонений делается предположение о наличии связи между Х и Y. Одну из первых попыток установления тесноты связи между переменными сделал Г. Фехнер, предложивший простейший показатель тесноты связи:
Показатель Фехнера изменяется в промежутке [-1; 1]. При значении, равном 1, он указывает на положительную функциональную связь, при значении -1 - на отрицательную функциональную связь, при i = 0 связь отсутствует. Промежуточные значения i характеризуют степень близости связи к функциональной (табл. 9.3).
Таблица 9.3
Х 1 2 3 4 5 6 7 8 9 Y 5 9 6 10 12 17 15 20 23 Х-?Х -4 -5 -2 -1 0 1 2 3 4 Y-?Y -8 -4 -7 -3 -1 4 2 7 10
Например, для данных табл. 9.1.
Получим ?Х = 5; ?Y = 13; ?x, = 3,2; ?y = 5,85;
i = (9 - 1)/9 = 0,89.
Недостаток показателя Фехнера состоит в том, что разные по абсолютной величине отклонения имеют одинаковый вес. Более совершенный измеритель тесноты связи между признаками - линейный коэффициент корреляции Пирсона (назван по имени английского статистика К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.
Смысл линейного коэффициента корреляции Пирсона более понятен, если его расчет производить с использованием коэффициента ковариации. Это - мера совместной вариации признаков. Коэффициент ковариации рассчитывается с помощью формулы
С помощью коэффициента ковариации можно определить наличие и направление связи. Однако его нельзя использовать для определения степени тесноты связи, так как он имеет смешанную размерность (Х•Y). Коэффициент ковариации - не нормирован, следовательно, нельзя сравнивать коэффициенты ковариации разных пар переменных. Для преодоления этого недостатка можно выражение (9.2) разделить на средние квадратические отклонения по х и по у. Полученный показатель интенсивности линейной связи называется коэффициентом корреляции:
Это - безразмерная величина, которая изменяется в интервале от -1 до +1, -1 ? r ? 1.
Путем ряда преобразований можно получить следующие аналитические выражения для коэффициента корреляции:
Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле
Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределения которых близки к нормальным.
9.2. Оценка достоверности коэффициента корреляции
Коэффициент парной корреляции, исчисленный по выборочным данным, является случайной величиной. С уменьшением числа наблюдений надежность коэффициента корреляции падает. С увеличением числа наблюдений (свыше 500) распределение коэффициента корреляции r (не превышающее 0,9) стремится к нормальному.
Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции ? в генеральной совокупности.
Определим доверительный интервал для оценки истинного значения коэффициента корреляции в генеральной совокупности (? )
где ?r . - среднеквадратическая ошибка выборочного коэффициента парной корреляции;
t - распределение Стьюдента с числом степеней свободы k = п - 2 и уровнем значимости ?.
Если коэффициент корреляции меньше 0,9 или выборка мала, среднеквадратическая ошибка выборочного коэффициента корреляции ?r рассчитывается по формуле
Значимость коэффициента корреляции можно проверить с помощью статистики t, имеющей распределение Стьюдента с п - 2 степенями свободы.
Наблюдаемое значение t (tнабл) вычисляется как
Критическое значение (tкр) определяется по таблице распределения Стьюдента (приложение 5) по уровню значимости ? и числу степеней свободы k = п - 2.
По общему правилу проверки статистических гипотез:
- если tнабл ? tкр, нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь
(Н0: r = 0), нельзя отклонить на заданном уровне значимости а;
- если tнабл< tкр , нулевая гипотеза отклоняется в пользу альтернативной о том, что коэффициент корреляции значимо отличается от нуля (Н1: r?0), т. е. о наличии линейной корреляционной зависимости между Х и Y.
Критерий tрасч подчиняется закону распределения Стьюдента с п - 2 степенями свободы.
При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также при построения доверительного интервала применяется z-преобразование Фишера.
Для этого применяется статистика
Распределение z асимптотически приближается к нормальному. Вариация z выражается формулой
9.3. Эмпирическое и теоретическое корреляционные отношения
При выявлении статистической зависимости по данным аналитической группировки в качестве меры степени тесноты связи может быть использовано эмпирическое корреляционное отношение (?эмп)
где
межгрупповая дисперсия зависимой переменной Y;
общая дисперсия зависимой переменной Y;
?уj - средняя арифметическая j-й группы, где j= 1..., k;
?у - общая средняя арифметическая;
тj - объем j-й группы;
п - объем выборки;
у - наблюдаемые значения Y.
Значения ?эмп распределены на отрезке [0; 1]
Чем ближе ?эмп к 1, тем теснее связь между переменными Х и Y, тем больше колеблемость Y объясняется колеблемостью X.
Квадрат эмпирического корреляционного отношения (?2эмп ) называют коэффициентом детерминации. Он показывает, какая часть Y колеблемости объясняется колеблемостью X.
Степень тесноты связи между переменными в случае не только линейной, но и нелинейной регрессионной зависимости можно оценить с помощью теоретического корреляционного отношения (?теор). Поэтому ?теор часто называют "индексом корреляции". Теоретическое корреляционное отношение рассчитывается по формуле
где SR- сумма квадратов вследствие регрессии;
ST - общая сумма квадратов.
Ниже (п. 9.11) приведены формулы расчета SR (9.29) и ST (9.27).
Легко увидеть, что в случае линейной регрессионной зависимости r = ?теор . Если связь - нелинейная, ? < ?теор . Это позволяет использовать ?теор в качестве меры линейности связи между переменными X и Y. Если линейный коэффициент корреляции Пирсона (r) мало отличается от теоретического корреляционного отношения (?теор), т.е. r ? ?теор , то зависимость между переменными близка к линейной. В противном случае имеет, место нелинейная зависимость между X и Y.
Проверка значимости и эмпирического (?эмп), и теоретического (?теор) корреляционного отношения осуществляется с помощью критерия Фишера - F. Его наблюдаемое значение рассчитывается по формуле
где n - число наблюдений (объем выборки); т - число групп (если проверяется значимость эмпирического корреляционного отношения ?эмп ) или число параметров в уравнении регрессии (если проверяется значимость теоретического корреляционного отношения ?теор).
Ясно, что в уравнении парной регрессии - 2 параметра: ?? и ??, т. е. т = 2.
Критическое значение F определяется по таблицам распределения Фишера (приложение 6) по уроню значимости ? и числу степеней свободы.
Наблюдаемое значение (Fнабл) необходимо сравнить с критическим (Fкр). По общему правилу проверки статистических гипотез:
- если Fнабл ? Fкр , нулевую гипотезу (H1:? = 0) о том, что ? незначим, нельзя отклонить;
- если Fнабл > Fкр нулевая гипотеза отклоняется в пользу альтернативной (H1:? ? 0) о том, что ??значимо отличается от нуля.
9.4. Ранговая корреляция
Если п объектов какой-либо совокупности N пронумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi, указывает место, которое занимает i-й объект среди других n объектов, расположенных в соответствии с признаком Х (i= 1,2,.... п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т. п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то можно попытаться установить степень линейной зависимости между ними. Предположим, имеется 5 продуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В (табл.9.4).
Таблица 9.4
Характеристики для ранжирования Продукт V W X Y Z А
2
5
1
3
4
B 1 3 2 4 5
Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различии между рангами:
D = Ранг А - Ранг В.
Коэффициент корреляции рангов Спирмена ? рассчитывается по формуле
где п - число пар ранжированных наблюдений.
В нашем примере мы имеем 5 пар рангов, следовательно, п = 5.
т. е. между признаками есть достаточно сильная линейная связь. Этот коэффициент изменяется в промежутке от [-1; 1] и интерпретируется так же, как и коэффициент Пирсона. Разница лишь в том, что он применяется для ранжированных данных.
Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле
Значение коэффициента считается существенным, если tнабл > tкрит (? ;k = п - 2).
9.5. Корреляция альтернативных признаков
Альтернативные признаки - это признаки, принимающие только два возможных значения. Исследование их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков: