3.12.2004
СТАТИСТИКА (Лекции № 13-14)
Парная регрессия
Аналитическое выражение связей между признаками может быть представлена виде уравнений регрессии :
_
yx = a0+a1x
где
х – значение факторного признака
у – значение результативного признака (эмпирические)
_
ух – теоретические значения результативного признака, полученные по уравнению регрессии.
а0 и а1 – это коэффициенты регрессии, которые определяются путем решения следующей системы уравнений :
na0+a1∑x = ∑y
2 }
a0∑x+a1∑x = ∑xy
В основе решения данной системы уравнений лежит метод наименьших квадратов, сущность которого заключается в минимизации суммы квадратов отклонений эмпирических значений признака от теоретических, полученных по уравнению регрессии:
_ 2
∑(yi-yx) → min
а0 - показывает влияние неучтенных в модели факторов и четкой интерпретации не имеет
а1 – показывает на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу собственного измерения
5a0+a110 = 20
}
a010+a124 = 43
20-a110
a0= 5
2
20-a110
5 10 + a124 = 43
40-20a1+24a1-43 = 0
a1=0,75
a0=2,5
_
yx = 2,5 + 0,75x
а1 = 0,75 означает, что при увеличении численности работающих на 1000 человек прибыль предприятий возрастает в среднем на 0,75 млрд. рублей. Знаки коэффициента корреляции и коэффициентов регрессии совпадают. Между коэффициентом корреляции и регрессии существует определенная зависимость, которая выражается следующей формулой :
σx
rxy = a1 σy
Статистическое изучение связей качественных признаков
При изучении взаимосвязей между двумя качественными признаками каждый из которых представлен только двумя градациями используются коэффициенты ассоциаций и контингенции. Для определения данных коэффициентов строится следующая вспомогательная таблица :
A B
C D
Коэффициент ассоциации определяется по формуле :
ad - bc
Ka = ad + bc
Коэффициент контингенции определяется по формуле :
ad - bc
Kk= √(a+b)(b+d)(d+c)(a+c)
Ка и Кк изменяются в пределах от -1 до +1, включая границы, связь считается существенной и подтвержденной, если коэффициент Ка равен или больше 0,5, а Кк равен или больше 0,3 (Пример № 1 см. приложение).
Ранговый коэффициент корреляции
Ранжирование – это процедура упорядочения значений признака в порядке возрастания или убывания.
Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания.
Ранговые коэффициенты Спирмана и Кенделла
используются для оценки степени тесноты и направления связи между двумя признаками. Изменяются от -1 до +1, включая границы, если значение коэффициента 0 – связь прямая, если 0 – связь обратная.
Коэффициент корреляции рангов Спирмана определяется по формуле :
2
6∑di___
2
ρxy = 1 – n (n – 1)
где
n - число единиц наблюдения
di - разность рангов двух признаков
(Пример № 2 см. приложение)
Коэффициент корреляции рангов Кенделла используется для оценки связи двух признаков и определяется по формуле :
2S___
τxy = n (n-1)
Этапы расчета коэффициента :
1). Значение «х» и «у» ранжируются в порядке возрастания или убывания
2). Значение «х» устанавливается в порядке соответствующем пункту 1
3). Значения рангов «у» располагаются в порядке соответствующего значения рангов «х»
4). Определяются для каждого значения ранга «у» число следующих за ним рангов, больших его. Суммарное значение этих превышений обозначается P
5). Для каждого значения ранга «у» определяется число следующих за ним рангов меньших значений данного ранга. Суммируя эти значения получаются величины Q
6). Величина S определяется по формуле :
S = P + (-Q)
(Пример № 3 см. приложение)