Корреляционный анализ

Корреляционный анализ


Корреляционный анализ - математико-статистический метод выявления взаимозависимости компонент многомерной случайной величины и оценки тесноты их связи.

Предпосылки корреляционного анализа

При построении корреляционных моделей исходят из выполнения условий случайности результатов наблюдений и нормальности закона распределения анализируемой h-мерной генеральной совокупности, что обеспечивает линейный характер изучаемой зависимости между наблюдаемыми признаками Ваи позволяет использовать в качестве показателей силы стохастической (вероятностной) связи парные, частные и множественные коэффициенты корреляции и детерминации.

Понятие "корреляционная зависимость"

В статистических исследованиях выделяют два вида связи между случайными величинами: функциональную и стохастическую.

Зависимость признаков Ваназывается функциональной, если каждое наблюдаемое значение Вазависимой переменной Ваоднозначно определяется по полученным в том же самом наблюдении значениям Ваостальных переменных Васогласно некоторому правилу: , единому для всех наблюдений.

Стохастической зависимостью переменной Ваот переменных Ваназывается такое отношение между случайными величинами , при котором каждой реализации Васлучайного вектора Ваоднозначно соответствует некоторое условное распределение вероятностей случайной величины , при этом, по крайней мере, двум возможным различным реализациям отвечают неодинаковые распределения.

В отличие от функциональной зависимости, когда каждому набору значений объясняющих переменных Васоответствует только одно значение объясняемой переменной , при стохастической зависимости любой допустимой совокупности значений Ваотвечает множество возможных значений зависимой переменной .

Корреляционной зависимостью переменной Ваот переменных Ваназывается функциональная зависимость условного математическим ожидания Васлучайной величины Ваот реализации Васлучайного вектора .

Корреляционная зависимость является лишь одной из частных форм стохастической связи между случайными величинами и не исчерпывает в общем случае весь объем понятия "стохастическая зависимость".

Функция , устанавливающая зависимость условного математического ожидания Ваот возможных значений Васлучайных величин , называется функцией регрессии случайной величины Вана случайный вектор .

Если функция регрессии Вапредставима как линейная комбинации своих аргументов:

,

где Ва- некоторые константы, то соответствующая корреляционная зависимость называется линейной.

Аналитическое задание корреляционной зависимости в виде

называется уравнением регрессии случайной величины Вана случайный вектор .

Двумерная корреляционная модель

Анализируется корреляционная зависимость между двумя признаками , .

Предполагается, что распределение вероятностей двумерной случайной величины Ваподчинено закону Гаусса, т.е. плотность совместного распределения , Ваопределяется формулой:


содержащей пять параметров:

Ва- математическое ожидание ;

Ва- математическое ожидание ;

Ва- дисперсия ;

Ва- дисперсия ;

Ва- коэффициент корреляции между , .


Коэффициент корреляции как мера тесноты стохастической связи между двумя случайными величинами

Из условия нормальности совместного распределения признаков , Ванепосредственно вытекает, что распределение каждого их них также подчинено закону Гаусса с соответствующими параметрами:

;

.

Если , то из выражений, задающих двумерную и одномерные плотности распределения вероятностей , , Васледует, что , т.е. , Ваесть независимые между собой случайные величины.

Для случайных величин , , совместное распределение которых является нормальным, понятия "некоррелированность" и "стохастическая независимость" эквивалентны.

Таким образом, для решаемой задачи коэффициент корреляции Ваможет служить мерой силы стохастической взаимосвязи рассматриваемых случайных величин.

Вне рамок корреляционной модели равенство нулю коэффициента корреляции указывает лишь на некоррелированность исходных переменных, но не подтверждает отсутствие иной формы стохастической зависимости.

Коэффициент корреляции не имеет размерности и, следовательно, его можно использовать при анализе зависимости признаков, различающихся по мерным шкалам.

Значение Вапо абсолютной величине не превосходит единицы.

Если , линейная связь между переменными Ваи Ваотсутствует.

Значение Вауказывает на наличие функциональной линейной зависимости между ними.

По мере приближения Вак единице условные дисперсии Вастремятся к нулю, что свидетельствует о меньшем рассеянии значений переменных , Ваотносительно соответствующих линий регрессии и о более тесной связи между данными переменными.

Положительный знак коэффициента корреляции означает, что прямые регрессии имеют в координатной плоскости Ваположительный тангенс угла наклона, с увеличением (или уменьшением) значения любой из переменных , Вапропорционально в среднем возрастает (соответственно убывает) значение другой переменной.

Отрицательный знак коэффициента корреляции указывает на обратную тенденцию.

Уравнения линейной парной регрессии

Функции регрессии Вана Ваи Вана Ванаходятся с помощью формул, определяющих условные математические ожидания:

,


При этом условные плотности распределения вероятностей случайных величин , Вапредставляются в виде отношений известных безусловных плотностей распределения:

Дальнейшее интегрирование функций , Вапо x, соответственно по y, непосредственно дает уравнение регрессии Вана , а также уравнение регрессии Вана :

;

,

; ,

где

Ва- коэффициент регрессии Вана ;

Ва- коэффициент регрессии Вана .

Линейный характер корреляционной зависимости между совместно нормально распределенными случайными величинами проявляется в том, что с изменением одной величины пропорционально изменяется условное математическое ожидание другой величины. Графики функций регрессии (именуемые линиями регрессии) представляют собой прямые.

В случае некоррелированности , , т.е. при , прямые регрессии Вана Ваи Вана Вапараллельны соответственно координатным осям Ваи .

Парный коэффициент детерминации

Степень рассеяния значений Ва(или ) относительно линии регрессии Вана Ва(или Вана ) характеризуют (в среднем) условные дисперсии:

Расчетные формулы для Ваи Ванаходятся подобно тому, как определялись функции регрессии Вана Ваи Вана .

В итоге,

.

Квадрат коэффициента корреляции называется парным коэффициентом детерминации.

Из приведенных выражений для условных дисперсий следует, что величина Вауказывает долю дисперсии одной случайной величины, обусловленную вариацией другой случайной величины.


Эмпирические характеристики корреляционной зависимости

В практике статистических исследований параметры совместного распределения вероятностей случайных величин, включенных в анализ, как правило, неизвестны, и тесноту связи между переменными оценивают по статистическим данным и выборочным аналогам корреляционных характеристик.

С этой целью в двумерном корреляционном анализе используют "поле корреляции", строят корреляционную таблицу, рассчитывают точечные оценки параметров корреляционной модели, проверяют значимость параметров связи и находят интервальные оценки для значимых параметров, оценивают уравнения регрессии.

Корреляционное поле

Корреляционным полем называется совокупность нанесенных на координатную плоскость Вареализаций случайного вектора , т.е. выборочных точек .

По расположению точек корреляционного поля можно составить предварительное мнение о характерных особенностях зависимости случайных величин (например, о том, что значение какой-либо из этих величин в среднем возрастает или убывает при возрастании значения другой величины).

Наиболее точную информацию о направлении и силе связи между величинами , Вадают коэффициент корреляции и уравнения регрессии.

Корреляционная таблица

В понятийном смысле - представляет собой обобщение понятия Влвариационный рядВ», с прикладной точки зрения - является формой компактной записи выборочных данных Вадвумерной случайной величины :

тАж

тАж

тАж

тАж

тАж

тАж

тАж

тАж

тАж

тАж

тАж

тАж

где

;

- упорядоченные по возрастанию последовательности всех различных значений , соответственно , имеющихся в выборке .

Ва- количество пар .

Ва- сумма элементов -го столбца, соответственно - -ой строки корреляционной таблицы. При этом

.

Точечные оценки параметров двумерного распределения

Для получения приближенных значений параметров корреляционной модели используют, как правило, метод моментов, расчеты производят согласно следующим формулам.

Характеристики распределения случайного вектора

теоретические

оценки по выборочным данным

сгруппированным

не сгруппированным

Приведенные эмпирические характеристики двумерного нормального закона распределения случайного вектора Ваобладают свойством состоятельности, , Ваявляются, кроме того, несмещенными и эффективными оценками.

Аппроксимация уравнений регрессии

; .

Проверка гипотезы об отсутствии корреляционной зависимости между случайными величинами

Выборочный парный коэффициент корреляции r, найденный по конечному числу статистических данных, практически всегда отличен от нуля, однако, отсюда не всегда следует, что неизвестный генеральный парный коэффициент корреляции ρ также не равен нулю, т.е. что корреляционная зависимость действительно имеет место. Требуется дополнительно осуществить проверку предположения о значимости коэффициента корреляции.

При справедливости основной гипотезы Ва("корреляционная зависимость между , Ваотсутствует") статистика применяемого критерия

имеет распределение Стьюдента с числом степеней свободы, равным .

При уровне значимости Вагипотеза Ваотвергается, если выполняется неравенство , в котором под символом Вапонимается критическое значение, удовлетворяющее уравнению

.

При отвержении основной гипотезы заключают, что признаки , Васвязаны линейным корреляционным соотношением, в ином случае делают вывод, что на основе имеющейся выборки корреляционная зависимость между ними не установлена.

Если в результате проверки гипотеза Вабудет отвергнута, то полагают, что коэффициент корреляции Вазначимо (существенно) отличается от нуля, а рассчитанное по статистическим данным значение r может быть использовано в качестве его точечной оценки.

Интервальная оценка коэффициента корреляции

корреляционная регрессия уравнение математический

При построении доверительного интервала для неизвестного коэффициента корреляции Ваиспользуется специальная функция - -преобразование Фишера (гиперболический арктангенс) выборочного коэффициента корреляции r:

.

Ва- возрастающая нечетная функция: z(-r) = -z(r).

Распределение вероятностей значений Ваприближается (тем более точно, чем больше объем выборки ) нормальным распределением вероятностей с параметрами:

Ваи .

Статистика Ваимеет асимптотическое стандартное нормальное распределение .

Асимптотически точный доверительный интервал надежности Вадля нормированного отклонения z:

,

где Ва- квантиль уровня Вараспределения , т.е. корень уравнения .

Доверительный интервал для математического ожидания :

.

Величиной Вав выражении Ваможно пренебречь, принимая во внимание, что она при Ваесть бесконечно малая более высокого порядка в сравнении с .

Доверительный интервал для гиперболического арктангенса коэффициента корреляции :

.

Решение относительно Ваданного двойного неравенства приводит к искомому доверительному интервалу для коэффициента корреляции:

,

с границами, определяемыми как значения гиперболического тангенса Вадля значений , равных соответственно Ваи .

Функция Вазадает преобразование, обратное -преобразованию Фишера. Следовательно, .

Этапы определения ДИ для коэффициента корреляции

- находится выборочный коэффициент корреляции r;

- выполняется прямое преобразование Фишера значения r: ;

- выбирается квантиль , исходя из условия ;

- вычисляются значения Ваи ;

- с помощью обратного преобразования Фишера находятся границы ДИ:

Ваи .

Доверительные интервалы для коэффициентов регрессии

Их построение осуществляется в соответствии с общей схемой. При этом используются статистики:

; ,

имеющие распределение Стьюдента с числом степеней свободы, равном .

;

,

где Ва- корень уравнения .

Многомерная корреляционная модель

Предполагается, что совместное распределение анализируемых случайных переменных (признаков) Ваподчинено h-мерному нормальному закону.

Типовые задачи

¨ определение тесноты связи между некоторыми переменными при фиксировании или исключении влияния остальных переменных;

¨ определение тесноты связи одной из рассматриваемых переменных с совокупностью всех остальных переменных, включенных в анализ.

Корреляционная матрица

Начальный этап многомерного корреляционного анализа количественных признаков состоит в оценке (приближении) на основе выборочных данных матрицы

,

элементы которой Ва- парные коэффициенты корреляции переменных .

Выборочная корреляционная матрица

В качестве статистического аналога корреляционной матрицы Вапринимается матрица

,


здесь Ва- выборочные парные коэффициенты корреляции переменных .

Свойство корреляционных матриц

Матрицы , qh симметричны относительно главной диагонали.

Вся имеющаяся для анализа статистическая информация о зависимостях между случайными величинами Васодержится в выборочной корреляционной матрице .

Однако раскрытие многообразия взаимосвязей данных переменных непосредственно по их парным коэффициентам корреляции невозможно. Для проведения исследования при решении указанных типовых задач необходимо вычислять также частные и множественные коэффициенты корреляции, представляющие собой определенные действительные функции матрицы .

Частный коэффициент корреляции

,

где Ва- минор элемента Ваматрицы , т.е. определитель матрицы, получающейся из корреляционной матрицы удалением -ой строки и -го столбца.


Свойства частного коэффициента корреляции

Ваобладает всеми свойствами парного коэффициента корреляции , т.к. является коэффициентом корреляции Вадля их условного двумерного распределения. В отличие от парного коэффициента корреляции , на величине которого сказывается не только влияние переменных Вадруг на друга, но и воздействие остальных Вапеременных, частный коэффициент корреляции Вапозволяет характеризовать тесноту связи между признаками Вав ВлчистомВ» виде, исключая при анализе зависимости влияние других переменных. Если парный коэффициент корреляции Вабольше соответствующего частного коэффициента , то можно заключить, что остальные рассматриваемые переменные усиливают взаимосвязь между изучаемыми величинами . Уменьшение значения парного коэффициента корреляции, в сравнении с отвечающим ему частным коэффициентом корреляции, свидетельствует об ослаблении связи между исследуемыми величинами в результате воздействия других переменных.

Выборочный частный коэффициент корреляции

Точечная оценка Ваопределяется по формуле:

,


здесь Ва- минор элемента Вавыборочной корреляционной матрицы .

В случае трехмерной корреляционной модели для переменных Ванаходятся три частных коэффициента корреляции:

;

;

.

Ваназывается частным коэффициентом детерминации.

Величина Ваесть доля дисперсии переменной , обусловленная вариацией Вапри фиксированных остальных рассматриваемых переменных.

Множественный коэффициент корреляции

Мерой тесноты линейной взаимосвязи между переменной Ваи совокупностью остальных переменных Васлужит множественный коэффициент корреляции:

,


Где Ва- определитель матрицы ;

Ва- минор -го элемента главной диагонали матрицы .

Если , то множественный коэффициент корреляции Васовпадает с абсолютным значением парного коэффициента корреляции , т.е. Ваесть обобщение .

По величине множественного коэффициента корреляции делается вывод о тесноте, но не о направлении взаимосвязи.

Свойства множественного коэффициента корреляции

- Численное значение множественного коэффициента корреляции заключено между нулем и единицей:

.

- Если , то переменная Васвязана с остальными рассматриваемыми случайными величинами Валинейной функциональной зависимостью.

Например, для трехмерной корреляционной модели, если , то точки Варасположены в плоскости регрессии Вана .

- Если , то случайная величина Вастохастически независима от других переменных, входящих в анализ.

В частности, если , то одномерная случайная величина Ваи двумерная случайная величина Ваявляются независимыми (в силу нормальности их совместного распределения).

- Множественный коэффициент корреляции не уменьшается при введении в модель дополнительных признаков и не увеличивается при исключении отдельных признаков из модели.

- По величине множественный коэффициент корреляции переменной Ване меньше абсолютной величины частного коэффициента корреляции данной и любой другой переменной :

.

Выборочный множественный коэффициент корреляции

В качестве точечной оценки Вапринимается

.

где Ва- минор -го элемента главной диагонали выборочной корреляционной матрицы .

В случае трехмерной корреляционной модели для переменных Вавычисляются три множественных коэффициента корреляции:

;

;

.


Ваназывается множественным коэффициентом детерминации.

Множественный коэффициент д

Вместе с этим смотрят:


РЖнварiантнi пiдпростори. Власнi вектори i власнi значення лiнiйного оператора


РЖнтерполювання функцiй


Автокорреляционная функция. Примеры расчётов


Актуальные проблемы квантовой механики


Алгебра и алгебраические системы