Компонентный и факторный анализ

Компонентный и факторный анализ

Министерство образования Российской Федерации

ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Финансово-экономический факультет

Кафедра МММЭ

КУРСОВАЯ РАБОТА

по дисциплине "Многомерные статистические методы"

Компонентный и факторный анализ

ОГУ 061700.5001.06 00

Руководитель работы

__________________ Реннер А.Г.

“____”_____________2001г.

Исполнитель

студент гр.99ст

______________ Рамазанов М.И.

“_____”____________2001г.

Оренбург 2001

Содержание

Задание……………………………………………………………………………3

Введение……………………………………………………………………….….4

1 Исследование на мультиколлинеарность……………………………..……5

2 Метод главных компонент………………………………………………..….7

2.1 Вычисление главных компонент……………………………………….…7

2.2 Экономическая интерпретация полученных главных компонент…..…12

2.3 Матрица наблюденных значений главных компонент……………...….12

2.4 Классификация объектов…………………………………………………13

2.5 Уравнение регрессии на главные компоненты………………………….13

3 Факторный анализ………………………………...…………………………15

3.1 Преобразование матрицы парных коэффициентов корреляции в

редуцированную матрицу, получение матрицы факторных нагрузок и

экономическая интерпретация ………………………………………………..…...16

3.2 Графическая классификация объектов по двум общим факторам…….19

3.3 Переход к обобщенным факторам с помощью варимаксного

вращения ……………………………………………………………………...19

3.4 Построение функции регрессии на выделенные общие факторы…......21

Список использованной литературы………………………………………...22

Приложения………………………………………………………..………...…23

Задание

По имеющимся данным производственно-хозяйственной деятельности

предприятий машиностроения:

Y1 – производительность труда;

X5 – удельный вес рабочих в составе ППП;

X6 – удельный вес покупных изделий;

X7 – коэффициент покупных изделий;

X9 – удельный вес потерь от брака;

X17 – непроизводственные расходы.

1. Выявить наличие мультиколлинеарности.

2. Снизить размерность признакового пространства и удалить наличие

мультиколлинеарности следующими методами:

Метод главных компонент:

- для факторных признаков найти оценку матрицы парных коэффициентов

корреляции, найти собственные числа и собственные вектора;

- на основании матрицы собственных чисел определить вклад главных

компонент в суммарную дисперсию признаков, отобрать и указать m (m[pic] , то гипотеза Н0 отвергается и матрица является значимой,

следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Выдвигаем гипотезу:

Н0: соv[pic]=0, [pic]

Н1: соv[pic]

Строим статистику [pic], распределена по закону [pic] с [pic]

степенями свободы.

[pic]=123,21, [pic](0,05;10) =18,307 т.к [pic]>[pic] то гипотеза Н0

отвергается и имеет смысл проводить компонентный анализ.

Для построения матрицы факторных нагрузок необходимо найти

собственные числа матрицы [pic], решив уравнение[pic].

Используем для этой операции функцию eigenvals системы MathCAD, которая

возвращает собственные числа матрицы:

[pic]

Т.к. исходные данные представляют собой выборку из генеральной

совокупности, то мы получили не собственные числа [pic] и собственные

вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со

статистической точки зрения выборочные характеристики описывают

соответствующие параметры для генеральной совокупности.

Доверительный интервал для i-го собственного числа ищется по

формуле:[pic]

Доверительные интервалы для собственных чисел в итоге принимают вид:

[pic]

[pic][pic]

Оценка значения нескольких собственных чисел попадает в доверительный

интервал других собственных чисел. Необходимо проверить гипотезу о

кратности собственных чисел.

Проверка кратности производится с помощью статистики

[pic] , где r-количество кратных корней.

Данная статистика в случае справедливости [pic]распределена по закону

[pic] с числом степеней свободы [pic]. Выдвинем гипотезы:[pic][pic]

[pic]

Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа

[pic] и [pic] не кратны.

Далее,

:[pic][pic]

[pic]

Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа

[pic] и [pic] не кратны.

:[pic][pic]

[pic]

Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа

[pic] и [pic] не кратны.

Необходимо выделить главные компоненты на уровне информативности

0,85. Мера информативности показывает какую часть или какую долю дисперсии

исходных признаков составляют k-первых главных компонент. Мерой

информативности будем называть величину: [pic]

I1=[pic]=0,458

I2=[pic]=0,667

I3=[pic]

На заданном уровне информативности выделено три главных компоненты.

Запишем матрицу [pic]=[pic]

Для получения нормализованного вектора перехода от исходных признаков к

главным компонентам необходимо решить систему уравнений: [pic], где [pic]-

соответствующее собственное число. После получения решения системы

необходимо затем нормировать полученный вектор.

Для решения данной задачи воспользуемся функцией eigenvec системы

MathCAD, которая возвращает нормированный вектор для соответствующего

собственного числа.

В нашем случае первых четырех главных компонент достаточно для достижения

заданного уровня информативности, поэтому матрица U (матрица перехода от

исходного базиса к базису из собственных векторов)

Строим матрицу U, столбцами которой являются собственные вектора:

U=[pic].

Матрица весовых коэффициентов:

[pic]

[pic]

А=[pic].

Коэффициенты матрицы А являются коэффициентами корреляции между

центрировано – нормированными исходными признаками и ненормированными

главными компонентами, и [pic] показывают наличие, силу и направление

линейной связи между соответствующими исходными признаками и

соответствующими главными компонентами.

2.2 Экономическая интерпретация полученных главных компонент

Коэффициент [pic] матрицы А представляют собой коэффициенты корреляции

между i-ой главной компонентой и j-ым исходным признаком.

Так как первая главная компонента зависит главным образом от первого

(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент

сменности оборудования) исходного признака, следовательно ее можно

обозначить как «Эффективность основного производства». Вторая главная

компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных

изделий) и четвертым (X9 – удельный вес потерь от брака) исходными

признаками, ее можно обозначить как «Удельный вес затрат не приносящих

прибыль». Третья главная компонента взаимосвязана с четвертым исходным

признаком, поэтому ее обозначим «Удельный вес потерь от брака».

2.3 Матрица наблюденных значений главных компонент.

Мы получили ненормированные главные компоненты. Проведя нормирование

полученных центрированных [pic], получим [pic]. При нормировании [pic]

дисперсия должна равняться 1, [pic]. Для этого нужно разделить [pic] на

среднеквадратическое отклонение [pic].

[pic]

Обозначим [pic] - это матрица весовых коэффициентов, с помощью

которой устанавливается связь между нормированными исходными признаками и

нормированными главными компонентами.

Модель метода главных компонент:

[pic] где

[pic]- значение I-той стандартизированной переменной по j-ому объекту

наблюдения;

[pic]- m-тая главная компонента по j-ому объекту наблюдения;

[pic]- весовой коэффициент m-той главной компоненты и I-той переменной.

Эту матрицу будем строить, исходя из соотношения [pic],

где [pic]- диагональная матрица, на главной диагонали которой стоят

дисперсии соответствующих главных компонент в минус первой степени;

[pic] - транспонированная матрица факторных нагрузок;

Х- матрица наблюденных значений исходных признаков.

Данная формула хороша тем, что она верна и в том случае, если матрица

А не квадратная (т.е. выделено m

Измен.R^2 F Значим

0,028 1,47 0,229

-------------- Переменные в уравнении ---------------

Переменн. Коэфф.В Ст.ош.В Бета F Значим

f3 -0,437 0,36 -0,167 1,47 0,229

------------------ Переменные не в уравнении ---------------------------

Переменн. Коэфф.В Ст.ош.В Бета F Значим Частн.R Толер.

f2 0,0241 0,364 0,00922 0,00438 0,946 0,00935 1

f1 0,116 0,364 0,0446 0,102 0,749 0,0452 1

Приложение 4

«Наблюденные» значения общих факторов.

|№ |f1 |f2 |f3 |

|1 |0.745 |янв.23|1.313 |

|2 |0.734 |-0.836|0.704 |

|3 |-0.238|0.527 |0.758 |

|4 |0.318 |1.969 |1.578 |

|5 |-1.211|0.409 |0.318 |

|6 |0.232 |-1.468|0.097 |

|7 |-1.22 |-0.515|-0.57 |

|8 |-0.25 |1.614 |0.959 |

|9 |-1.849|-1.743|-1.129|

|10 |-0.476|01.апр|0.564 |

|11 |-1.789|0.264 |-0.56 |

|12 |-1.179|-0.298|-0.439|

|13 |-1.87 |0.016 |-0.572|

|14 |-1.44 |-3.51 |-1.681|

|15 |-1.009|-3.509|-1.145|

|16 |0.266 |-1.837|-0.201|

|17 |0.259 |-2.529|-0.505|

|18 |0.857 |-1.027|-0.204|

|19 |0.878 |-0.868|-6.854|

| | | |E-3 |

|20 |1.076 |0.101 |0.966 |

|21 |0.307 |-0.685|0.247 |

|22 |0.791 |-2.553|-0.15 |

|23 |-1.051|-2.264|-1.434|

|24 |1.241 |2.131 |1.901 |

|25 |1.312 |2.653 |2.214 |

|26 |1.117 |0.583 |1.302 |

|27 |-0.957|-1.415|-0.703|

|28 |0.459 |-0.507|0.197 |

|29 |0.122 |3.157 |1.449 |

|30 |0.437 |1.527 |0.772 |

|31 |-1.286|-2.376|-0.534|

|32 |0.618 |апр.32|2.167 |

|33 |0.666 |0.896 |1.303 |

|34 |0.582 |-0.631|0.472 |

|35 |-1.295|0.351 |0.086 |

|36 |-0.463|0.212 |0.634 |

|37 |1.705 |0.623 |1.523 |

|38 |0.366 |1.402 |1.025 |

|39 |0.423 |0.057 |0.635 |

|40 |0.965 |0.228 |0.766 |

|41 |3.449 |май.79|-16.47|

| | | |1 |

|42 |-0.049|-0.334|0.249 |

|43 |-0.578|мар.14|1.174 |

|44 |-1.702|1.212 |0.04 |

|45 |-1.802|-0.354|-1.028|

|46 |-0.864|-1.729|-0.953|

|47 |0.449 |1.732 |1.235 |

|48 |-2.152|-0.24 |-0.695|

|49 |3.036 |-3.314|1.159 |

|50 |1.037 |5.343 |2.573 |

|51 |2.026 |-3.347|0.406 |

|52 |-1.012|-3.805|-1.202|

|53 |-0.731|-0.83 |-0.606|

Приложение 5

Уравнение регрессии на общие факторы.

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ.

Коэфф. a0 a1 a2 a3

Значение 7,97 0,309 0,0722 0,186

Ст.ошиб. 0,359 0,309 0,177 0,145

Значим. 0 0,323 0,688 0,204

Источник Сум.квадр. Степ.св Средн.квадр.

Регресс. 19,3 3 6,43

Остаточн 335 49 6,84

Вся 354 52

Множеств R R^2 R^2прив Ст.ошиб. F Значим

0,2333 0,054428-0,0034647 2,6147 0,94 0,57

Гипотеза 0: