Компонентный и факторный анализ
Компонентный и факторный анализ
Министерство образования Российской Федерации
ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Финансово-экономический факультет
Кафедра МММЭ
КУРСОВАЯ РАБОТА
по дисциплине "Многомерные статистические методы"
Компонентный и факторный анализ
ОГУ 061700.5001.06 00
Руководитель работы
__________________ Реннер А.Г.
“____”_____________2001г.
Исполнитель
студент гр.99ст
______________ Рамазанов М.И.
“_____”____________2001г.
Оренбург 2001
Содержание
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
1 Исследование на мультиколлинеарность……………………………..……5
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных значений главных компонент……………...….12
2.4 Классификация объектов…………………………………………………13
2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
3.1 Преобразование матрицы парных коэффициентов корреляции в
редуцированную матрицу, получение матрицы факторных нагрузок и
экономическая интерпретация ………………………………………………..…...16
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным факторам с помощью варимаксного
вращения ……………………………………………………………………...19
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23
Задание
По имеющимся данным производственно-хозяйственной деятельности
предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие
мультиколлинеарности следующими методами:
Метод главных компонент:
- для факторных признаков найти оценку матрицы парных коэффициентов
корреляции, найти собственные числа и собственные вектора;
- на основании матрицы собственных чисел определить вклад главных
компонент в суммарную дисперсию признаков, отобрать и указать m (m[pic] , то гипотеза Н0 отвергается и матрица является значимой,
следовательно, имеет смысл проводить компонентный анализ.
Проверим гипотезу о диагональности ковариационной матрицы
Выдвигаем гипотезу:
Н0: соv[pic]=0, [pic]
Н1: соv[pic]
Строим статистику [pic], распределена по закону [pic] с [pic]
степенями свободы.
[pic]=123,21, [pic](0,05;10) =18,307 т.к [pic]>[pic] то гипотеза Н0
отвергается и имеет смысл проводить компонентный анализ.
Для построения матрицы факторных нагрузок необходимо найти
собственные числа матрицы [pic], решив уравнение[pic].
Используем для этой операции функцию eigenvals системы MathCAD, которая
возвращает собственные числа матрицы:
[pic]
Т.к. исходные данные представляют собой выборку из генеральной
совокупности, то мы получили не собственные числа [pic] и собственные
вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со
статистической точки зрения выборочные характеристики описывают
соответствующие параметры для генеральной совокупности.
Доверительный интервал для i-го собственного числа ищется по
формуле:[pic]
Доверительные интервалы для собственных чисел в итоге принимают вид:
[pic]
[pic][pic]
Оценка значения нескольких собственных чисел попадает в доверительный
интервал других собственных чисел. Необходимо проверить гипотезу о
кратности собственных чисел.
Проверка кратности производится с помощью статистики
[pic] , где r-количество кратных корней.
Данная статистика в случае справедливости [pic]распределена по закону
[pic] с числом степеней свободы [pic]. Выдвинем гипотезы:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
Далее,
:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
Необходимо выделить главные компоненты на уровне информативности
0,85. Мера информативности показывает какую часть или какую долю дисперсии
исходных признаков составляют k-первых главных компонент. Мерой
информативности будем называть величину: [pic]
I1=[pic]=0,458
I2=[pic]=0,667
I3=[pic]
На заданном уровне информативности выделено три главных компоненты.
Запишем матрицу [pic]=[pic]
Для получения нормализованного вектора перехода от исходных признаков к
главным компонентам необходимо решить систему уравнений: [pic], где [pic]-
соответствующее собственное число. После получения решения системы
необходимо затем нормировать полученный вектор.
Для решения данной задачи воспользуемся функцией eigenvec системы
MathCAD, которая возвращает нормированный вектор для соответствующего
собственного числа.
В нашем случае первых четырех главных компонент достаточно для достижения
заданного уровня информативности, поэтому матрица U (матрица перехода от
исходного базиса к базису из собственных векторов)
Строим матрицу U, столбцами которой являются собственные вектора:
U=[pic].
Матрица весовых коэффициентов:
[pic]
[pic]
А=[pic].
Коэффициенты матрицы А являются коэффициентами корреляции между
центрировано – нормированными исходными признаками и ненормированными
главными компонентами, и [pic] показывают наличие, силу и направление
линейной связи между соответствующими исходными признаками и
соответствующими главными компонентами.
2.2 Экономическая интерпретация полученных главных компонент
Коэффициент [pic] матрицы А представляют собой коэффициенты корреляции
между i-ой главной компонентой и j-ым исходным признаком.
Так как первая главная компонента зависит главным образом от первого
(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент
сменности оборудования) исходного признака, следовательно ее можно
обозначить как «Эффективность основного производства». Вторая главная
компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных
изделий) и четвертым (X9 – удельный вес потерь от брака) исходными
признаками, ее можно обозначить как «Удельный вес затрат не приносящих
прибыль». Третья главная компонента взаимосвязана с четвертым исходным
признаком, поэтому ее обозначим «Удельный вес потерь от брака».
2.3 Матрица наблюденных значений главных компонент.
Мы получили ненормированные главные компоненты. Проведя нормирование
полученных центрированных [pic], получим [pic]. При нормировании [pic]
дисперсия должна равняться 1, [pic]. Для этого нужно разделить [pic] на
среднеквадратическое отклонение [pic].
[pic]
Обозначим [pic] - это матрица весовых коэффициентов, с помощью
которой устанавливается связь между нормированными исходными признаками и
нормированными главными компонентами.
Модель метода главных компонент:
[pic] где
[pic]- значение I-той стандартизированной переменной по j-ому объекту
наблюдения;
[pic]- m-тая главная компонента по j-ому объекту наблюдения;
[pic]- весовой коэффициент m-той главной компоненты и I-той переменной.
Эту матрицу будем строить, исходя из соотношения [pic],
где [pic]- диагональная матрица, на главной диагонали которой стоят
дисперсии соответствующих главных компонент в минус первой степени;
[pic] - транспонированная матрица факторных нагрузок;
Х- матрица наблюденных значений исходных признаков.
Данная формула хороша тем, что она верна и в том случае, если матрица
А не квадратная (т.е. выделено m
Измен.R^2 F Значим
0,028 1,47 0,229
-------------- Переменные в уравнении ---------------
Переменн. Коэфф.В Ст.ош.В Бета F Значим
f3 -0,437 0,36 -0,167 1,47 0,229
------------------ Переменные не в уравнении ---------------------------
Переменн. Коэфф.В Ст.ош.В Бета F Значим Частн.R Толер.
f2 0,0241 0,364 0,00922 0,00438 0,946 0,00935 1
f1 0,116 0,364 0,0446 0,102 0,749 0,0452 1
Приложение 4
«Наблюденные» значения общих факторов.
|№ |f1 |f2 |f3 |
|1 |0.745 |янв.23|1.313 |
|2 |0.734 |-0.836|0.704 |
|3 |-0.238|0.527 |0.758 |
|4 |0.318 |1.969 |1.578 |
|5 |-1.211|0.409 |0.318 |
|6 |0.232 |-1.468|0.097 |
|7 |-1.22 |-0.515|-0.57 |
|8 |-0.25 |1.614 |0.959 |
|9 |-1.849|-1.743|-1.129|
|10 |-0.476|01.апр|0.564 |
|11 |-1.789|0.264 |-0.56 |
|12 |-1.179|-0.298|-0.439|
|13 |-1.87 |0.016 |-0.572|
|14 |-1.44 |-3.51 |-1.681|
|15 |-1.009|-3.509|-1.145|
|16 |0.266 |-1.837|-0.201|
|17 |0.259 |-2.529|-0.505|
|18 |0.857 |-1.027|-0.204|
|19 |0.878 |-0.868|-6.854|
| | | |E-3 |
|20 |1.076 |0.101 |0.966 |
|21 |0.307 |-0.685|0.247 |
|22 |0.791 |-2.553|-0.15 |
|23 |-1.051|-2.264|-1.434|
|24 |1.241 |2.131 |1.901 |
|25 |1.312 |2.653 |2.214 |
|26 |1.117 |0.583 |1.302 |
|27 |-0.957|-1.415|-0.703|
|28 |0.459 |-0.507|0.197 |
|29 |0.122 |3.157 |1.449 |
|30 |0.437 |1.527 |0.772 |
|31 |-1.286|-2.376|-0.534|
|32 |0.618 |апр.32|2.167 |
|33 |0.666 |0.896 |1.303 |
|34 |0.582 |-0.631|0.472 |
|35 |-1.295|0.351 |0.086 |
|36 |-0.463|0.212 |0.634 |
|37 |1.705 |0.623 |1.523 |
|38 |0.366 |1.402 |1.025 |
|39 |0.423 |0.057 |0.635 |
|40 |0.965 |0.228 |0.766 |
|41 |3.449 |май.79|-16.47|
| | | |1 |
|42 |-0.049|-0.334|0.249 |
|43 |-0.578|мар.14|1.174 |
|44 |-1.702|1.212 |0.04 |
|45 |-1.802|-0.354|-1.028|
|46 |-0.864|-1.729|-0.953|
|47 |0.449 |1.732 |1.235 |
|48 |-2.152|-0.24 |-0.695|
|49 |3.036 |-3.314|1.159 |
|50 |1.037 |5.343 |2.573 |
|51 |2.026 |-3.347|0.406 |
|52 |-1.012|-3.805|-1.202|
|53 |-0.731|-0.83 |-0.606|
Приложение 5
Уравнение регрессии на общие факторы.
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ.
Коэфф. a0 a1 a2 a3
Значение 7,97 0,309 0,0722 0,186
Ст.ошиб. 0,359 0,309 0,177 0,145
Значим. 0 0,323 0,688 0,204
Источник Сум.квадр. Степ.св Средн.квадр.
Регресс. 19,3 3 6,43
Остаточн 335 49 6,84
Вся 354 52
Множеств R R^2 R^2прив Ст.ошиб. F Значим
0,2333 0,054428-0,0034647 2,6147 0,94 0,57
Гипотеза 0: