КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №2
«Корреляционно-регрессионный анализ»
Вариант №11
ВЫПОЛНИЛ: |
Омельченко Екатерина Николаевна |
Зачетная книжка № 04ФФД60307 |
Специальность: Финансы и кредит |
3 курс, II в/о, гр. 10/1 |
ПРОВЕРИЛ: |
Д.э.н., профессор Кожевникова Галина Павловна |
Москва, 2005 г.
Задание 1
Расчет групповых средних показателей результативного признака, внутригрупповых дисперсий и коэффициентов вариации
Построение аналитической группировки производится на основе таблицы №7 (см. Лабораторная работа №1) следующим образом:
1. Исходные данные (А4:С33) упорядочиваются (ранжируются) по возрастанию по признаку «Стоимость основных средств»;
2. В таблицу №7 для каждой группы вводятся функции, обеспечивающие расчет групповых сумм, средних арифметических, дисперсий.
3. При вводе функций в качестве аргументов выбираются значения признака Выпуск продукции предприятий, попавших в ту или иную группе.
Таблица 1.
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
5 |
120,00 |
105,00 |
23 |
130,50 |
139,50 |
27 |
142,50 |
120,00 |
1 |
147,00 |
154,50 |
8 |
153,00 |
165,00 |
32 |
156,00 |
174,00 |
22 |
168,00 |
148,50 |
19 |
172,50 |
142,50 |
2 |
175,50 |
169,50 |
3 |
181,50 |
189,00 |
13 |
183,00 |
201,00 |
26 |
187,50 |
184,50 |
9 |
190,50 |
193,50 |
4 |
192,00 |
210,00 |
28 |
196,50 |
187,50 |
17 |
198,00 |
192,00 |
6 |
202,50 |
180,00 |
14 |
202,50 |
219,00 |
25 |
202,50 |
195,00 |
7 |
208,50 |
243,00 |
30 |
217,50 |
195,00 |
18 |
220,50 |
228,00 |
10 |
222,00 |
241,50 |
20 |
223,50 |
195,00 |
24 |
228,00 |
223,50 |
29 |
229,50 |
205,50 |
15 |
234,00 |
265,50 |
11 |
244,50 |
255,00 |
21 |
250,50 |
262,50 |
16 |
270,00 |
285,00 |
5 |
120,00 |
105,00 |
23 |
130,50 |
139,50 |
Таблица 7 |
|||||
Интервальный ряд распределения предприятий по стоимости основных производственных фондов |
|||||
Интервальный ряд распределения предприятий по стоимости основных производственных фондов |
|
|
|
||
Группы предприятий по стоимости основных фондов |
Число предприятий в группеа |
Накопленная частость группы, % |
Cумма по группе |
Среднее по группе |
Внутригрупповая дисперсия |
150 |
4 |
13,33% |
120,0 - 150,0 |
4 |
13,33% |
180 |
5 |
30,00% |
150,0 - 180,0 |
5 |
30,00% |
210 |
11 |
66,67% |
180,0 - 210,0 |
11 |
66,67% |
240 |
7 |
90,00% |
210,0 - 240,0 |
7 |
90,00% |
270 |
3 |
100,00% |
240,0 - 270,0 |
3 |
100,00% |
|
|
Дисперсия, средняя из внутригр. |
83,1675487 |
Межгрупповая дисперсия |
1233,160038 |
Эмпирич. Корреляционное отн. |
0,967893849 |
Линейн. Коэффициент корр. |
0,91318826 |
ЗАДАНИЕ №2
Корреляционный анализ данных
Выполнение задания включает 2 этапа:
1) установление наличия связи между признаками и определение формы связи на основе визуального анализа диаграммы рассеяния;
2) корреляционный анализ;
Установление наличия связи между признаками и определение формы связи на основе визуального анализа диаграммы рассеяния
Установление наличия или отсутствия связи между значениями признаков производится визуально, путем анализа взаимного расположения точек на диаграмме рассеяния (корреляционном поле).
Скопление точек вокруг теоретической линии (линии регрессии), которая имеет наклон относительно осей координат, свидетельствует о наличии прямой (или близкой к прямой) связи между признаками, значения которых отображены на диаграмме рассеяния.
В случаях, если теоретическая линия параллельна одной из координатных осей, можно утверждать, что связь между признаками отсутствует.
В случаях, когда по расположению точек на графике нельзя однозначно установить наличие линейной зависимости, следует отобрать несколько возможных форм связи, которые адекватно характеризуют наблюдаемое скопление точек. Определение наиболее подходящей модели производится по количественным статистическим критериям, например, с помощью коэффициента детерминации R . Выбор наиболее подходящей математической модели связи осуществляется согласно наилучшим образом аппроксимирующей исходные данные функции.
В зависимости от установленной формы связи и шкалы измерения исходных данных (интервальная, порядковая, номинальная), определяется статистический инструментарий, применяемый для определения тесноты связи. Для линейной связи изучаемых признаков, значения которых выражены в интервальной (количественной) шкале, может быть использован линейный коэффициент корреляции r.
В случае нелинейной связи для определения тесноты связи следует применять теоретический коэффициент детерминации, а также коэффициент детерминации R .
На данном этапе необходимо определить наличие связи между признаками, установить форму связи, а также определить статистический инструментарий для расчета количественных параметров тесноты связи между изучаемыми признаками.
По результатам исследования взаимного расположения точек на диаграмме рассеяния делается заключение о наличии, либо отсутствии связи, ее форме, используемых для определения тесноты связи показателях.
Корреляционный анализ
Определение тесноты связи на основе линейного коэффициента корреляции осуществляется в Excel с помощью инструмента Корреляция, входящего в состав Пакета анализа путем заполнения таблицы корреляций. После осуществления всех соответствующих манипуляций в Excel формируется результативная таблица инструмента Корреляция.
Столбец 1 |
Столбец 2 |
|
Столбец 1 |
1 |
|
Столбец 2 |
0,910429 |
1 |
Таблица содержит рассчитанные линейные коэффициенты корреляции для всех указанных столбцов. Линейный коэффициент корреляции для столбцов 1 и 2 (т.е. признаков «Среднегодовой стоимости основных производственных фондов» и «Выпуск продукции»), равен 0,913.
Построение линейной регрессионной модели.
Построение математической модели связи в Excel осуществим с помощью инструмента Регрессия, входящего в состав Пакета анализа. После осуществления всех соответствующих манипуляций в Excel должны быть сформированы 3 таблицы (Регрессионная статистика, Дисперсионный анализ, Вывод остатка) и построен один график (График подбора).
ВЫВОД ИТОГОВ
Регрессионная статистика |
|
Множественный R |
0,910429 |
R-квадрат |
0,828881 |
Нормированный R-квадрат |
0,794398 |
Стандартная ошибка |
17,90359 |
Наблюдения |
30 |
Дисперсионный анализ
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
45026,96 |
45026,96 |
140,4729 |
1,99E-12 |
Остаток |
29 |
9295,613 |
320,5384 |
||
Итого |
30 |
54322,58 |
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% |
Y-пересечение |
0 |
12,927 |
3,499 |
0,002 |
18,748 |
71,708 |
18,748 |
71,708 |
Переменная X 1 |
1,006119 |
0,016489 |
61,01717 |
3,52E-32 |
0,972395 |
1,039843 |
0,972395 |
1,039843 |
ВЫВОД ОСТАТКА
Наблюдение |
Предсказанное Y |
Остатки |
1 |
120,7342 |
-15,73424612 |
2 |
131,2985 |
8,20150735 |
3 |
143,3719 |
-23,37191726 |
4 |
147,8995 |
6,600548509 |
5 |
153,9362 |
11,0638362 |
6 |
156,9545 |
17,04548005 |
7 |
169,0279 |
-20,52794456 |
8 |
173,5555 |
-31,05547879 |
9 |
176,5738 |
-7,073834943 |
10 |
182,6105 |
6,389452751 |
11 |
184,1197 |
16,88027467 |
12 |
188,6473 |
-4,147259555 |
13 |
191,6656 |
1,834384292 |
14 |
193,1748 |
16,82520622 |
15 |
197,7023 |
-10,20232801 |
16 |
199,2115 |
-7,21150609 |
17 |
203,739 |
-23,73904032 |
18 |
203,739 |
15,26095968 |
19 |
203,739 |
-8,739040319 |
20 |
209,7758 |
33,22424737 |
21 |
218,8308 |
-23,83082108 |
22 |
221,8492 |
6,150822763 |
23 |
223,3584 |
18,14164469 |
24 |
224,8675 |
-29,86753339 |
25 |
229,3951 |
-5,895067619 |
26 |
230,9042 |
-25,4042457 |
27 |
235,4318 |
30,06822008 |
28 |
245,996 |
9,00397354 |
29 |
252,0327 |
10,46726123 |
30 |
271,6521 |
13,34794624 |
Таблица Регрессионная статистика содержит коэффициенты детерминации, рассчитанные различными методами.
Таблица Дисперсионный анализ содержит суммы квадратов отклонений от теоретической линии, значения F-критерия Фишера, значения t-критерия, коэффициент регрессии, своьодный член уравнения регрессии (линейная форма) и др.
Таблица Вывод остатка содержит теоретические (сглажэенные, предсказанные) значения для каждого наблюдения, а также значения их остатков.
График подбора – график, представляющий собой диаграмму рассеяния с нанесенными на нее точками линии регрессии.
Построение нелинейных регрессионных моделей.
Возможности инструмента Мастер диаграмм позволяют быстро производить построение и анализ моделей, базирующихся на основе различного рода зависимостей: линейной, логарифмической, степенной, экспоненциальной, полиномиальной (2-6 степеней), а также осуществлять прогнозирование на основе указанных моделей.
Построение моделей осуществляется непосредственно на диаграмме рассеяния. На ней отображаются линии регрессии, математическое выражение формы в виде y=f(x), а также коэффициент детерминации.
Для окончательного применения отбирается модель, имеющая максимальный R, сущность которой может быть легко истолкована экономически.
ВЫВОД:
В результате выполнения данной работы визуально, по взаимному расположению точек на диаграмме рассеяния было установлено наличие «близкой к прямой» связи между «Среднегодовой стоимостью основных производственных фондов» и «Выпуском продукции». Это подтвердилось с расчетом линейного коэффициента корреляции и построением линейной регрессионной модели. Линейный коэффициент корреляции составил 0,910, что свидетельствует о наличии значительной (тесной) связи. Линейное уравнение регрессии имеет следующий вид: y= 0.766x + 45.228
Путем построения и анализа нелинейных регрессионных моделей была определена наиболее подходящая модель для функциональной зависимости между вышеуказанными признаками – степенная. Исходя из этого, был вычислен коэффициент детерминации, равный 0,8373 или 83,73%.
Таким образом, вариация выпуска продукции на 83,73% объясняется среднегодовой стоимостью основных производственных фондов и на 16,27% вариацией других признаков.