ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №2
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант №38
Выполнила: студентка 3курса
Специальность: Бух. учет анализ и аудит
(день)
№ зачетной книжки: 06 УБД 12438
Торшина Татьяна Валерьевна
Проверила: Нестерова Н.Н.
Липецк,
1. Постановка задачи
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования и частично использует результаты Лабораторной работы № 1.
В Лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.
Исходные данные представлены в табл.1.
Таблица 1.Исходные данные
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
1 |
2150,00 |
2060,00 |
2 |
2530,00 |
2260,00 |
3 |
2610,00 |
2520,00 |
4 |
2750,00 |
2800,00 |
5 |
1790,00 |
1400,00 |
6 |
2890,00 |
2400,00 |
7 |
2970,00 |
3240,00 |
8 |
2230,00 |
2200,00 |
9 |
2730,00 |
2580,00 |
10 |
3150,00 |
3220,00 |
12 |
3450,00 |
3400,00 |
13 |
2630,00 |
2680,00 |
14 |
2890,00 |
2920,00 |
15 |
3310,00 |
3540,00 |
16 |
3790,00 |
3800,00 |
17 |
2830,00 |
2560,00 |
18 |
3130,00 |
3040,00 |
19 |
2490,00 |
1900,00 |
20 |
3170,00 |
2600,00 |
21 |
3530,00 |
3500,00 |
22 |
2430,00 |
1980,00 |
23 |
1930,00 |
1860,00 |
24 |
3230,00 |
2980,00 |
25 |
2890,00 |
2600,00 |
26 |
2690,00 |
2460,00 |
27 |
2090,00 |
1600,00 |
28 |
2810,00 |
2500,00 |
29 |
3250,00 |
2740,00 |
31 |
3090,00 |
2600,00 |
32 |
2270,00 |
2320,00 |
В процессе статистического исследования необходимо решить ряд задач.
1. Установить наличие стохастической связи между факторным признаком Х и результативным признаком Y: а) графическим методом; б) методом сопоставления параллельных рядов.
2. Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
3. Оценить тесноту связи признаков Х и Y на основе: а) эмпирического корреляционного отношения η; б) линейного коэффициента корреляции r.
Сравнить значения η и r и сделать вывод о возможности линейной связи между признаками Х и Y.
4. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа, и рассчитать доверительные интервалы коэффициентов уравнения линейной регрессии.
Построить теоретическую кривую регрессии.
Дать экономическую интерпретацию коэффициента регрессии.
Рассчитать коэффициент эластичности и дать его экономическую интерпретацию.
5. Найти наиболее адекватное уравнение регрессии с помощью средств инструмента Мастер диаграмм.
II. Рабочий файл с результативными таблицами и графиками.
Таблица 2.
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
1 |
2150,00 |
2060,00 |
2 |
2530,00 |
2260,00 |
3 |
2610,00 |
2520,00 |
4 |
2750,00 |
2800,00 |
5 |
1790,00 |
1400,00 |
6 |
2890,00 |
2400,00 |
7 |
2970,00 |
3240,00 |
8 |
2230,00 |
2200,00 |
9 |
2730,00 |
2580,00 |
10 |
3150,00 |
3220,00 |
12 |
3450,00 |
3400,00 |
13 |
2630,00 |
2680,00 |
14 |
2890,00 |
2920,00 |
15 |
3310,00 |
3540,00 |
16 |
3790,00 |
3800,00 |
17 |
2830,00 |
2560,00 |
18 |
3130,00 |
3040,00 |
19 |
2490,00 |
1900,00 |
20 |
3170,00 |
2600,00 |
21 |
3530,00 |
3500,00 |
22 |
2430,00 |
1980,00 |
23 |
1930,00 |
1860,00 |
24 |
3230,00 |
2980,00 |
25 |
2890,00 |
2600,00 |
26 |
2690,00 |
2460,00 |
27 |
2090,00 |
1600,00 |
28 |
2810,00 |
2500,00 |
29 |
3250,00 |
2740,00 |
31 |
3090,00 |
2600,00 |
32 |
2270,00 |
2320,00 |
Рис.1 Диаграмма рассеяния.
Таблица 3.Зависимость выпуска продукции от среднегодовой стоимости основных фондов
Номер группы |
Группы предприятий по стоимости основеных фондов |
Число предприятий |
Выпуск продукции |
|
Всего |
В среднем на одно предприятие |
|||
1 |
1790-2190 |
4 |
9120,00 |
2280,00 |
2 |
2190-2590 |
5 |
14640,00 |
2928,00 |
3 |
2590-2990 |
11 |
30380,00 |
2761,82 |
4 |
2990-3390 |
7 |
17480,00 |
2497,14 |
5 |
3390-3790 |
3 |
9620,00 |
3206,67 |
Итого |
X |
30 |
81240,00 |
2708 |
Таблица 4.Показатели внутригрупповой вариации.
Номер группы |
Группы предприятий по стоимости основеных фондов |
Число предприятий |
Внутригрупповая дисперсия |
1 |
1790-2190 |
4 |
279200,00 |
2 |
2190-2590 |
5 |
211296,00 |
3 |
2590-2990 |
11 |
415596,69 |
4 |
2990-3390 |
7 |
159934,69 |
5 |
3390-3790 |
3 |
408088,89 |
Итого |
X |
30 |
1474116,28 |
Таблица 5.Показатели дисперсии и эмпирического корреляционного отношения.
Показатели дисперсии и эмпирического корреляционного отношения |
|||
Общая дисперсия |
Средняя из внутригрупповых дисперсия |
Межгрупповая дисперсия |
Эмпирическое корреляционное отношение |
371749,3333 |
302955,1053 |
68794,22799 |
0,43018068 |
Таблица 6.Линейный коэффициент корреляции признаков
|
Столбец1 |
Столбец2 |
Столбец1 |
1 |
|
Столбец2 |
0,91318826 |
1 |
Выходные таблицы (Табл.7-10 (ВЫВОД ИТОГОВ))
Таблица 7. Регрессионная статистика.
Множественный R |
0,995864473 |
R-квадрат |
0,991746049 |
Нормированный R-квадрат |
0,95726329 |
Стандартная ошибка |
536,545859 |
Наблюдения |
30 |
Таблица 8.Дисперсионный анализ
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
8461087,596 |
8461087,596 |
140,5861384 |
1,97601E-12 |
Остаток |
28 |
1685162,245 |
60184,3659 |
|
|
Итого |
29 |
10146249,84 |
|
|
|
Таблица 9.Результативная таблица
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
-441,6724842 |
266,553115 |
-1,656977387 |
0,108688941 |
Переменная X 1 |
1,089355181 |
0,09187519 |
11,85690257 |
1,97601E-12 |
Таблица 10.Результативная таблица
Нижние 95% |
Верхние 95% |
Нижние 68,3% |
Верхние 68,3% |
-987,6817815 |
104,3368131 |
-713,2486017 |
-170,0963667 |
0,901157387 |
1,277552975 |
0,995748668 |
1,182961694 |
Таблица 11.Вывод остатка.
Наблюдение |
Предсказанное Y |
Остатки |
1 |
1557,294273 |
-122,2942729 |
2 |
1713,616741 |
192,8832587 |
3 |
1892,270991 |
-252,270991 |
4 |
1959,266335 |
152,2336654 |
5 |
2048,593459 |
206,4065405 |
6 |
2093,257022 |
284,7429781 |
7 |
2271,911272 |
-242,4112716 |
8 |
2338,906615 |
-391,4066152 |
9 |
2383,570178 |
-67,07017761 |
10 |
2472,897302 |
110,1026976 |
11 |
2495,229084 |
251,7709163 |
12 |
2562,224427 |
-40,72442729 |
13 |
2606,88799 |
37,6120103 |
14 |
2629,219771 |
240,7802291 |
15 |
2696,215115 |
-133,7151145 |
16 |
2718,546896 |
-94,54689575 |
17 |
2785,542239 |
-325,5422394 |
18 |
2785,542239 |
207,4577606 |
19 |
2785,542239 |
-120,5422394 |
20 |
2874,869364 |
446,1306358 |
21 |
3008,860051 |
-343,8600515 |
22 |
3053,523614 |
62,47638611 |
23 |
3075,855395 |
224,6446049 |
24 |
3098,187176 |
-433,1871763 |
25 |
3165,18252 |
-110,6825199 |
26 |
3187,514301 |
-379,0143012 |
27 |
3254,509645 |
373,9903552 |
28 |
3410,832113 |
74,16788675 |
29 |
3500,159238 |
87,34076192 |
30 |
3790,472394 |
104,5276062 |
Рис.2. График подбора.
Рис. 3а. Уравнения регрессии и их графики.
Рис. 3б. Уравнения регрессии и их графики.
Рис. 3в. Уравнения регрессии и их графики.
Рис. 3г. Уравнения регрессии и их графики.
Рис. 3д. Уравнения регрессии и их графики.
Рис. 4 Наиболее адекватное уравнение регрессии и его график.
III. Выводы по результатам выполнения лабораторной работы.
Задача 1. Установление наличия стохастической связи между факторным признаком Х и результативным признаком Y:
а) графическим методом.
Вывод: На основе анализа диаграммы рассеяния из Лабораторной работы №1, полученной после удаления аномальных значений, можно сделать вывод, что не имеет место стохастическая связь. Предположительный вид связи: линейная прямая .
б) методом сопоставления параллельных рядов.
Вывод: Табл.2, полученная путем ранжирования предприятий по возрастанию значения факторного признака Х, показывает, что с увеличением значений факторного признака увеличиваются значения результативного признака, за исключением некоторых отклонений, что позволяет сделать вывод о возможном наличии прямой корреляционной связи.
Задача 2. Установление наличия корреляционной связи между признаками Х и Y методом аналитической группировки.
Вывод: Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 3. Рабочего файла, которая показывает, что при переходе от одной группы средних значений результативного признака к другой значения изменяются с определенной закономерностью – возрастают, значит, между признаками Х и Y существует корреляционная связь.
Задача 3.Оценка тесноты связи признаков Х и Y:
а) на основе эмпирического корреляционного отношения
Для анализа тесноты связи между факторным и результативным признаками, рассчитывается показатель η - эмпирическое корреляционное отношение, задаваемое формулой
Для вычисления η необходимо знать общую дисперсию и межгрупповую дисперсию результативного признака Y - Выпуск продукции.
Результаты выполненных расчетов представляются табл. 5 Рабочего файла.
Вывод: Величина η= 0,90 является близкой к единице, что свидетельствует о весьма высокой связи и большой силе связи, наличии между X и Y корреляционная связь.
б) на основе линейного коэффициента корреляции признаков
В предположении, что связь между факторным и результативным признаком имеется, для определения тесноты связи на основе линейного коэффициента корреляции r был использован инструмент Корреляция надстройки Пакет анализа.
Результатом работы инструмента Корреляции является табл. 6 Рабочего файла.
Вывод: Значение коэффициента корреляции r = 0,91 лежит в интервале -1≤ r ≤1, что в соответствии со шкалой Чэддока, говорит о весьма высокой тесноте связи.
Знак при r указывает на прямую линейную зависимость.
Посредством показателя η измеряется теснота связи любой формы, а с помощью коэффициента корреляции r – только прямолинейная, следовательно, значения η и r совпадают только при наличии прямолинейной связи. В теории статистики установлено, что если , то гипотезу о прямолинейной связи можно считать подтвержденной.
Вывод: I 0,9 2 – 0,91 2I ≤ 0,1; 0,0181 ≤ 0,1, , гипотезу о прямолинейной связи можно считать подтвержденной.
Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа.
Построение регрессионной модели заключается в определении аналитического выражения связи между факторным признаком X и результативным признаком Y.
Инструмент Регрессия производит расчет параметров а0 и а1 уравнения однофакторной линейной регрессии и проверка его адекватности исследуемым фактическим данным.
В результате работы инструмента Регрессия были получены результативные таблицы 7 – 10 Рабочего файла.
Вывод: Однофакторная линейная регрессионная модель связи факторного и результативного признаков имеет вид
Доверительные интервал коэффициентов уравнения регрессии представим в нижеследующей таблице
Коэффициенты |
Границы доверительных интервалов |
|||
С надежностью Р=0,68 |
С надежностью Р=0,95 |
|||
Нижние |
Верхние |
Нижние |
Верхние |
|
а0 |
-713,2486017 |
0,995748668 |
-987,6817815 |
104,3368131 |
а1 |
0,995748668 |
1,182961694 |
0,901157387 |
1,277552975 |
С увеличением надежности границы доверительных интервалов расширяются.
Экономическая интерпретация коэффициента регрессии а1: величина коэффициента регрессии а1 показывает, насколько в среднем (в абсолютном выражении) изменяется значение результативного признака Y при изменении фактора Х на единицу его измерения.
Коэффициент эластичности =1,09 · 2790,00/2608,66=1,168
Экономическая интерпретация коэффициента эластичности Э: показывает на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%. В нашем случае - результативный признак изменится на 116,5% при изменении факторного признака на 1%.
Задача 5. Нахождение наиболее адекватного уравнения регрессии с помощью средств инструмента Мастер диаграмм. Построение для этого уравнения теоретической линии регрессии.
Возможности инструмента Мастер диаграмм позволяют быстро производить построение и анализ адекватности регрессионных моделей, базирующихся на использовании различных видов зависимости между признаками X и Y.
Построение моделей осуществляется непосредственно на диаграмме рассеяния.
На диаграмме рассеяния отображается линия и уравнение регрессии, а также коэффициент детерминации R2.
В лабораторной работе уравнения регрессии и их графики были построены для 5-ти видов зависимости между признаками и даны на диаграмме (рис.4) Рабочего файла.
Уравнения регрессии и соответствующие им коэффициент детерминации R2 даны в следующей таблице:
Регрессионные модели связи[1]
Вид уравнения |
Уравнение регрессии |
Коэффициент детерминации R2 |
Линейное |
y = 1,0894x - 441,67 |
0,8339 |
Полином 2-го порядка |
y = 7E-05x2 + 0,6709x + 131,59 |
0,8353 |
Полином 3-го порядка |
y = 2E-07x3 - 0,0015x2 + 5,039x - 3814,3 |
0,8381 |
Степенное |
y = 0,2266x1,1772 |
0,8371 |
Экспоненциальное |
y = 767,58e0,0004x |
0,8272 |
Выбор наиболее адекватного уравнения регрессии определяется максимальным значением коэффициента детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным
Вывод: Максимальное значение коэффициента детерминации R2 = 0,8381
Вид искомого уравнения регрессии – y = 2E-07x3 - 0,0015x2 + 5,039x - 3814,3
Это уравнение регрессии и его график приведены на отдельной диаграмме рассеяния (рис.4)Рабочего файла.
Вместе с тем, так как значения коэффициентов R2 кубического и линейного уравнения расходятся очень незначительно (на величину…0,8381-0,8339= 0,0042), а для показателей тесноты связи имеет место неравенство , то в качестве адекватного уравнения регрессии может быть принято линейное уравнение y = 1,0894x - 441,67, совпадающе с найденным с помощью инструмента Регрессия надстройки Пакет анализа.
[1] Коэффициенты уравнений необходимо задавать не в компьютерном формате, а в общепринятой десятичной форме чисел.