КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №2
«Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel»
Вариант № 90
Брянск,
1. Постановка задачи
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования и частично использует результаты Лабораторной работы № 1.
В Лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.
Исходные данные |
||
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
5 |
4130,00 |
3220,00 |
23 |
4452,00 |
4278,00 |
27 |
4820,00 |
3680,00 |
1 |
4958,00 |
4738,00 |
8 |
5142,00 |
5060,00 |
32 |
5234,00 |
5336,00 |
22 |
5602,00 |
4554,00 |
19 |
5740,00 |
4370,00 |
2 |
5832,00 |
5198,00 |
3 |
6016,00 |
5796,00 |
13 |
6062,00 |
6164,00 |
26 |
6200,00 |
5658,00 |
9 |
6292,00 |
5934,00 |
4 |
6338,00 |
6440,00 |
28 |
6476,00 |
5750,00 |
17 |
6522,00 |
5888,00 |
6 |
6660,00 |
5520,00 |
14 |
6660,00 |
6716,00 |
25 |
6660,00 |
5980,00 |
7 |
6844,00 |
7452,00 |
31 |
7120,00 |
5980,00 |
18 |
7212,00 |
6992,00 |
10 |
7258,00 |
7406,00 |
20 |
7304,00 |
5980,00 |
24 |
7442,00 |
6854,00 |
29 |
7488,00 |
6302,00 |
15 |
7626,00 |
8142,00 |
12 |
7948,00 |
7820,00 |
21 |
8132,00 |
8050,00 |
16 |
8730,00 |
8740,00 |
В процессе статистического исследования необходимо решить ряд задач.
1. Установить наличие стохастической связи между факторным признаком Х и результативным признаком Y: а) графическим методом; б) методом сопоставления параллельных рядов.
2. Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
3. Оценить тесноту связи признаков Х и Y на основе: а) эмпирического корреляционного отношения η; б) линейного коэффициента корреляции r.
Сравнить значения η и r и сделать вывод о возможности линейной связи между признаками Х и Y.
4. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа, и рассчитать доверительные интервалы коэффициентов уравнения линейной регрессии.
Построить теоретическую кривую регрессии.
Дать экономическую интерпретацию коэффициента регрессии.
Рассчитать коэффициент эластичности и дать его экономическую интерпретацию.
5. Найти наиболее адекватное уравнение регрессии с помощью средств инструмента Мастер диаграмм.
II. Рабочий файл с результативными таблицами и графиками.
Исходные данные |
||
Номер предприятия |
Среднегодовая стоимость основных производственных фондов, млн.руб. |
Выпуск продукции, млн. руб. |
5 |
4130,00 |
3220,00 |
23 |
4452,00 |
4278,00 |
27 |
4820,00 |
3680,00 |
1 |
4958,00 |
4738,00 |
8 |
5142,00 |
5060,00 |
32 |
5234,00 |
5336,00 |
22 |
5602,00 |
4554,00 |
19 |
5740,00 |
4370,00 |
2 |
5832,00 |
5198,00 |
3 |
6016,00 |
5796,00 |
13 |
6062,00 |
6164,00 |
26 |
6200,00 |
5658,00 |
9 |
6292,00 |
5934,00 |
4 |
6338,00 |
6440,00 |
28 |
6476,00 |
5750,00 |
17 |
6522,00 |
5888,00 |
6 |
6660,00 |
5520,00 |
14 |
6660,00 |
6716,00 |
25 |
6660,00 |
5980,00 |
7 |
6844,00 |
7452,00 |
31 |
7120,00 |
5980,00 |
18 |
7212,00 |
6992,00 |
10 |
7258,00 |
7406,00 |
20 |
7304,00 |
5980,00 |
24 |
7442,00 |
6854,00 |
29 |
7488,00 |
6302,00 |
15 |
7626,00 |
8142,00 |
12 |
7948,00 |
7820,00 |
21 |
8132,00 |
8050,00 |
16 |
8730,00 |
8740,00 |
|
|
|
|
Таблица 2.2 |
||
Зависимость выпуска продукции от среднегодовой стоимости основных фондов |
||||||
Номер группы |
Группы предприятий по стоимости основеных фондов |
Число предприятий |
Выпуск продукции |
|||
Всего |
В среднем на одно предприятие |
|||||
1 |
4130-5050 |
4 |
18360,00 |
4590,00 |
||
2 |
5050-5970 |
5 |
27550,00 |
5510,00 |
||
3 |
5970-6890 |
11 |
70730,00 |
6430,00 |
||
4 |
6890-7810 |
7 |
51450,00 |
7350,00 |
||
5 |
7810-8730 |
3 |
24810,00 |
8270,00 |
||
Итого |
|
30 |
192900,00 |
6430 |
||
|
|
|
Таблица 2.3 |
||
Показатели внутригрупповой вариации |
|||||
Номер группы |
Группы предприятий по стоимости основеных фондов |
Число предприятий |
Внутригрупповая дисперсия |
||
1 |
4130-5050 |
4 |
104742,00 |
||
2 |
5050-5970 |
5 |
75329,60 |
||
3 |
5970-6890 |
11 |
66173,09 |
||
4 |
6890-7810 |
7 |
26601,14 |
||
5 |
7810-8730 |
3 |
111442,67 |
||
Итого |
|
30 |
384288,50 |
||
|
|
|
Таблица 2.4 |
|
Показатели дисперсии и эмпирического корреляционного отношения |
||||
Общая дисперсия |
Средняя из внутригрупповых дисперсия |
Межгрупповая дисперсия |
Эмпирическое корреляционное отношение |
|
1702912,129 |
68135,2 |
1634776,929 |
0,979790289 |
|
Таблица 2.5 |
||
Линейный коэффициент корреляции признаков |
||
|
Столбец 1 |
Столбец 2 |
Столбец 1 |
1 |
|
Столбец 2 |
0,91318826 |
1 |
ВЫВОД ИТОГОВ |
|
Регрессионная статистика |
|
Множественный R |
0,91318826 |
R-квадрат |
0,833912798 |
Нормированный R-квадрат |
0,827981112 |
Стандартная ошибка |
550,4854129 |
Наблюдения |
30 |
Дисперсионный анализ |
|||||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
1 |
42602406,55 |
42602406,55 |
140,5861384 |
1,97601E-12 |
Остаток |
28 |
8484957,313 |
303034,1898 |
||
Итого |
29 |
51087363,87 |
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Нижние 68,3% |
Верхние 68,3% |
|
Y-пересечение |
-1004,62048 |
599,2458037 |
-1,676474786 |
0,104777264 |
-2232,119848 |
222,8788875 |
-1615,158642 |
-394,0823186 |
|
Переменная X 1 |
1,089355181 |
0,09187519 |
11,85690257 |
1,97601E-12 |
0,901157387 |
1,277552975 |
0,995748668 |
1,182961694 |
ВЫВОД ОСТАТКА |
||
Наблюдение |
Предсказанное Y |
Остатки |
1 |
3494,416417 |
-274,4164171 |
2 |
3845,188785 |
432,8112146 |
3 |
4246,071492 |
-566,071492 |
4 |
4396,402507 |
341,597493 |
5 |
4596,84386 |
463,1561397 |
6 |
4697,064537 |
638,9354631 |
7 |
5097,947244 |
-543,9472435 |
8 |
5248,278258 |
-878,2782585 |
9 |
5348,498935 |
-150,4989351 |
10 |
5548,940288 |
247,0597116 |
11 |
5599,050627 |
564,9493733 |
12 |
5749,381642 |
-91,38164171 |
13 |
5849,602318 |
84,39768164 |
14 |
5899,712657 |
540,2873433 |
15 |
6050,043672 |
-300,0436717 |
16 |
6100,15401 |
-212,15401 |
17 |
6250,485025 |
-730,485025 |
18 |
6250,485025 |
465,514975 |
19 |
6250,485025 |
-270,485025 |
20 |
6450,926378 |
1001,073622 |
21 |
6751,588408 |
-771,5884082 |
22 |
6851,809085 |
140,1909152 |
23 |
6901,919423 |
504,0805768 |
24 |
6952,029761 |
-972,0297615 |
25 |
7102,360776 |
-248,3607765 |
26 |
7152,471115 |
-850,4711148 |
27 |
7302,80213 |
839,1978703 |
28 |
7653,574498 |
166,425502 |
29 |
7854,015851 |
195,9841487 |
30 |
8505,45025 |
234,5497505 |
III. Выводы по результатам выполнения лабораторной работы.
Задача 1. Установление наличия стохастической связи между факторным признаком Х и результативным признаком Y:
а) графическим методом.
Вывод: На основе анализа диаграммы рассеяния из Лабораторной работы №1, полученной после удаления аномальных значений, можно сделать вывод, что имеет место стохастическая связь. Предположительный вид связи: линейная прямая.
б) методом сопоставления параллельных рядов.
Вывод: Табл.2.1, полученная путем ранжирования предприятий по возрастанию значения факторного признака Х, показывает, что с увеличением значений факторного признака увеличиваются (уменьшаются) значения результативного признака, за исключением некоторых отклонений, что позволяет сделать вывод о наличии между факторным и результативным признаками стохастической связи. Предположительно связь имеет линейный прямой вид.
Задача 2. Установление наличия корреляционной связи между признаками Х и Y методом аналитической группировки.
Вывод: Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 2.2 Рабочего файла, которая показывает, что с увеличением
среднегодовой стоимости основных производственных фондов среднегодовой выпуск продукции также возрастает, следовательно, между исследуемыми признаками существует прямая корреляционная зависимость. Теснота этой связи может быть измерена как эмпирическим корреляционном отношением, так и на основе коэффициента корреляции признаков.
Задача 3.Оценка тесноты связи признаков Х и Y:
а) на основе эмпирического корреляционного отношения
Для анализа тесноты связи между факторным и результативным признаками, рассчитывается показатель η - эмпирическое корреляционное отношение, задаваемое формулой
Для вычисления η необходимо знать общую дисперсию и межгрупповую дисперсию результативного признака Y - Выпуск продукции.
Результаты выполненных расчетов представляются табл. 2.4 Рабочего файла.
Вывод: Величина η=0,959989 является близкой к единице, что свидетельствует об очень тесной связи между признаками, близкой к функциональной зависимости.
б) на основе линейного коэффициента корреляции признаков
В предположении, что связь между факторным и результативным признаком имеется, для определения тесноты связи на основе линейного коэффициента корреляции r был использован инструмент Корреляция надстройки Пакет анализа.
Результатом работы инструмента Корреляции является табл. 2.5 Рабочего файла.
Вывод: Значение коэффициента корреляции r= 0,91318826 лежит в интервале от0.9 до 0.99, что в соответствии со шкалой Чэддока, говорит о весьма тесной связи между среднегодовой стоимостью основных производственных фондов и выпуском продукции.
Так как значение коэффициента корреляции r положительное, то связь между признаками прямая.
Посредством показателя η измеряется теснота связи любой формы, а с помощью коэффициента корреляции r – только прямолинейная, следовательно, значения η и r совпадают только при наличии прямолинейной связи. В теории статистики установлено, что если , то гипотезу о прямолинейной связи можно считать подтвержденной.
Вывод: В работе гипотезу о прямолинейной связи между изучаемыми признаками можно считать подтвержденной, поскольку ,т.е. 0,087666001<0,1.
Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа.
Построение регрессионной модели заключается в определении аналитического выражения связи между факторным признаком X и результативным признаком Y.
Инструмент Регрессия производит расчет параметров а0 и а1 уравнения однофакторной линейной регрессии и проверка его адекватности исследуемым фактическим данным.
В результате работы инструмента Регрессия были получены результативные таблицы 2.6 – 2.9 Рабочего файла.
Вывод: Однофакторная линейная регрессионная модель связи факторного и результативного признаков имеет вид у=-1004,62048+1,089355181х. Коэффициент а1>0, следовательно, связь между рассматриваемыми признаками, как и ожидалось прямая.
Доверительные интервал коэффициентов уравнения регрессии представим в нижеследующей таблице
Коэффициенты |
Границы доверительных интервалов |
|||
С надежностью Р=0,68 |
С надежностью Р=0,95 |
|||
Нижние |
Верхние |
Нижние |
Верхние |
|
а0 |
-1615,158642 |
-394,0823186 |
-2232,119848 |
222,8788875 |
а1 |
0,995748668 |
1,182961694 |
0,901157387 |
1,277552975 |
С увеличением надежности границы доверительных интервалов расширяются.
Экономическая интерпретация коэффициента регрессии а1: Из нашего уравнения регрессии следует, что при увеличении среднегодовой стоимости основных производственных фондов на 1 тыс. руб. выпуск продукции увеличивается на 1,089 тыс. руб.
Коэффициент эластичности =6430/5999,93*1.089=1.16
Экономическая интерпретация коэффициента эластичности Э: С повышением стоимости основных производственных фондов на 1% следует ожидать увеличение выпуска продукции на 1,16.
Задача 5. Нахождение наиболее адекватного уравнения регрессии с помощью средств инструмента Мастер диаграмм. Построение для этого уравнения теоретической линии регрессии.
Возможности инструмента Мастер диаграмм позволяют быстро производить построение и анализ адекватности регрессионных моделей, базирующихся на использовании различных видов зависимости между признаками X и Y.
Построение моделей осуществляется непосредственно на диаграмме рассеяния.
На диаграмме рассеяния отображается линия и уравнение регрессии, а также коэффициент детерминации R2.
В лабораторной работе уравнения регрессии и их графики были построены для 5-ти видов зависимости между признаками и даны на диаграмме 2 Рабочего файла.
Уравнения регрессии и соответствующие им коэффициент детерминации R2 даны в следующей таблице:
Регрессионные модели связи[1]
Вид уравнения |
Уравнение регрессии |
Коэффициент детерминации R2 |
Линейное |
у=-1004,62048+1,089355181х |
0.8339 |
Полином 2-го порядка |
У=3Е-0,5х²+0.6701+286,94 |
0,8553 |
Полином 3-го порядка |
У=4Е-0,8х³-0.0007х²+5.0556х-8621,7 |
0,8381 |
Степенное |
У=0,1917х1,1796 |
0.8371 |
Экспоненциальное |
У=1718,3Е0,0002х |
0,8272 |
Выбор наиболее адекватного уравнения регрессии определяется максимальным значением коэффициента детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным
Вывод: Максимальное значение коэффициента детерминации R2 =0,8381
Вид искомого уравнения регрессии – У=4Е-0,8х³-0.0007х²+5.0556х-8621,7
Это уравнение регрессии и его график приведены на отдельной диаграмме рассеяния диаграмма 3 Рабочего файла.
Вместе с тем, так как значения коэффициентов R2 кубического и линейного уравнения расходятся очень незначительно (на величину0.8381-0.8339=0.0042), а для показателей тесноты связи имеет место неравенство , то в качестве адекватного уравнения регрессии может быть принято линейное уравнение -1004,62048+1,089355181х, совпадающее (не совпадающее) с найденным с помощью инструмента Регрессия надстройки Пакет анализа.
[1] Коэффициенты уравнений необходимо задавать не в компьютерном формате, а в общепринятой десятичной форме чисел.