Реферат: Уральский федеральный округ 2 Заселение Урала

Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора.

Для построения исходной выборки был выбран сайт www.auto.ru.

Формирование исходной выборки

Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик.

Исследуемые признаки:

Y ‑ цена автомобиля, тыс.руб.;

Х1 ‑ время эксплуатации, лет;

Х2 ‑ пробег, тыс. км.

№ п/п	Марка	Y	Х₁	Х₂
1	Civic VII	379	5	121
2	Civic VII	399	4	74
3	Civic VII	429	4	88
4	Civic VII	393	3	95
5	Civic VII	397	3	60
6	Civic VII	430	3	54
7	Civic VII	459	3	46
8	Civic VIII	455	2	107
9	Civic VIII	467	2	47
10	Civic VIII	468	2	97
11	Civic VIII	552	2	60
12	Civic VIII	565	2	41
13	Civic VIII	570	2	57
14	Civic VIII	579	2	30
15	Civic VIII	597	2	150
16	Civic VIII	441	1	75
17	Civic VIII	466	1	30
18	Civic VIII	500	1	15
19	Civic VIII	524	1	26
20	Civic VIII	530	1	22
21	Civic VIII	539	1	32
22	Civic VIII	555	1	62
23	Civic VIII	560	1	14
24	Civic VIII	575	1	30
25	Civic VIII	575	1	88
26	Civic VIII	600	1	18
27	Civic VIII	600	1	18
28	Civic VIII	615	1	40
29	Civic VIII	680	1	14
30	Civic VIII	510	0	18
31	Civic VIII	533	0	0
32	Civic VIII	533	0	0
33	Civic VIII	541	0	0
34	Civic VIII	541	0	0
35	Civic VIII	561	0	0
36	Civic VIII	570	0	29
37	Civic VIII	585	0	0
38	Civic VIII	590	0	0
39	Civic VIII	606	0	0
40	Civic VIII	616	0	0
41	Civic VIII	640	0	0
42	Civic VIII	640	0	0
43	Civic VIII	640	0	0
44	Civic VIII	643	0	0
45	Civic VIII	650	0	10
46	Civic VIII	650	0	0
47	Civic VIII	661	0	0
48	Civic VIII	661	0	0
49	Civic VIII	683	0	0
50	Civic VIII	600	0	13

Статистические распределения рядов признаков-факторов и результирующего признака

Исследуем статистическое распределение признаков Х₁ с помощью интервального вариационного ряда:

Интервальный ряд для Х ₁
Х ₁	F ₁	Ср. цена тыс.руб.
0-1	21	603
1-2	14	554
2-3	8	532
3-4	4	420
4-5	2	414
5-6	1	379

Приведем графическое отображение ряда для Х₁ в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X₁ . Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где – значение моды;

X₀ – нижняя граница модального интервала;

h – величина модального интервала (1 год);

– частота модального интервала;

– частота интервала, предшествующая модальному;

– частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет , тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.

Значение медианы можно определить по формуле:

где – значение медианы;

– нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

- частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет , тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где – дисперсия;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Среднее квадратическое отклонение вычислим по следующей формуле:

где – дисперсия;

– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где – коэффициент вариации;

– среднее квадратическое отклонение;

- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где ;

– коэффициент ассиметрии;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где

- коэффициент эксцесса;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Исследуем статистическое распределение признаков Х₂ с помощью интервального вариационного ряда.

Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса:

гдеm – число групп (всегда целое);

n – число единиц в выборке, в нашем случае n= 50.

Вычислим m:

Величину интервала определим по формуле:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

На основании полученных данных построим интервальный ряд для Х₂ :

Интервальный ряд для Х ₂
Х ₂	F ₂	Ср. цена тыс.руб.
0 - 21	25	601
21 - 42	9	551
42 - 63	7	490
63 - 84	2	420
84 - 105	4	466
105 - 126	2	417
126 - 150	1	597

Приведем графическое отображение ряда для Х₂ в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X₂ . Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

где – значение моды;

– нижняя граница модального интервала;

h – величина модального интервала (1 год);

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X₁ наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

Значение медианы можно определить по формуле:

где– значение медианы;

– нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

- частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где – дисперсия;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Среднее квадратическое отклонение вычислим по следующей формуле:

где – дисперсия;

– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где – коэффициент вариации;

– среднее квадратическое отклонение;

- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где

– коэффициент ассиметрии

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где;

- коэффициент эксцесса;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда.

Величину интервала определим по формуле, используя полученное ранее значение m:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

На основании полученных данных построим интервальный ряд для Y:

Интервальный ряд для Y
Y	F_y	Ср. цена тыс.руб.
379 - 422	4	400,5
422 - 465	5	443,5
465 - 508	4	486,5
508 - 551	8	529,5
551 - 594	12	572,5
594 - 637	7	615,5
637 - 683	10	660

Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую , моду и медиану интервального ряда распределения для Y. Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

где – значение моды;

Y₀ – нижняя граница модального интервала;

h– величина модального интервала;

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где ;

n – число единиц в совокупности;

Значение медианы можно определить по формуле:

где – значение медианы;

– нижняя граница медианного интервала;

– номер медианы;

– накопленная частота интервала, предшествующего медианному;

- частота медианного интервала;

По накопленной частоте определяем, что медиана будет находиться в интервале 551-594 , тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где – дисперсия;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Среднее квадратическое отклонение вычислим по следующей формуле:

где – дисперсия;

– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где – коэффициент вариации;

– среднее квадратическое отклонение;

- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где

– коэффициент ассиметрии;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Подставив значения, получим, что:

Вычислим значения коэффициента эксцесса:

где ;

- коэффициент эксцесса;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Проверка однородности и нормальности

Проверим интервальные распределения на однородность:

следовательно, совокупность для Х₁ является неоднородной.

следовательно, совокупность для Х₂ является неоднородной.

следовательно, совокупность для Y является однородной.

Исследуем нормальность распределения факторного признака Х₁ :

Интервалы значений признака-фактора	Число единиц, входящих в интервал	Удельный вес единиц, входящих в интервал, в общем их числе, %	Удельный вес единиц, входящих в интервал, при нормальном распределении, %
1	2	3	4
(1,6-1,25)-(1,6+1,25) 0,35 – 2,85	22	44	68,3
(1,6-2×1,25) - (1,6+2×1,25) -0,9 – 4,1	49	98	95,4
(1,6-3×1,25) - (1,6+3×1,25) -2,15 – 5,35	50	100	99,7

Таким образом, сопоставляя гр.3 и гр.4 делаем вывод: распределение Х₁ относительно близко к нормальному, но не подчиняется ему.

Исследуем нормальность распределения факторного признака Х₂ :

Интервалы значений признака-фактора	Число единиц, входящих в интервал	Удельный вес единиц, входящих в интервал, в общем их числе, %	Удельный вес единиц, входящих в интервал, при нормальном распределении, %
1	2	3	4
(36,15-34,03)-(36,15+34,03) 2,12 – 70,18	24	48	68,3
(36,15-2×34,03) - (36,15+2×34,03) -31,91 – 104,21	47	94	95,4
(36,15-3×34,03) - (36,15+3×34,03) -65,94 – 138,24	49	98	99,7

Таким образом, сопоставляя гр.3 и гр.4 делаем вывод: распределение Х₂ близко к нормальному, но не подчиняется ему.

Таким образом, проведя анализ на нормальность распределения мы можем отобрать данные не попадающие в диапазон 3х σ. Для ряда Х₁ таких значений нет. Для ряда Х₂ исключаем значение с пробегом 150 тыс. км.

С учетом отфильтрованных по правилу 3х сигм составим интервальные ряды для Х₁ , Х₂ , Y.

Вывод зависимостей результирующего-признака от факторов-признаков

Интервальный ряд для Х ₁
Х ₁	F ₁	Ср. цена тыс.руб.
0-1	21	603
1-2	14	554
2-3	7	522
3-4	4	420
4-5	2	414
5-6	1	379
Интервальный ряд для Х ₂
Х ₂	F ₂	Ср. цена тыс.руб.
0 - 21	25	601
21 - 42	9	551
42 - 63	7	490
63 - 84	2	420
84 - 105	4	466
105 - 126	2	417
Интервальный ряд для Y
Y	F _y	Ср. цена тыс.руб.
379 - 422	4	400,5
422 - 465	5	443,5
465 - 508	4	486,5
508 - 551	8	529,5
551 - 594	12	572,5
594 - 637	6	615,5
637 - 683	10	660

Проведем аналитические группировки продаваемых автомобилей по времени эксплуатации и пробегу и определим групповые средние.

Построим график Y(X₁ )

Зависимость цены от времени эксплуатации существует и носит линейный характер, чем больше время эксплуатации, тем дешевле автомобиль.

Построим график Y(X₂ )

Зависимость цены от пробега существует и носит линейный характер, чем больше пробег автомобиля, тем дешевле автомобиль.

Группировка

На основанииданных статистического наблюдения выделим три типа автомобилей:

· по времени эксплуатации:

o новые автомобили от 0 до 1 года – 34 шт.

o средние автомобили от 2 до 3 лет – 13 шт.

o старые автомобили от 3 до 5 лет – 3 шт.

· по пробегу:

o новые автомобили от 0 до 50 тыс. км. – 36 шт.

o средние автомобили от 50 до 100 тыс.км. – 11 шт.

o старые автомобили от 100 до 150 тыс.км. – 3 шт.

· по цене:

o новые автомобили от 581 до 683 тыс. руб. – 19 шт.

o средние автомобили от 480 до 581 тыс. руб. – 12 шт.

o старые автомобили от 379 до 480 тыс. руб. – 12 шт.

Определение доверительного интервала

Определим доверительный интервал, в котором заключена средняя цена всех продаваемых автомобилей, с вероятностью 0,9.

При вероятности 0,9 t = 1,64

Следовательно:

Таким образом, с вероятностью 0,9 можно утверждать, что средняя цена автомобиля равна:

Определим доверительный интервал, в котором заключена средняя цена всех продаваемых автомобилей, с вероятностью 0,95.

При вероятности 0,95 t = 1,96

Следовательно:

Таким образом, с вероятностью 0,95 можно утверждать, что средняя цена автомобиля равна:

Определим необходимую численность выборки при определении средней цены продаваемых автомобилей, чтобы с вероятностью 0,95 предельная ошибка выборки не превышала 10 тыс.руб.

Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии

На основании выборочного наблюдения оценим степень тесноты связи и проведем оценку ее существенности:

Для определения степени тесноты парной линей зависимости используем линейный коэффициент корреляции(r) :

Для вычисления линейных коэффициентов корреляции составим вспомогательную таблицу:


5	121	379	1,6	36,15	509,8	3,4	84,85	-130,8	-444,72	-11098,4	288,49
4	74	399	1,6	36,15	509,8	2,4	37,85	-110,8	-265,92	-4193,78	90,84
4	88	429	1,6	36,15	509,8	2,4	51,85	-80,8	-193,92	-4189,48	124,44
3	95	393	1,6	36,15	509,8	1,4	58,85	-116,8	-163,52	-6873,68	82,39
3	60	397	1,6	36,15	509,8	1,4	23,85	-112,8	-157,92	-2690,28	33,39
3	54	430	1,6	36,15	509,8	1,4	17,85	-79,8	-111,72	-1424,43	24,99
3	46	459	1,6	36,15	509,8	1,4	9,85	-50,8	-71,12	-500,38	13,79
2	107	455	1,6	36,15	509,8	0,4	70,85	-54,8	-21,92	-3882,58	28,34
2	47	467	1,6	36,15	509,8	0,4	10,85	-42,8	-17,12	-464,38	4,34
2	97	468	1,6	36,15	509,8	0,4	60,85	-41,8	-16,72	-2543,53	24,34
2	60	552	1,6	36,15	509,8	0,4	23,85	42,2	16,88	1006,47	9,54
2	41	565	1,6	36,15	509,8	0,4	4,85	55,2	22,08	267,72	1,94
2	57	570	1,6	36,15	509,8	0,4	20,85	60,2	24,08	1255,17	8,34
2	30	579	1,6	36,15	509,8	0,4	-6,15	69,2	27,68	-425,58	-2,46
2	150	597	1,6	36,15	509,8	0,4	113,85	87,2	34,88	9927,72	45,54
1	75	441	1,6	36,15	509,8	-0,6	38,85	-68,8	41,28	-2672,88	-23,31
1	30	466	1,6	36,15	509,8	-0,6	-6,15	-43,8	26,28	269,37	3,69
1	15	500	1,6	36,15	509,8	-0,6	-21,15	-9,8	5,88	207,27	12,69
1	26	524	1,6	36,15	509,8	-0,6	-10,15	14,2	-8,52	-144,13	6,09
1	22	530	1,6	36,15	509,8	-0,6	-14,15	20,2	-12,12	-285,83	8,49
1	32	539	1,6	36,15	509,8	-0,6	-4,15	29,2	-17,52	-121,18	2,49
1	62	555	1,6	36,15	509,8	-0,6	25,85	45,2	-27,12	1168,42	-15,51
1	14	560	1,6	36,15	509,8	-0,6	-22,15	50,2	-30,12	-1111,93	13,29
1	30	575	1,6	36,15	509,8	-0,6	-6,15	65,2	-39,12	-400,98	3,69
1	88	575	1,6	36,15	509,8	-0,6	51,85	65,2	-39,12	3380,62	-31,11
1	18	600	1,6	36,15	509,8	-0,6	-18,15	90,2	-54,12	-1637,13	10,89
1	18	600	1,6	36,15	509,8	-0,6	-18,15	90,2	-54,12	-1637,13	10,89
1	40	615	1,6	36,15	509,8	-0,6	3,85	105,2	-63,12	405,02	-2,31
1	14	680	1,6	36,15	509,8	-0,6	-22,15	170,2	-102,12	-3769,93	13,29
0	18	510	1,6	36,15	509,8	-1,6	-18,15	0,2	-0,32	-3,63	29,04
0	0	533	1,6	36,15	509,8	-1,6	-36,15	23,2	-37,12	-838,68	57,84
0	0	533	1,6	36,15	509,8	-1,6	-36,15	23,2	-37,12	-838,68	57,84
0	0	541	1,6	36,15	509,8	-1,6	-36,15	31,2	-49,92	-1127,88	57,84
0	0	541	1,6	36,15	509,8	-1,6	-36,15	31,2	-49,92	-1127,88	57,84
0	0	561	1,6	36,15	509,8	-1,6	-36,15	51,2	-81,92	-1850,88	57,84
0	29	570	1,6	36,15	509,8	-1,6	-7,15	60,2	-96,32	-430,43	11,44
0	0	585	1,6	36,15	509,8	-1,6	-36,15	75,2	-120,32	-2718,48	57,84
0	0	590	1,6	36,15	509,8	-1,6	-36,15	80,2	-128,32	-2899,23	57,84
0	0	606	1,6	36,15	509,8	-1,6	-36,15	96,2	-153,92	-3477,63	57,84
0	0	616	1,6	36,15	509,8	-1,6	-36,15	106,2	-169,92	-3839,13	57,84
0	0	640	1,6	36,15	509,8	-1,6	-36,15	130,2	-208,32	-4706,73	57,84
0	0	640	1,6	36,15	509,8	-1,6	-36,15	130,2	-208,32	-4706,73	57,84
0	0	640	1,6	36,15	509,8	-1,6	-36,15	130,2	-208,32	-4706,73	57,84
0	0	643	1,6	36,15	509,8	-1,6	-36,15	133,2	-213,12	-4815,18	57,84
0	10	650	1,6	36,15	509,8	-1,6	-26,15	140,2	-224,32	-3666,23	41,84
0	0	650	1,6	36,15	509,8	-1,6	-36,15	140,2	-224,32	-5068,23	57,84
0	0	661	1,6	36,15	509,8	-1,6	-36,15	151,2	-241,92	-5465,88	57,84
0	0	661	1,6	36,15	509,8	-1,6	-36,15	151,2	-241,92	-5465,88	57,84
0	0	683	1,6	36,15	509,8	-1,6	-36,15	173,2	-277,12	-6261,18	57,84
0	13	600	1,6	36,15	509,8	-1,6	-23,15	90,2	-144,32	-2088,13	37,04
Итого:									-4829,8	-98283,3	1894,15

Тогда

Таким образом, значение линейного коэффициента корреляции = -0,84 свидетельствует о наличии обратной и тесной связи между временем эксплуатации и ценой автомобиля.

Таким образом, значение линейного коэффициента корреляции = -0,63 свидетельствует о наличии обратной и тесной связи между пробегом и ценой автомобиля.

Таким образом, значение линейного коэффициента корреляции = 0,89 свидетельствует о наличии прямой и тесной связи временем эксплуатации и пробегом автомобиля.

Проведем анализ матрицы парных коэффициентов корреляции:

Составим матрицу парных коэффициентов корреляции:

Y	X1	X2
Y	1	-0,84	-0,63
X1	-0,84	1	0,89
X2	-0,63	0,89	1

Так как оба условия не соблюдаются, то для составления уравнения регрессии будем использовать наиболее значимый (весомый) факторный признак, т.е. – X1 (время эксплуатации), т.к. .

Составим уравнение регрессии:

В качестве регрессионной модели выберем линейную модель, которая имеет вид:

Вычислим коэффициенты регрессионного уравнения:

Таким образом, уравнение регрессии примет вид:

Заключение

В ходе исследования были выявлены следующие характеристики взаимосвязи стоимости автомобиля с факторными признаками:

· Стоимость автомобиля линейно зависит от пробега и времени эксплуатации причем эта зависимость обратная для обоих случаев. При увеличении пробега (времени эксплуатации) стоимость автомобиля уменьшается;

· Основным фактором, влияющим на конечную стоимость, является время эксплуатации;

· Выявлена зависимость стоимости автомобиля от времени эксплуатации, которая имеет следующий вид:

Список источников

1) Сайт www.auto.ru.

2) Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики: Учеб. пособие. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2005. – 336 с: ил. ISBN 5-279-02555-0.