Содержание


Исходные данные.. 3

1. Описательная статистика.. 4

1) Группировка данных. 4

2) Оценка центральной тенденции. 5

3) Оценка разброса. 5

2. Корреляционный и регрессионный анализ. 7

3. Линейная модель ................ 9

4. Временной ряд.. 11

Список литературы... 12

ПРИЛОЖЕНИЯ

Исходные данные

В настоящей работе с помощью программы EXCEL составим описательную статистику для двух массивов данных – зависимость величины заработной платы (в рублях) от стажа работы – сотрудников компании ООО «Техномикс-Сервис», расположенной по адресу г. Новосибирск, Красный проспект, 50. За массив Х примем данные о стаже работы, массив Y – величины заработной платы сотрудников:

Исходные данные:

Зарплата

Стаж

Зарплата

Стаж

Зарплата

Стаж

Зарплата

Стаж

4500

2

7500

5

6000

7

4500

1

8000

1

6000

4

8000

5

7000

2

10000

5

6000

7

5000

4

9000

1

7000

7

10000

8

9000

2

7000

2

5000

8

7500

5

7500

1

6500

1

6500

2

5000

4

6500

2

8000

2

6000

1

6500

2

9000

1

5000

1

4500

1

4500

1

10000

2

4500

2

7500

4

7000

4

9000

1

10000

1

6500

2

7500

5

5000

2

8000

2


Для экономии места в тексте работы таблицу приведем в четыре столбика, а не в один, как в из EXCEL-файле.

1. Описательная статистика

Описательная статистика позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Процедуры здесь сводятся к группировке данных по их значениям, построению распределения их частот, выявлению центральных тенденций распределения (например, средней арифметической) и, наконец, к оценке разброса данных по отношению к найденной центральной тенденции.

1) Группировка данных

Для группировки необходимо прежде всего расположить данные каждой выборки в возрастающем порядке. Для этого необходимо выделить оба массива данных и нажать кнопку  – группировка данных по возрастанию. В результате получим:


Зарплата

Стаж

Зарплата

Стаж

Зарплата

Стаж

Зарплата

Стаж

4500

2

6000

1

7000

4

8000

2

4500

1

6000

4

7000

2

8000

2

4500

1

6000

7

7000

2

9000

2

4500

1

6000

7

7500

4

9000

1

4500

2

6500

2

7500

5

9000

1

5000

8

6500

2

7500

5

9000

1

5000

4

6500

2

7500

5

10000

5

5000

4

6500

2

7500

1

10000

8

5000

2

6500

1

8000

1

10000

2

5000

1

7000

7

8000

5

10000

1


Первичная группировка состоит в том, что данные о заработной плате группируются по частотам:

Зарплата

4500

5000

6000

6500

7000

7500

8000

9000

10000

Частота

5

5

4

5

4

5

4

4

4


Для наглядности представим данные графически с помощью гистограммы и полигона частот. Для этого вызовем в Excel Мастер диаграмм по пути Вставка / Диаграмма. После вызова соответствующих диаграмм получим:


2) Оценка центральной тенденции

Для описания центральной тенденции используются три показателя – мода, медиана и средняя арифметическая (далее просто средняя).

Мода (Мо) — это самый простой из всех трех показателей. Она соответствует наиболее частому значению. Медиана – центральное значение в ранжированном по возрастанию ряде значений заработной платы.

Для вычисления моды в EXCEL выделим массив данных по зарплате и вызовем Вставка / Функция / Статистические / МОДА. Аналогично вычислим медиану и среднюю: Вставка / Функция / Статистические / МЕДИАНА и Вставка / Функция / Статистические / СРЗНАЧ.

Результат: Мо=4; Ме=7000; М=6937,5.


3) Оценка разброса

Чаще всего для оценки разброса определяют отклонение каждого из полученных значений от средней, обозначаемое буквой d, а затем вычисляют среднюю арифметическую всех этих отклонений. Чем она больше, тем больше разброс данных и тем более разнородна выборка. Напротив, если эта средняя невелика, то данные больше сконцентрированы относительно их среднего значения и выборка более однородна.

Итак, первый показатель, используемый для оценки разброса, — это среднее отклонение. Для его вычисления в Excel вызываем функцию Вставка / Функция / Статистические / СРОТКЛ. Результат: 1390,625.

Вызовом функции Вставка / Функция / Статистические / КВАДРОТКЛ найдем квадратичное отклонение. Результат: 113593750.

Вызовом функции Вставка / Функция / Статистические / ДИСП найдем дисперсию. Результат: 2912660,3

Вызовом функции Вставка / Функция / Статистические / КОРЕНЬ найдем среднеквадратичное отклонение как квадратный корень из дисперсии. Результат: 1706,6518.


Основной результат вычисления этих описательных статистик то, что большинство значений (а именно, 68,3% – правило 1s) заработной платы находятся в диапазоне

6937,5±1706,6518.


2. Корреляционный и регрессионный анализ


Поскольку в настоящей работе исследуем зависимость заработной платы от стажа, то считаем стаж – независимой переменной, зарплату – зависимой, и сгруппируем числовые ряды в порядке возрастания стажа:

Х - стаж

Y - зарплата

Х - стаж

Y - зарплата

Х - стаж

Y - зарплата

Х - стаж

Y - зарплата

1

4500

1

9000

2

7000

5

7500

1

4500

1

10000

2

8000

5

7500

1

4500

2

4500

2

8000

5

7500

1

5000

2

4500

2

9000

5

8000

1

6000

2

5000

2

10000

5

10000

1

6500

2

6500

4

5000

7

6000

1

7500

2

6500

4

5000

7

6000

1

8000

2

6500

4

6000

7

7000

1

9000

2

6500

4

7000

8

5000

1

9000

2

7000

4

7500

8

10000

 

Основными показателями при проведении корреляционного анализа является коэффициент корреляции.

Вызовом функции Вставка / Функция / Статистические / КОРРЕЛ найдем коэффициент линейной корреляции между стажем и заработной платы. Результат: 0.04496. Это число означает, что связь между стажем и зарплатой в рассматриваемой организации очень слабая – всего 4,496%.

Регрессионный анализ в Exel

Microsoft Excel позволяет заполнить ячейки рядом значений, соответствующих простой линейной или экспоненциальной зависимости. Прогнозируемые значения определяются на основе начальных данных, указанных на листе. Чтобы экстраполировать данные в соответствии с линейной зависимостью Microsoft Excel прибавляет или вычитает постоянную величину, равную разности указанных начальных значений. В случае экспоненциальной зависимости Microsoft Excel умножает начальные значения на указанную постоянную величину.

Одной из встроенных в Excel функций для регрессивного анализа является функция ПРЕДСКАЗ. Эта функция позволяет сделать прогноз, применяя линейную регрессию диапазона известных данных или массивов (x,y). В нашем случае максимальный стаж работы, рассматриваемый в исходных данных – 8 лет. Спрогнозируем заработную плату сотрудника с девятилетним стажем работы. Вызовом функции Вставка / Функция / Статистические / ПРЕДСКАЗ получим результат: 7149,457 руб.


3. Линейная модель


Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

В предыдущей задаче с помощью метода наименьших квадратов (с помощью функции ПРЕДСКАЗ) выполнялся прогноз заработной платы некоторого сотрудника. В этом пункте в явном виде получим ту линейную модель, по которой выполняет прогноз функция ПРЕДСКАЗ. Для наглядности сразу будем представлять процесс прогнозирования в графическом виде.

Вызываем по пути Вставка / Диаграмма диаграмму «Точечная».

Затем построим эллипс рассеивания:

Затем с помощью вызова Диаграмма / Добавить линию тренда выбираем линейный тренд и во вкладке «Параметры» указываем, что нам нужно уравнение тренда:

 

В результате получим линию тренда и уравнение линейной регрессии:

Как видим, линейная модель  в случае нашей задачи имеет вид:

.

Для проверки осуществим прогноз для  х = 9:

 руб., что с хорошей точностью совпадает с прогнозом 7149,457 руб. из предыдущего пункта.

4. Временной ряд


Исследование временных рядов в Excel принципиально не отличается от исследования любых других массивов данных. Ряды называются временными потому, что одна из переменных (Х или Y) является временем, и исследуется зависимость какого-нибудь показателя от времени (его изменение во времени).

Для примера проведем в Excel анализ заработной платы некоторого сотрудника ООО «Техномикс» в течение 40 месяцев. Месяцы будем нумеровать от 1 до 40. Данные о размере заработной платы этого сотрудника:

Месяцы

Зарплата

Месяцы

Зарплата

Месяцы

Зарплата

Месяцы

Зарплата

1

5000

11

5896

21

6789

31

7682

2

5000

12

5986

22

6879

32

7771

3

5300

13

6075

23

6968

33

7861

4

5300

14

6164

24

7057

34

7950

5

5300

15

6254

25

7146

35

8039

6

5500

16

6343

26

7236

36

8129

7

5500

17

6432

27

7325

37

8218

8

5629

18

6521

28

7414

38

8307

9

5718

19

6611

29

7504

39

8396

10

5807

20

6700

30

7593

40

8486


С помощью пакета Excel представим эти данные графически, а также поместим на диаграмму линию степенного сглаживания и запросим степенное уравнение тренда – с помощью этого уравнения можно прогнозировать размер заработной платы этого сотрудника в последующие месяцы его работы.

Список литературы


1)          Волков О.И.  “Статистические методы исследования”. Москва. Издательство “ИНФРА” 2001 г.

2)          “Информационные технологии: Учебное пособие”. Под редакцией Ю.М. Черкасова. Москва. Издательство “ИНФРА-М”. 2002 г.

3)          “Информатика”. В. А. Острейковский. Москва. Издательство “Высшая школа”. 2002 г.

4)          “Информатика: Учебник”  Под ред. проф. Н.В. Макаровой. Москва. Издательство “Финансы и статистика”. 1998 г.

5)          “Excel 2000. Учебное пособие”. Под ред. А. К. Волкова. Москва. Издательство “ИНФРА-М”. 2001 г.

6)          “Эконометрика. Учебное пособие для экономических факультетов”. Под ред. А.Р. Семенова. Москва. Издательство “Финансы и статистика”. 2000 г.