Реферат: Построение и графическое изображение вариационных рядов
Название: Построение и графическое изображение вариационных рядов Раздел: Рефераты по маркетингу Тип: реферат | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
САРАТОВСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ ИМ. Н.И. В АВИЛОВА КАФЕДРА ЭКОНОМИЧЕСКОЙ КИБЕРНЕТИКИ РАСЧЕТНО-ГРАФИЧЕСКАЯ РАБОТА ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ Выполнила студент III курса группы Б-303 Хуртов Денис Саратов 2009 г. Таблица исходных данных. Вариант № 46
Х – независимый признак; У – зависимый признак. Оглавление Введение…………………………………………………………………………...4Глава 1. Построение и графическое изображение вариационных рядов. 1.1 Порядок построения вариационных рядов………………………………….5 1.2. Графическое изображение дискретных вариационных рядов……………6 1.3. Графическое изображение интервальных вариационных рядов………….6 Глава 2. Статистические характеристики рядов распределения. 2.1. Показатели центра распределения……………………………………….….7 2.2. Показатели колеблемости признака……………………………………….8 2.3. Показатели формы распределения……………………………..…………..9 2.4. Построение нормальной кривой по эмпирическим и теоретическим данным……………………………………………………………………………10 2.5. Проверка гипотезы о законе нормального распределения……………….11 2.6. Проверка гипотезы о законе нормального распределения по критерию Пирсона с помощью табличного процессора Excel………………………...…11 2.7. Статистические оценки параметров распределения…………………...…13 2.8. Статистические оценки параметров распределения……………………...14 Глава 3. Корреляционно – регрессионный анализ. 3.1. Выбор типа аппроксимирующей функции…………………………….….16 3.2. Исследование корреляционной связи и оценка степени пригодности полученного корреляционного уравнения……………………………………..18 3.3. Вычисление показателей тесноты корреляционной связи……………….19 3.4. Проведение регрессионного анализа с помощью инструмента Регрессия ………………………………………………………………………...19 Глава 4. Дисперсионный анализ. 4.1. Понятие дисперсионного анализа……………………………………….…20 4.2. Однофакторный дисперсионный анализ…………………………………..20 Список литературы……………………………………………………………....21 Приложения……………………………………………………………………...22 ВведениеРасчетно-графическая работа (РГР) предполагает применение основных приемов статистики для обработки массовой социально – экономической информации. Программное обеспечение современных персональных компьютеров позволяет автоматизировать процесс расчетов. Наиболее эффективно использовать для этой цели табличный процессор Excel. Excel предлагает широкий диапазон средств для анализа статистических данных. Такие встроенные функции, как СРЗНАЧ, МЕДИАНА, МОДА, могут быть полезны для проведения несложного анализа. Если встроенных статистических функций недостаточно, то можно обратиться к Пакету анализа. Пакет анализа, являющийся надстройкой, содержит коллекцию функций и инструментов, расширяющих встроенные аналитические возможности Excel. В частности, пакет анализа можно использовать для создания гистограмм, ранжирования данных, извлечения случайных или периодических выборок из выбора данных, проведения регрессионного анализа, получения основных статистических характеристик выборки, генерации случайных чисел с различным распределением и для многих других расчетов. Глава 1. Построение и графическое изображение вариационных рядов. 1.1 Порядок построения вариационных рядов Данная работа выполнена на демонстрационном примере в пакете Excel.Составление вариационных рядов рассмотрим на примере данных о бонитете почв и урожайности овощей (Таблица исходных данных). Они являются исходными данными для демонстрационного примера. Дискретный вариационный ряд строится по зависимому признаку (обозначим его У), интервальный - по независимому (Х). Для того чтобы составить дискретный вариационный ряд урожайности овощей, необходимо расположить наблюдавшиеся значения признака в порядке возрастания, т.е. ранжирование статистических данных, а затем подсчитать частоты (сколько раз встречается то или иное значение признака). Для графического изображения дискретного ряда служит многоугольник (полигон). При его построении на оси абсцисс откладываются варианты, на оси ординат - частоты. Построение интервального вариационного ряда рассматривается на примере бонитета почв различных хозяйств. Для этого: 1 . Определим число групп (число интервалов) по формуле Стерджесса: K=1+3.32*lg (n), где: К-число групп (интервалов); n- число единиц наблюдения. В данном примере K=1+3.32*lg(30) = 6. 2. Рассчитываем величину интервала, т.е. разность между верхним и нижним значением признака в группе: Величина интервала (шаг): 3. Формируем группы, т.е. устанавливаем верхние и нижние границы для каждого интервала. Нижней границей для первой группы будет xmin (или эта величина, уменьшенная не более чем на половину величины интервала). Чтобы найти верхнюю границу, нужно к нижней границе прибавить величину интервала h. Верхняя граница первой группы будет нижней границей для второго интервала. Чтобы найти верхнюю границу, к полученному значению опять прибавляют величину интервала и т.д. 4. Подсчитываем число вариант, попавших в каждый интервал, Варианты, совпадающие с границами частичных интервалов, включаются в правый интервал. Графически интервальный ряд изображают с помощью гистограммы. Глава 2. Статистические характеристики рядов распределения. 2.1. Показатели центра распределения . Средней в статистике называется показатель, характеризующий типичный размер признака в совокупности. Средняя арифметическая вычисляется по формулам: простая ; взвешенная , где - среднее значение признака; - варианты; - частоты; - численность совокупности. Характеристиками вариационных рядов наряду со степенными средними являются мода и медиана. Мода - величина признака (варианта), наиболее часто повторяющаяся в изучаемой совокупности. В дискретных рядах распределения модой будет варианта с наибольшей частотой. В интервальном ряду мода определя6ется по формуле: , где -нижняя граница интервала, содержащего моду; - величина модального интервала; - частота модального интервала; - частота интервала, предшествующего модальному; - частота послемодального интервала. Медианой в статистике называется варианта, расположенная в середине вариационного ряда. Если ряд дискретный имеет нечётное число, то медианой будет варианта, расположенная в середине упорядоченного ряда и её порядковый номер. Если ряд состоит из чётного числа членов, то медианой будет средняя арифметическая из двух вариант в середине ряда с порядковыми номерами: и . В интервальном ряду медиана рассчитывается по формуле: где - нижняя граница медианного интервала; - величина медианного интервала; - сумма накопленных частот, предшествующих медианному интервалу; -частота медианного интервала. 2.2. Показатели колеблемости признака. Для измерения колеблемости признака применяются абсолютные и относительные показатели вариации. Размах вариации - это разность между максимальным и минимальным значениями изучаемого признака. R = x max -x min Среднее линейное отклонение - средняя арифметическая из модулей абсолютных отклонений вариантов от их среднего значения. Дисперсия - это средний квадрат отклонений вариантов от их средней арифметической. Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии. Коэффициент осцилляции – отношение размаха вариации к средней арифметической:. Относительное линейное отклонение – отношение среднего линейного отклонения к средней: . Коэффициент вариации – отношение среднего квадратического отклонения к средней: . 2.3. Показатели формы распределения. В статистике широко известны различные виды распределений - нормальное распределение, биноминальное, распределение Пуассона и др. Наиболее употребительным является нормальное распределение , выражающее закономерности взаимодействия случайных величин. Оно служит удачной моделью, с которой сравнивают анализируемое эмпирическое распределение. Если расхождения не велики, то их объясняют действием случайных факторов и считают данное распределение близким к нормальному. В противном случае делают вывод о несоответствии рассматриваемого распределения нормальному. Чтобы определить, насколько близко эмпирическое распределение к нормальному, необходимо произвести выравнивание фактического распределения по кривой нормального распределения. С этой целью рассчитываются теоретические частоты по формуле: , где – теоретические частоты; - фактические частоты; - шаг (величина интервала); - нормированные отклонения; - дифференциальная функция Лапласа (значения даны в приложении 1). 2.5. Проверка гипотезы о законе нормального распределения. Для объективной оценки степени соответствия эмпирического распределения теоретическому используется ряд особых показателей, называемых критериями согласия. На их базе проверяется гипотеза о законе нормального распределения. Это критерии Пирсона, Колмогорова, Смирнова и др. Мы рассмотрим критерий Пирсона. Критерий Пирсона определяется по формуле: Рассчитанное значение сравнивается с табличным при соответствующем числе степени свободы и заданном уровне значимости. Если расчетное значение χ2 меньше табличного, то делается вывод о несущественности расхождений между эмпирическим и теоретическим распределении (т.е. нулевая гипотеза о том, что распределение подчиняется закону нормального распределения, принимается). Рассматриваемые критерии согласия дают общую оценку степени близости эмпирического распределения к нормальному, но не дают информации о характере расхождения между ними. Для определения характера расхождения между эмпирическими и теоретическими частотами определим показатели формы распределения. Это коэффициент асимметрии и эксцесса. Коэффициент асимметрии рассчитывается по формуле: При симметрическом распределении КА = 0. При КА > 0 - наблюдается положительная или правосторонняя асимметрия (правая часть кривой длиннее). Примечание. Коэффициент асимметрии находится в интервале: -3 < КА < 3. Островершинность распределения характеризуется при помощи коэффициента эксцесса: где m4 - центральный момент четвёртого порядка; При Ex > 0 кривая распределения – плосковершинна, при Ex <= 0 – островершинна. 2.7. Статистические оценки параметров распределения. Изучаемую совокупность можно считать выборкой из генеральной совокупности. По данным выборки производится оценка параметров генеральной совокупности. Статистической оценкой называется специальная функция, вычисляемая на основании выборочных данных для приближенной замены неизвестного параметра распределения или самого распределения. Различают оценки смещённые и несмещённые, точечные и интервальные. Возможное расхождение между выборочными и генеральными характеристиками составляет ошибку выборки. Стандартная ошибка выборочной средней определяется по формуле: Ошибка среднего квадратического отклонения Ошибка коэффициента вариации
Точечной, несмещённой и состоятельной оценкой генеральной средней является выборочная средняя Для определения интервальной оценки необходимо найти доверительный интервал , , где - предельная ошибка выборочной средней; - коэффициент доверия, который определяют по таблице распределения Стьюдента по заданным и при малой выборке при n <= 30 (приложение 3). Достоверность любого параметра оценивается по критерию достоверности t, определяемого как отношение оцениваемого параметра к ошибке. Если tфакт > tкр , определяемого по таблице распределения Стьюдента, то данный параметр достоверен. Достоверность выборочной средней : Достоверность среднего квадратического отклонения и коэффициент вариации: и Определяется по формуле: Если данная величина меньше 5%, то полученные средние можно использовать в последующих расчётах характеристик изучаемой совокупности. Вывод: Характер расхождения между эмпирическими и теоретическими частотами: · Коэффициент асимметрии КА > 0 для параметра У, следовательно у него наблюдается положительная или правосторонняя асимметрия (правая часть кривой длиннее), для параметра Х КА >0, следовательно у него наблюдается отрицательная или левосторонняя ассиметрия. · Коэффициент эксцесса Ex > 0 для Х и У, значит кривая распределения – плосковершинная. Стандартная ошибка выборки максимально возможные расхождения между генеральными и выборочными характеристиками. 0,0343 дляпараметраХи 3,2168 – для У. Относительная ошибка выборки для параметров Х и У меньше 5 %, значит полученные средние можно использовать для характеристики каждого из этих признаков. Глава 3. Корреляционно – регрессионный анализ. 3.1. Выбор типа аппроксимирующей функции В экономических исследования редко приходится иметь дело с точными и определенными функциональными связями, когда каждому значению одной величины соответствует строго определённое значение другой величины. Чаще встречаются стохастические (вероятностные) или корреляционные связи. В следующем разделе работы с помощью программы Excel проводится исследование корреляционной связи. При изучении корреляционных связей возникает необходимость решить две основные задачи – о тесноте и о форме связи. Первая решается методом корреляции, вторая – методом регрессии и дисперсии. По форме корреляционная связь может быть линейной и нелинейной, по направлению – прямой и обратной. Для анализа линейной корреляции между признаками Х и Y проводят n независимых парных наблюдений , исходом каждого из которых является пара чисел ( X1 ,Y1 ), ( X2 ,Y2 ),… ( Xn ,Yn ). По этим значениям определяют выборочные эмпирические коэффициенты корреляции и регрессии, рассчитывают уравнение регрессии, строят теоретическую линию регрессии и оценивают значимость полученных результатов. В MSExcel линия уравнения регрессии называется линией тренда , которая показывает тенденцию изменения данных и служит для составления прогнозов. Для создания линии тренда на основе диаграммы используется один из пяти типов аппроксимаций или линейная фильтрация. Тип Описание Линейная y = m*x+ b где m – тангенс угла наклона, b – точка пересечения с осью ординат Логарифмическая y = c*ln(х) + b где c и b – константы Полиномиальная y = c6 x6 +…+ c1 x+b где c6 ,… c1 и b – константы Степенная y = c*xb где c и b – константы Экспоненциальная y = c*ebx где c и b – константы На диаграмме можно выделить любой ряд данных и добавить к нему линию тренда. Когда линия тренда добавляется к ряду данных, она связывается с ним, и поэтому при изменении значений любых точек ряда данных линия тренда автоматически пересчитывается и обновляется на диаграмме. Кроме того, имеется возможность выбирать точку, в которой линия тренда пересекает ось ординат, добавлять к диаграмме уравнение регрессии и величину достоверности аппроксимации. Покажем построение линии тренда на нашем демонстрационном примере на основе исходных данных: время уборки и урожайность. Данный анализ проводится на основе диаграммы для пяти типов аппроксимаций, и выбираем ту линию тренда, для которой величина достоверности аппроксимации наибольшая, т.е. у которой самый наибольший коэффициент корреляции. Квадрат коэффициента корреляции равен 0,8572. Уравнение данной зависимости имеет вид: Ух = 58,964х2 -88,707х+112,8 Для оценки степени пригодности полученного корреляционного уравнения в практических целях необходимо проверить его достоверность. Рассчитываем ошибку уравнения по формуле: где Yi - фактическое значение результативного признака, в демонстрационном примере – это Уфакт.; Yх - значения результативного признака, рассчитанные по уравнению регрессии, в демонстрационном примере – это Урасчетн.; n –число наблюдений, m- число параметров уравнения регрессии. Значения Yх рассчитываются по уравнению регрессии путем подставления в него значений фактического признака (х). В РГР необходимо подсчитать ошибку уравнения для всех видов зависимостей, найти относительную ошибку уравнения, а также выявить минимальную ошибку уравнения регрессии, и убедиться, что она соответствует той зависимости, у которой самый высокий коэффициент аппроксимации (R2 ). Минимальная ошибка уравнения равна 5,308431. Она соответствует линейной зависимости, у которой самый высокий коэффициент аппроксимации (R2 ), равный 0,8572. Глава 4. Дисперсионный анализ. 4.1. Понятие дисперсионного анализа В основе дисперсионного анализа лежит правило сложения дисперсий. В соответствии с ним общая дисперсия результативного признака при сгруппированных данных равна сумме межгрупповой и внутригрупповой дисперсий. Межгрупповая вариация результативного признака вызвана влиянием на него одного или нескольких изучаемых факторных признаков. Дисперсию, измеряющую межгрупповую вариацию, называют межгрупповой или факторной. Внутригрупповая вариация является результатом влияния на результативный признак неучтенных факторов. Показатель, характеризующий внутригрупповую вариацию, называется внутригрупповой или остаточной дисперсией. Весь объём вариации результативного признака характеризуется общей дисперсией. Идея дисперсионного анализа заключается в сравнении факторной дисперсии с остаточной. Отношение факторной дисперсии к остаточной носит название F- критерия или критерия Фишера и используется для оценки достоверности связи между результативным и факторными признаками. Если различие между факторной и остаточной дисперсиями значимо, то делается вывод о том, что фактор оказывает существенное влияние на результативный признак Список литературы 1. Венецкий И.Г., Кильдишев В.С. Теория вероятностей и математическая статистика. М.: Статистика, 1975. 2. Ефимова М.Р., Рябцев В.М. Общая теория статистики. М.: Финансы и статистика, 1991. 3. Марк Джон, Крейг Стинсон. Эффективная работа с MicrosoftExcel 2000. СПб.: Питер 2001. 4. Блаттнер Патрик. Использование MicrosoftExcel 2002. М.: Издательский дом «Вильямс», 2002. Приложение 1. Значение дифференциальной функции Лапласа
Приложение 2.Критические точки распределения x 2
Приложение 3.Критические точки распределения Стьюдента
|