Реферат: Функциональная зависимость и регрессия
|
Название: Функциональная зависимость и регрессия Раздел: Рефераты по математике Тип: реферат | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Содержание СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ……………………….…………….…….……..35. Ошибка! Закладка не определена. Глава 1 Корреляционный анализ. 4 1.1 Функциональная, статистическая и корреляционная зависимости.. 4 1.2 Линейная парная регрессия. 4 1.3 Коэффициент корреляции.. 4 1.4 Основные положения корреляционного анализа.4 1.5 Корреляционное отношение и индекс корреляции.. 4 1.6 Понятие о многомерном корреляционном анализе.4 Множественный и частный коэффициенты корреляции.. 4 Глава 2 Регрессионный анализ. 4 2.1. Основные положения регрессионного анализа. Парная регрессионная модель. 4 2.2. Интервальная оценка функции регрессии.. 4 2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели.. 4 2.5. Определение доверительных интервалов. 4 для коэффициентов и функции регрессии.. 4 2.7. Понятие о других методах многомерного статистического анализа.. 4 Список используемых источников.. 4 ВведениеДиалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» - движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине. В практике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности, например, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т.п. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа. Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной. Выше сказанным обусловлена актуальность выбора темы курсовой работы. Цель данной работы – исследовать функциональную зависимость между случайными величинами методами корреляционного и регрессионного анализов. Глава 1 Корреляционный анализ1.1 Функциональная, статистическая и корреляционная зависимостиВ естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой. Функциональная зависимость может иметь место как между детерминированными (неслучайными) переменными (например, зависимость скорости падения в вакууме от времени и т.п.), так и между случайными величинами (например, зависимость стоимости проданных изделий от их числа и т.п.).В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость (связь) получила название статистической (или стохастической, вероятностной). Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п. В силу неоднозначности статистической зависимости между Yи Х для исследователя, в частности, представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения - условного математического ожидания Определение : Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой, называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой. Корреляционная зависимость может быть представлена в виде:
рис. 1.1 Таким образом, из рассмотренных зависимостей наиболее общей выступает статистическая зависимость. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной. Функциональная зависимость представляет частный случай корреляционной. Уравнения (1.1) и (1.2) называются модельными уравнениями регрессии (или просто уравнениями регрессии) соответственно Yпо Х и Х по Y, функции ψ(x) и φ(у) – модельными функциями регрессии (или функциями регрессии), а их графики - модельными линиями регрессии (или линиями регрессии). Для отыскания модельных уравнений регрессии, вообще говоря, необходимо знать закон распределения двумерной случайной величины (Х,Y). На практике исследователь, как правило, располагает лишь выборкой пар значений (
где Аналогично определяется выборочная линия (кривая) регрессии Х по Y:
где Уравнения (1.3), (1.4) называют также выборочными уравнениями регрессии соответственно Yпо Х и Х по Y. При правильно определенных аппроксимирующих функциях Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа – выявление связи между случайными переменными и оценка ее тесноты. 1.2 Линейная парная регрессияДанные о статистической зависимости удобно задавать в виде корреляционной таблицы. Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y(т) и величиной основных производственных фондов Х (млн руб.) для совокупности 50 однотипных предприятий (табл. 1). Для каждого значения, т.е. для каждой строки корреляционной таблицы вычислим групповые средние
где Вычисленные групповые средние Аналогично для каждого значения
вычислим групповые средние По виду ломанной можно определить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая выражается тем точнее чем больше объем выборки n: n= Поэтому уравнение регрессии(1.3) будем искать в виде:
Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии. С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры S= На основании необходимого условия экстремума функции двух переменных S=S(
Откуда после преобразования получим систему нормальных уравнений для определения параметров линейной регрессии:
Учитывая (1.5) преобразуем выражение и с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:
где соответствующие средние определяются по формулам:
Подставляя значение
Коэффициент b1
в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Yпо Х, будем обозначать символом
Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу. Решая систему (1.11), найдем
где
µ - выборочный корреляционный момент: µ= Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:
где
выборочный коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу Так как числители в формулах (1.16) и (1.20) для 1.3 Коэффициент корреляцииПерейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Yот Х является коэффициент регрессии Очевидно, что для «исправления» Представим уравнение (1.15) в эквивалентном виде:
В этой системе величина r = показывает, на сколько величин
Нетрудно видеть, что r совпадает по знаку с Если r > 0 ( Учитывая равенство (1.16), формулу для r представим в виде:
Отсюда видно, что формула для r симметрична относительно двух переменных, т.е. переменные Х и Yможно менять местами. Тогда аналогично формуле (1.24) можно записать:
Найдя произведение обеих частей равенств(1.24) и (1,25), получим:
или
т.е. коэффициент корреляции r переменных Х и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак. Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки n), аналогичные свойствам коэффициента корреляции двух случайных величин . 1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т.е.
В зависимости от того, насколько 2. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится. 3. При r = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по Х и Х по Y совnадают и все наблюдаемые значения располагаются на общей прямой. 4. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат. Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще отсутствии корреляционной, а тем более статистической зависимости. Выборочный коэффициент корреляции r является оценкой генерального коэффициента корреляции ρ (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для ρ. Однако при достаточнобольшом nих можно распространить и на r. 1.4 Основные положения корреляционного анализа.Корреляционный анализ (корреляционная модель)– метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа , как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных (парных, множественных, частных) коэффициентов корреляции. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой. Рассмотрим простейшую модель корреляционного анализа – двумерную. Плотность совместного нормального распределения двух переменных X и Y имеет вид:
ρ- коэффициент корреляции между переменными X и Y, определяемый через кореляционный момент (ковариацию) ρ= Величина ρ характеризует тесноту связи между случайными переменными X и Y. Указанные параметры 1.5 Корреляционное отношение и индекс корреляцииВведенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости. Для получения такого показателя воспользуемся правилом сложения дисперсий:
где
Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от Х. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью Х. Величина
получила название эмпирического корреляционного отношения
Yпо Х.
Чем теснее связь, тем большее влияние на вариацию переменной Y
оказывает изменчивость Х
по сравнению с неучтенными факторами, тем выше
Отметимосновные свойства корреляционных отношений: 1.
Корреляционное отношение есть неотрицательная величина, не превосходящая единицу: 0 2. Если η=0, то корреляционная связь отсутствует. 3. Если η=1, то между переменными существует функциональная зависимость. 4.
Эмпирическое корреляционное отношение
Подобно
Достоинством рассмотренных показателей η и R
является то, что они могут быть вычислены при любой форме связи между переменными. Хотя η и завышает тесноту связи по сравнению с R,
но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения η и R
связаны с коэффициентом корреляции r
следующим образом: 0 В случае линейной модели т.е. зависимости Коэффициент детерминации Чем ближе 1.6 Понятие о многомерном корреляционном анализе.Множественный и частный коэффициенты корреляцииЭкономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных. Пусть имеется совокупность случайных переменных В многомерном корреляционном анализе рассматривают две типовые задачи: а) определение тесноты связи одной из переменных с совокупностью остальных (р – 1) переменных, включенных в анализ; б) определение тесноты связи между переменными при фиксировании или исключении влияния остальных q
переменных, где q
Эти задачи решаются с помощью множественных и частных коэффициентов корреляции. Множественный коэффициент корреляции.
Теснота линейной взаимосвязи одной переменной
Где Множественный коэффициент корреляции заключен в пределах 0 С помощью множественного коэффициента корреляции (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина Частный коэффициент корреляции. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочным частным коэффициентом корреляции
между переменными
Где Частный коэффициент корреляции n' = n–р + 2. Заканчивая краткое изложение, корреляционного анализа количественных признаков, остановимся на двух моментах. 1. Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую – в качестве следствия. Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой (например, зависимость между весом и ростом человека). Наконец, возможна ложная корреляция (нонсенс-корреляция), т.е. Чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними (таких примеров в статистической литературе приводится немало). Поэтому при логических переходах от корреляциионной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений. 2. Не существует общеупотребительного критерия проверки определяющего требования корреляционного анализа - нормальности многомерного распределения переменных. Учитывая свойства теоретической модели, .обычно полагают, что отнесение к совместному нормальному закону возможно, если частные одномерные распределения переменных не противоречат нормальным распределениям (в этом можно убедиться, например, с помощью критериев согласия); если совокупность точек корреляционного поля частных двумерных распределений имеет вид более или менее вытянутого «облака» с выраженной линейной тенденцией. 1.7 Ранговая корреляцияДо сих пор мы анализировали зависимости между количественными переменными, измеренными в так называемых количественных шкалах, Т.е. в шкалах с непрерывным множеством значений, позволяющих выявить, насколько (или во сколько раз) проявление признака у одного объекта больше (меньше), чем у другого. Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки «отлично» И «удовлетворительно», то можно лишь утверждать, что уровень подготовки по этой дисциплине первого студента выше (больше), чем второго, но нельзя сказать, на сколько или во сколько раз больше. Оказывается, что таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) признака присваивается ранг 1, следующему за ним – ранг 2 и т.д. Объекты можно располагать и в порядке убывания проявления (значений) признака. Если объекты ранжированы по двум признакам, то имеется возможность оценить. тесноту связи между признаками, основываясь на рангах, Т.е. тесноту ранговой корреляции. Коэффициент ранговой корреляции Спирмена находится по формуле:
где Если ранги всех объектов равны, то ρ=1, т.е. при полной прямой связи ρ=1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке ρ=- При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными . Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:
где
Коэффициент ранговой корреляции Кендалла находится по формуле:
где K статистика Кендалла. Для определения Kнеобходимо ранжировать объекты по одной переменной в порядке возрастания рангов (1, 2, ... , n) и определить соответствующие их ранги ( Коэффициент конкордации (согласованности) рангов Кендалла W, определяемый по формуле:
где n число объектов; m число анализируемых порядковых переменных;
отклонение суммы рангов объекта от средней их суммы для всех объектов, равной m(n+1)/2. Значения коэффициента W заключены на отрезке т.е. , причем W=1 при совпадении всех ранжировок. Корреляционный анализ может быть использован и при оценке взаимосвязи качественных (категоризованных) признаков (переменных), представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям (например, пол, социальное положение, профессия и т.п.). Здесь в качестве соответствующих показателей могут быть использованы коэффициенты ассоциации, контингеници (сопряженности), бисериальной корреляции. Глава 2 Регрессионный анализ2.1. Основные положения регрессионного анализа. Парная регрессионная модельВ регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной Х, называемой часто объясняющей переменной. Такая зависимость может возникнуть, например, в случае, когда при каждом фиксированном значении X соответствующие значения Y подвержены случайному разбросу за счет действия неконтролируемых факторов. Указанная зависимость Y от X (иногда ее называют регрессионной) может быть представлена также в виде модельного уравнения регрессии (1.1). В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения y будут в большей или меньшей мере отклоняться от функции регрессии Рассмотрим линейный регрессионный анализ, для которого функция
Предположим, что для оценки параметров линейной функции регрессии (2.1) взята выборка, содержащая n пар значений переменных (
Отметим основные предпосылки регрессионного анализа : 1. В модели (2.2) возмущение 2. Математическое ожидание возмущения (или математическое ожидание зависимой переменной M( 3. Дисперсия возмущения
(или D( 4. Возмущения (или переменные и) не коррелированы.
5. Возмущение Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки (т.е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров. Оценкой модели (2.2) по выборке является уравнение регрессии:
Теорема Гауса-Маркова
.
Если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (2.2) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии
где
В знаменателе выражения (2.6) стоит число степеней свободы n—2, а не n, так как две степени свободы теряются при определении двух параметров прямой 2.2. Интервальная оценка функции регрессииПостроим доверительный интервал для функции регрессии, т.е. для условного математического ожидания Найдем дисперсию групповой средней
На рис. 2.1 линия регрессии (2.7) изображена графически. Для произвольного наблюдаемого значения
Дисперсия выборочной средней
Для нахождения дисперсии
тогда
Найдем оценку дисперсии групповых средних (2.8), учитывая (2.9) и (2.11) и заменяя
Исходя из того, что статистика t =
где Из формул (2,12) и (2,13) видно, что величина доверительного интервала зависит от значения объясняющей переменной х: при х = Построенная доверительная область для
а соответствующий доверительный интервал для прогнозов индивидуальных значений
2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной моделиПроверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Дисперсионный анализ применяется как вспомогательное средство для изучения качества регрессионной модели. Согласно основной идее дисперсионного анализа
или
Где Q — общая сумма квадратов отклонений зависимой переменной от средней, a Убедимся в том, что пропущенное в (2.17) третье слагаемое
Теперь
Схема дисперсионного анализа имеет вид, представленный в табл. 2.1 Таблица 2.1
Средние квадраты Замечание . При расчете общей суммы квадратов полезно иметь в виду, что
(формула (2.17') следует из разложения
При отсутствии линейной зависимости между зависимой и объясняющей(ими) переменной(ыми) случайные величины F-распределение с теми же степенями свободы . Поэтому уравнение регрессии значимо на уровне
где Учитывая смысл величин В 1 главе данной работы введен индекс корреляции R (для парной линейной модели — коэффициент корреляции r), выраженный через дисперсии .Тот же коэффициент в терминах «сумм квадратов» примет вид:
Следует отметить, что значимость уравнения парной линейной регрессии может быть проверена и другим способом, если оценить значимость коэффициента регрессии Можно показать, что при выполнении предпосылки 5 регрессионного анализа статистика t = t = имеет t-распределение с k= n— 2 степенями свободы. По этому коэффициент регрессии
Для парной регрессионной модели оценка значимости уравнения регрессии по F-критерию равносильна оценке значимости коэффициента регрессии При построении доверительного интервала для дисперсии возмущении
2.4. Нелинейная регрессияСоотношения между социально-экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Выбор вида уравнения регрессии (8.3) (этот важный этап анализа называется спецификацией или этапом параметризации модели) производится на основании опыта предыдущих исследований, литературных источников, других соображений профессионально-теоретического характера, а также визуального наблюдения расположения точек корреляционного поля. Наиболее часто встречаются следующие виды уравнений нелинейной регрессии: полиномиальное
Например, если исследуемый экономический показатель у при росте объема производства х состоит из двух частей — постоянной (не зависящей от х) и переменной (уменьшающейся с ростом х), то зависимость у от х можно представить в виде гиперболы При исследовании степенного уравнения регрессии следует иметь в виду, что оно нелинейно относительно параметров Для определения неизвестных параметров , 2.5. Определение доверительных интерваловдля коэффициентов и функции регрессииВесьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии
или для условного математического ожидания зависимой переменной Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для
где
ее стандартная ошибка. При обобщении формул (2.15) и (2.14) аналогичный доверительный интервал для индивидуальных значений зависимой переменной
где Доверительный интервал для дисперсии возмущений
Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения. В экономических исследованиях исключению переменных из регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели одну или несколько объясняющих переменных, не оказывающих существенного (значимого) влияния на зависимую переменную. 2.6. МультиколлинеарностьПод мултиколлинеарностью понимается высокая взаимная коррелированностъ объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица Х'Х особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т.е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица Х'Х в этом случае является неособенной, но ее определитель очень мал. В то же время вектор оценок b и его ковариационная матрица К в соответствии с формулами пропорциональны обратной матрице Оценки 2.7. Понятие о других методах многомерного статистического анализаМногомерный статистический анализ определяется как раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных, направленных на выявление характера и структуры взаимосвязей между компонентами исследуемого признака и предназначенных для получения научных и практических выводов. Многомерные статистические методы среди множества возможных вероятностно-статистических моделей позволяют обоснованно выбрать ту, которая наилучшим образом соответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании ограниченного статистического материала. С некоторыми разделами многомерного статистического анализа, такими, как многомерный корреляционный анализ, множественная регрессия, многомерный дисперсионный анализ. Приведем теперь краткий обзор ряда других методов многомерного статистического анализа, которые уже нашли отражение в статистических пакетах прикладных программ. В первую очередь следует выделить методы, позволяющие выявить общие (скрытые или латентные) факторы, определяющие вариацию первоначальных факторов. К ним относятся факторный анализ и метод главных компонент. Факторный анализ
. Основной задачей факторного анализа является переход от первоначальной системы большого числа взаимосвязанных факторов Модель факторного анализа записывается в виде:
где
Первое слагаемое в модели — неслучайная составляющая, другие два слагаемых случайные составляющие. Особенностью факторного анализа является неоднозначность определения общих факторов. Метод главных компонент (компонентный анализ). В отличие от рассматриваемых в факторном анализе общих факторов, которые обусловливают большую (но не всю) часть вариации первоначальных факторов, главные компоненты объясняют всю вариацию и определяются однозначно. Модель главных компонент имеет вид:
Как видим, в модели отсутствуют характерные факторы, так как главные компоненты Дискриминантный анализ позволяет отнести объект, характеризующийся значениями m признаков, к одной из l совокупностей (классов, групп), заданных своими распределениями. Предполагается, что l совокупностей заданы выборками (называемыми обучаемыми), которые содержат информацию о статистических распределениях совокупностей в m-мерном пространстве признаков. При отсутствии обучающих выборок могут быть использованы методы кластерного анализа
, позволяющие разбить исследуемую совокупность объектов на группы «схожих» объектов, называемых кластерами, таким образом, чтобы объекты одного класса находились на «близких» расстояниях между собой, а объекты разных классов — на относительно «отдаленных» расстояниях друг от друга. При этом каждый объект ЗаключениеВ 1 главе данной работы были введены понятия функциональной, статистической и корреляционной зависимости. Разобраны методы определения линейной парной регрессии, коэффициента корреляции. Установлены основные свойства коэффициента корреляции, также сформулирована основная задача корреляционного анализа и основные свойства корреляционных отношений. Во 2 главе настоящей работы приводятся основные положения регрессионного анализа. Указываются методы нахождения интервальной оценки функции регрессии и характеров парной модели. Методы корреляционного и регрессионного анализа не действуют изолированно. При решении практических задач используют их совместно. В приложении 1 эти методы применяются для установления линейной зависимости между ценообразованием однотипных продуктов в магазинах юго-западных районов Брянщины. В результате исследования между ценами на продукты (яблоки, апельсины) линейной зависимости установлено не было (коэффициент r=-0.03). Список используемых источников1. Кремер, Н.Ш. Теория вероятностей и математическая статистика [Текст] / Н.Ш.Кремер. – 3-е изд., перераб. и. доп. – М.:ЮНИТИ-ДАНА, 2009. – 551 с. – (Серия «золотой фонд российских учебников»). ISBN 978–5–238–01270–4 2. Шамолин, М.В. Высшая математика [Текст] / М.В.Шамолин –М.: Издательство «Экзамен», 2008. – 909,[3] с. (Серия «Учебник для вузов») ISBN 978–5–377–01452–2 3. Бочаров,П.П. Теория вероятности. Математическая статистика. [Текст] / П.П.Бочаров, А.В.Печинкин – М.:Гардарика, 1998. – 328 с. ISBN 5–7762–0035–0 4. Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст]: учеб. пособие для вузов / В.Е. Гмурман. – изд. 6-е, стер. – М.: Высшая школа, 1998–479 с. ISBN 5–06–003464–X 5. Солодовников, А.С. Теория вероятностей [Текст]: учеб. пособие для студ. пед. ин-тов по матемюспец. / А.С.Солодовников. – М.: Просвещение, 1983. – 207 с. Приложение 1В данном приложении выявлялась существования линейной зависимости между ценами на фрукты (апельсины яблоки) в магазинах г. Новозыбков, г. Клинцы, г. Злынка. В результате были собраны сведения о ценах на указанные продукты в 30 магазинах. Собранные сведения содержатся в таблице1
В которой: x(руб.) – цена за 1 кг яблок, y(руб.) – цена за 1 кг апельсин,
Для каждого значения, т.е. для каждой строки корреляционной таблицы вычислим групповые средние по формуле: Вычисленные групповые средние Аналогично для каждого значения Строим кривые по точкам
Находим
Находим среднее значение переменной X по формуле
Находим выборочную дисперсию переменной X по формуле:
Аналогично находим
Считаем коэффициент ковариации для переменных X и Y для этого составляем таблицу:
Cov(x,y)= Определяем коэффициенты регрессии Yна Xи Xна Yпо формулам:
Прямая регрессии Yна X имеет уравнение:
Прямая регрессии Xна Y имеет уравнение:
Построим прямые регрессии совместно с эмпирической линией регрессии Y по Xи с линией регрессии Xна Y.
Определим коэффициента корреляции формуле: Если r Приложение 2РОССИЙСКАЯ ФЕДЕРАЦИЯ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ Государственное образовательное учреждение высшего профессионального образования БРЯНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени академика И.Г.Петровского филиал БГУ в г. Новозыбкове Кафедра математики, физики и информатики Курсовая работа на тему: «Функциональная зависимость и регрессия» Выполнил: студент 402 группы Иволга Василий Анатольевич Научный руководитель: кандидат физико-математических наук, доцент кафедры МФИ Савичева Галина Владимировна Новозыбков 2010 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Предполагается, что φ(x)≠const и ψ(x)≠const, т.е. если при изменении х или у уcловные математические ожидания
(Y) и
– условная (групповая) средняя переменной Yпри фиксированном значении переменной Х = х;
-параметры кривой.
(В таблице через
и
обозначены середины соответствующих интервалов, а через
, и
) и
; m – число интервалов по переменной Y.
, l – число интервалов по переменной X.
(1.7)
(1.8)
(1.9)
(1.10)
. Теперь уравнение регрессии Yпо Х запишется так:
(1.21)
На рис. 1.2 приведены две корреляционные зависимости переменной Yпо Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).
(1.26)
или
(1.30)
(1.36)
(1.38).
(1.41)
(1.43)
;
;
(1.46)
(2.3)
Дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых выражения (2.7) :
(2.11)
(2.12)
(2.14)
(2.16)
и
(
(2.19)
(2.19)
, a доверительный интервал для 
. Если же показатель у отражает экономический процесс, который под влиянием фактора х происходит с постоянным ускорением или замедлением, то применяются полиномы. В ряде случаев для описания экономических процессов используются более сложные функции. Например, если процесс вначале ускоренно развивается, а затем, после достижения некоторого уровня, затухает и приближается к некоторому пределу, то могут оказаться полезными логистические функции типа у = 
а значит, их элементы обратно пропорциональны величине определителя
. Скажем, производительность труда на предприятиях зависит от множества факторов из которых многие связаны между собой. Используя факторный анализ, можно установить влияние на рост производительности труда лишь нескольких обобщенных факторов непосредственно не наблюдавшихся.
, i=1,2,…,m, k
,
i=1,2,…m.
– частота.
) и
; m – число интервалов по переменной Y
, l – число интервалов по переменной X. Вычисленные групповые средние 
)
=43.67
5.36
=59,
3.2
-0.04