Реферат: Статистическое моделирование
Название: Статистическое моделирование Раздел: Рефераты по математике Тип: реферат | |||||||||||
Содержание Введение 1. Выборочный метод 2. Статистическая оценка законов распределения 3. Основные свойства точечных оценок 4. Оценка математического ожидания и дисперсии по выборке 5. Доверительные интервалы 6. Методы получения оценок 7. Метод максимального правдоподобия 8. Распределение хи-квадрат Литература Введение
Когда приходится изучать не единичные, а массовые случайные явления, необходимо прибегать к статистическим методам исследования. Эти методы предназначены для выявления закономерностей там, где на первый взгляд нет ничего, кроме совокупности отдельных фактов, наблюдений, измерений. Теория вероятностей и математическая статистика являются науками о методах количественного анализа массовых случайных явлений. В теории вероятностей по заданным вероятностям некоторых событий и функциям распределения случайных величин определяются вероятности и функции распределения других событий и случайных величин. Естественно спросить: откуда известны исходные вероятности и распределения, как их найти? Одних априорных рассуждений для этого, как правило, недостаточно, необходимы опыт, специальные испытания. Математическая статистика и разрабатывает методы, позволяющие по результатам испытаний делать определённые выводы о вероятностях и распределённых случайных величин и событий. Целью каждой науки является обнаружение некоторых общих закономерностей, позволяющих предвидеть течение явлений природы и выбирать рациональные пути поведения в исходных ситуациях. Во многих случаях для обнаружения общих закономерностей необходимо провести большое число наблюдений и измерений; как следствие нужны методы обработки совокупности таких наблюдений. Эти методы также разрабатывает математическая статистика. Первые работы по математической статистике появились в 18ом веке и были связаны со статистикой народонаселения, изучением продолжительности жизни и вопросами страховании. Позже в конце 18ого начало 19ого века в связи с астрономическими задачами начались серьёзные исследования по теории ошибок измерений. Биологические изыскания послужили толчком для постановки многочисленных вопросов, которые привели в начале 20го века к выделению математической статистки в отдельную науку. Сейчас в связи с общим бурным развитием науки и проникновением количественных методов буквально во все отрасли знаний интерес к математической статистике возрос, возникли новые задачи и методы. Математическая статистика находится в стадии дальнейшего развития и её прогресс продолжается. Известно, что каждое распределение определяется тем или иным числом параметров: закон Пуассона зависит только от одного параметра – математического ожидания; нормальный закон – от двух – математического ожидания и дисперсии исследуемой случайной величины. Если мы хотим использовать эти законы, например распределения Пуассона, в инженерных задачах, нам нужно оценить параметр, то есть найти его численное значение, в данном случае – численное значение математического ожидания. Традиционный естественный способ нахождения параметра заключается в обследовании некоторого множества значений соответствующей случайной величины. Это множество обычно называется выборкой; элементы множества – выборочными значениями случайной величины; количество элементов – объёмом выборки. На основании изучения выборки мы делаем некоторые выводы о всей совокупности возможных значений случайной величины. Эта совокупность называется генеральной. В результате обследования выборки и использования соответствующих статистических правил можно получить численную оценку значения параметра. Оценка параметра – это некоторая функция от выборочных значений случайной величины. В нашем случае в качестве оценки параметра – математического ожидания можно использовать среднее арифметическое выборочных значений. Отметим, что оценка является случайной величиной. Таким образом, параметр – постоянная величина заменяется значением случайной величины, полученной по результатам выборки на основании некоторого правила. Если мы рассмотрим ещё одну выборку такого же объёма, то численное значение оценки будет несколько иным, так как состав нашей выборки случаен. Это ещё раз иллюстрирует тот факт, что с помощью оценки величина параметра определяется с некоторой ошибкой. Узловым для математической статистики является вопрос, как далеко могут отклонятся величины оценок, вычисление по выборке, от соответствующих истинных значений параметров. В рассмотренном случае нужно по выборке оценить математическое ожидание случайной величины, распределённой по закону Пуассона. Как это сделать? Можно использовать: 1) среднее арифметическое 2) наиболее часто встречающееся выборочное значение случайной величины; 3) средний член вариационного ряда. Какая из этих оценок лучше? И что значит лучшая оценка? Каким требованиям она должна удовлетворять? Ответы на эти вопросы даёт математическая статистика. Вторая задача – проверка статистических гипотез. Это могут быть гипотезы о законе распределения, о равенстве двух математических ожиданий или дисперсий различных распределений. Проверка статистических гипотез также производится на основе анализа выборки ограниченного объёма. Можно предположить что некоторая случайная величина распределена по закону Пуассона. Эта гипотеза нуждается в проверке. Частоты (оценки вероятностей), полученные в результате обработки выборки, могут несколько отличаться от вероятностей, определённых на основании распределения Пуассона. Причина расхождения может заключаться в том, что неправильна гипотеза о законе распределения. Однако не исключение и другая причина: объём выборки весьма мал, а при таком объёме выборки полученные различия между частотами и вероятностями могут наблюдать и при истинности предположения о законе распределения. Принять наилучшее решение в данном случае помогают методы математической статистики. Существуют и другие не менее важные задачи математической статистики, такие, например как планирование эксперимента, установление статистических зависимостей между случайными событиями. 1. Выборочный метод
Генеральная и выборочная совокупность Одним из фундаментальных понятий математической статистики является неопределяемое понятие генеральной совокупности. Под генеральной совокупностью понимают множество качественно однородных элементов (объектов, изделий) самой различной природы. Рассмотрим возможные типы этих совокупностей. 1. Конечная и реально существующая, например генеральная совокупность всех людей Украины в фиксированный момент времени. 2. Бесконечная и реально существующая, например множество действительных чисел, лежащих между нулем и единицей. 3. Воображаемая (гипотетическая) конечная или бесконечная: Например, повторные непрекращающиеся бросания игральной кости дают последовательность элементов из бесконечной несуществующей генеральной совокупности. Вторым основным понятием математической статистики является понятие выборочной совокупности (выборки). Пусть требуется изучить элементы некоторой генеральной совокупности относительно какого-либо количественного признака, характеризующего эти элементы. Это можно сделать, производя сплошное обследование всех элементов совокупности относительно интересующего нас признака. Однако на практике сплошное обследование применяется сравнительно редко. Для генеральной совокупности, содержащей большое число элементов, сплошное обследование будет экономически невыгодно или вообще физически невозможно. Если обследование объекта связано с его уничтожением (например при проверке качества минных взрывателей) или потребует больших материальных затрат (например запуск современной ракеты), то проводить сплошное обследование практически не имеет смысла. В такой ситуации случайно отбирают из генеральной совокупности ограниченое число объектов и изучают их. Таким образом, выборочной совокупностью или просто выборкой объёма n будем называть совокупность n объектов, отобранных из интересующей нас генеральной совокупности.
2. Статистическая оценка законов распределения
Если выборка объёма n из генеральной совокупности представительна, то элементы с одинаковыми значениями варианты будут приблизительно одинаково часто встречаться как в выборке, так и в генеральной совокупности. В этом случае естественно принять распределение X в выборке за приближенное распределение ее в генеральной совокупности, тоесть считать дискретное распределение выборки Fn (x) приближением к теоретической функции распределения F(x). Пример приближения показан на рисунке
Основанием для такого приближения является так называемая основная теорема математической статистики, доказанная В.И. Гливенко Из этой теоремы следует, что при n→∞ с вероятностью, равной единице, верхняя граница отклонения |F(x)−F(x)| на всей оси x стремится к нулю. Тем самым гарантируется равномерное приближение Fn (x) к F(x) на всей оси x. Таким образом, исследуя функцию Fn (x), мы можем по ней приближено оценить теоретическую функцию распределения случайной величины. 3. Основные свойства точечных оценокДля того чтобы оценка · 1. Оценка М Если равенство (22.1) не выполняется, то оценка · 2. Оценка
где e > 0 сколько угодно малое число. Для выполнения (22.2) достаточно, чтобы дисперсия оценки стремилась к нулю при
и кроме того, чтобы оценка была несмещенной. От формулы (22.3) легко перейти к (22.2) , если воспользоваться неравенством Чебышева. Итак, состоятельность оценки означает, что при достаточно большом количестве опытов и со сколько угодно большой достоверностью отклонение оценки от истинного значения параметра меньше любой наперед заданной величины. Этим оправдано увеличение объема выборки. Так как · 3. Несмещенная оценка На практике при оценке параметров не всегда удается удовлетворить одновременно требованиям 1, 2, 3. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех точек зрения. При выборке практических методов обработки опытных данных необходимо руководствоваться сформулированными свойствами оценок. 4. Оценка математического ожидания и дисперсии по выборкеНаиболее важными характеристиками случайной величины являются математическое ожидание и дисперсия. Рассмотрим вопрос о том, какие выборочные характеристики лучше всего оценивают математическое ожидание и дисперсию в смысле несмещенности, эффективности и состоятельности. Теорема 23.1.
Арифметическая средняя Доказательство. Пусть
Рассмотрим математическое ожидание средней арифметической. Используя свойство математического ожидания, имеем:
т.е. Теорема 23.2
. Арифметическая средняя Доказательство. Пусть Для средней арифметической Используя свойства дисперсии 4,5 и (23.1), имеем:
т.к. по условию теоремы Следовательно,
Итак, дисперсия средней арифметической в n раз меньше дисперсии случайной величины x. Тогда поэтому
а это значит, что Замечание
: 1
. Примем без доказательства весьма важный для практики результат. Если x Î N (a, s), то несмещенная оценка Перейдем к оценке для дисперсии и проверим ее на состоятельность и несмещенность. Теорема 23.3 . Если случайная выборка состоит из n независимых наблюдений над случайной величиной x с Mx = m и Dx =
не является несмещенной оценкой Dx - генеральной дисперсии. Доказательство. Пусть
Упростим выражение
Принимая во внимание (23.1), откуда
можно записать
Тогда
Теперь рассмотрим
Используя определение дисперсии, получаем:
и
т.е. выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Замечание 2 . Оценку (23.4) можно исправить так, чтобы она стала несмещенной
Обычно оценку
тогда
Дробь Замечание
3
. Можно показать, что оценки Несмещенной, состоятельной и эффективной оценкой
в случае, когда математическое ожидание m известно . 5. Доверительные интервалыИзучавшиеся ранее оценки неизвестного параметра являются точечными:
мы старались судить о значении неизвестного числа или вектора q по значению оценки Определение 24.1
. Пусть генеральная совокупность описывается случайной величиной x, распределение которой зависит от скалярного параметра q. Пусть, далее,
( Число a = 1-b называют уровнем значимости интервала. Стараясь иметь как можно более достоверные выводы, границы доверительного интервала выбирают таким образом, чтобы доверительная вероятность b была как можно ближе к 1. Схематически процесс построения доверительного интервала можно описать следующим образом. Пусть Выберем доверительную вероятность b. Значение выражения «b как можно ближе к 1» относительно, оно находится вне границ математики и определяется лицом, производящим статистические исследования. Обычно выбирают b равным 0,9; 0,95; 0,99. Пусть, далее, можно найти такое число e > 0, что
Записав (24.1) в виде
видим, что интервал ( Практически вопрос о построении доверительного интервала связан с возможностью нахождения распределения оценки Пример 24.1 . Построение доверительного интервала для математического ожидания нормальной генеральной совокупности при известной дисперсии. Пусть генеральная совокупность x распределена по нормальному закону с параметрами (q,s2 ), где s2 (дисперсия) известно. Мы уже знаем, что наилучшей в смысле несмещенности, состоятельности и эффективности оценкой неизвестного математического ожидания q нормального закона является выборочное среднее
В продвинутом курсе теории вероятностей доказывается, что нормальное распределение обладает свойством устойчивости
: если независимые случайные величины x, h распределены нормально с параметрами ( Используя это утверждение в нашем случае, заключаем, что Это означает, что
Функция Ф(z) нам уже встречалась, её значения табулированы. Выберем теперь доверительную вероятность b и обозначим После этого рассмотрим равенства
является доверительным для параметра q с доверительной вероятностью b ( и уровнем значимости a = 1 - b). Приведем часть из таблицы значений Таблица 24.1 (Зависимость
Обозначим Замечаем, что: 1) при фиксированной доверительной вероятности b ширина доверительного интервала уменьшается с ростом числа наблюдений n как величина порядка 2) поскольку Ф(z) возрастает с ростом z, то увеличение доверительной вероятности, при всех прочих постоянных параметрах, приводит к расширению доверительного интервала. Пример 24.2.
Желая узнать, сколько часов в неделю дети проводят у телевизора, социологическая служба обследовала 100 учеников некого города, в результате чего оказалось, что в среднем это число равно Поскольку b = 0,95, из табл. 24.1 находим
интервал доверия имеет вид (26.32; 28.68). Теперь поставим вопрос иначе: сколько детей надо обследовать с тем, чтобы среднее число часов в неделю, проводимых ребенком у телевизора, отклонилось от его оценки не более чем на 0,5 ч. с вероятностью 0,95? В такой постановке речь идет о нахождении числа n таким, чтобы выполнялось равенство
откуда В условиях примера n = (2×6×1,96)2 @ 553. Разумеется, при больших значениях n ширина доверительного интервала уменьшится. Заметим, что по сравнению с первоначальной задачей ширина интервала уменьшилась в 1,18/0,5 = 2,36 раз, количество необходимых испытаний увеличилось в (2,36)2 = 5,57 раз ( 553 отличается в третьем знаке от 100 × 5,57). Пример 24.3. Построение доверительного интервала для математического ожидания нормальной генеральной совокупности при неизвестной дисперсии. Снова рассмотрим генеральную совокупность x, распределенную нормально с параметрами (q,s2 ), однако теперь считаем дисперсию s2 неизвестной. Обозначим
В курсах теории вероятностей доказывается, что случайная величина
подчиняется так называемому закону распределения Стьюдента с n - 1 степенью свободы и её плотность имеет вид
где Кn некоторая нормирующая константа. Созданы таблицы , дающие возможность вычислять вероятности вида
(см. прил. 4). Ввиду вышесказанного, получаем равенства:
из которых видно, что выбрав Z как корень уравнения
( обозначим этот корень
Пример 24.4.
Рассмотрим вопрос о построении доверительного интервала для неизвестного количества времени в течение недели, проводимого ребенком у экрана телевизора, сохранив все данные примера 24.2, считая теперь, что 6ч. есть оценка выборочного среднеквадратического отклонения, По таблице распределения Стьюдента (см. приложение 4) находим
а сам интервал (25,92; 29,08). Замечаем, что интервал стал шире, что объясняется уменьшением объема имеющейся информации из-за незнания ещё одного параметра генеральной совокупности. 6. Методы получения оценокДо сих пор мы считали, что оценка неизвестного параметра известна и занимались изучением ее свойств с целью использования их при построении доверительного интервала. В этом параграфе рассмотрим вопрос о способах построения оценок. Методы правдоподобияПусть требуется оценить неизвестный параметр
В таком случае все моменты случайной величины x становятся функциями от
Метод моментов требует выполнения следующих действий: 1. Вычисляем k «теоретических» моментов
2. По выборке
3. Приравнивая «теоретические» и одноименные им выборочные моменты, приходим к системе уравнений относительно компонент оцениваемого параметра
4. Решая полученную систему (точно или приближенно), находим исходные оценки Мы изложили порядок действий, исходя из начальных - теоретических и выборочных - моментов. Он сохраняется при ином выборе моментов, начальных, центральных или абсолютных, который определяется удобством решения системы (25.1) или ей подобной. Перейдем к рассмотрению примеров. Пример 25.1.
Пусть случайная величина x распределена равномерно на отрезке [ a ;b ] , где Решение. В данном случае распределение определяется плотностью
1) Вычислим первые два начальных «теоретических» момента:
2) Вычислим по выборке два первых начальных выборочных момента
3) Составим систему уравнений 4) Из первого уравнения выразим a через b
и подставим во второе уравнение, в результате чего придём к квадратному уравнению
решая которое, находим два корня
Соответствующие значения a таковы
Поскольку по смыслу задачи должно выполнятся условие a < b , выбираем в качестве решения системы и оценок неизвестных параметров
Замечая, что
Если бы мы выбрали в качестве «теоретических» моментов математическое ожидание и дисперсию,
которая линейна и решается проще предыдущей. Ответ, конечно, совпадает с уже полученным. Наконец, отметим, что наши системы всегда имеет решение и при том единственное. Полученные оценки, конечно, состоятельны, однако свойствам несмещенности не обладают. 7. Метод максимального правдоподобияИзучается, как и прежде, случайная величина x, распределение которой задается либо вероятностями её значений Выражение
называют функцией правдоподобия , она представляет собой совместное распределение или совместную плотность случайного вектора с n независимыми координатами, каждая из которых имеет то же распределение (плотность), что и x. В качестве оценки неизвестного параметра
и, следовательно, сама является случайной величиной. Отыскание точки максимума функции В этом случае удобно вместо функции Методы дифференциального исчисления позволяют найти точки, подозрительные на экстремум, а затем выяснить, в какой из них достигается максимум. С этой целью рассматриваем вначале систему уравнений
решения которой
по знаку определителя, составленного из этих значений, находим точку максимума. Оценки, полученные по методу максимального правдоподобия, состоятельны, хотя могут оказаться смещенными. Рассмотрим примеры. Пример 25.2. Пусть производится некоторый случайный эксперимент, исходом которого может быть некоторое события А, вероятность Р(А) которого неизвестна и подлежит оцениванию. Решение. Введем случайную величину x равенством
если событие А произошло, если событие А не произошло (произошло событие Распределение случайной величины x задается равенством
Выборкой в данном случае будет конечная последовательность ( Функция правдоподобия будет иметь вид
Найдем точку её максимума по р, для чего вычислим производную логарифма
Обозначим Приравняем полученную производную к нулю
и решим полученное уравнение
Поскольку производная Поскольку m есть число «успехов» в последовательности n независимых испытаний ( в схеме Бернулли), то Пример 25.3.
Построим оценки неизвестных математического ожидания и дисперсии нормально распределенной случайной величины x с параметрами Р е ш е н и е. В условиях примера случайная величина определяется плотностью распределения
Сразу выпишем логарифм функции правдоподобия
Составим систему уравнений для нахождения экстремальных точек
Из первого уравнения находим Вычислим вторые производные функции lnL в точке ( А = Поскольку определитель
а А < 0, то найденная точка в самом деле точка максимума функции правдоподобия. Заметим, что оценка |