И.М. Тришин
Теория вероятностей
Тема 1. Основные понятия и теоремы теории
вероятностей
1.1. Понятие случайного события
Испытанием мы будем называть тип опыта (эксперимента).
Например, извлечение наудачу карты из колоды – испытание.
Бросание наудачу игральной кости (монеты) – испытание.
Существенно, что испытания в приведенных примерах (как и все испытания в данном курсе) выполняются наудачу, т.е. субъективный фактор здесь предполагается исключенным.
Определение. Случайным событием называется выделенный исход некоторого испытания.
Очевидно, что в конкретном испытании рассматриваемое случайное событие может наступить, а может и не наступить. (Отметим также, что сам эпитет “случайное” перед термином “событие“ в дальнейшем для краткости мы обычно будем опускать.)
Всюду ниже для обозначения событий мы будем использовать заглавные буквы латинского алфавита (возможно, с индексами). Например, ,B,C,¼или .
Пример. Пусть испытание – извлечение карты из колоды. Тогда событиями являются: A– извлечена карты красной масти, B – извлечена “ картинка“, C – извлечен туз и т.п. Если в результате конкретного испытания из колоды достали, например, семерку бубен, то событие A наступило, события B и C – нет.
Пример. Пусть испытание – бросание игральной кости. Тогда событиями являются, например, A –число выпавших очков – четно, B – число выпавших очков – больше 4, C– на верхней грани игральной кости выпала “5”.
Удобным обозначением для событий, относящихся к рассматриваемому испытанию (бросание игральной кости), служит перечисление всех исходов благоприятствующих наступлению события. Например, здесь ={2,4,6}, ={5,6}, ={5}.
1.2. Статистическое определение вероятности
Пусть проведено N испытаний, в которых некоторое событие A наступает раз. Тогда отношение называется частостью (долей) наступления события A в N испытаниях.
Определение. Пусть условия проведения некоторого испытания можно в точности воспроизвести неограниченное число раз. Тогда вероятностьюнаступления события A (в одном испытании) называется такое число, около которого группируются значения частости при неограниченном увеличении числа испытаний N .
Символически это определение можно записать в виде
Отметим практическое следствие данного определения: если нас интересует значение вероятности наступления некоторого события , то производят достаточно большое число испытаний N, по их результатам определяют значение частости и затем полагают
(Более подробно обоснование такого подхода будет рассмотрено ниже: см. Закон больших чисел, теорему Бернулли.)
Также статистическое определение вероятности имеет следующее важное
Следствие (область возможных значений вероятности события). Значение вероятности произвольного события заключено в границах от 0 до 1, т.е.
Доказательство. Очевидно, что
Выполняя почленное деление последнего неравенства на , получаем
Переходя теперь к пределу при , имеем
1.3. Классификация случайных событий
1. Определение. Два события называются равными, если одно из них наступает тогда и только тогда, когда наступает другое.
Пример. Будут произведены 3 выстрела в мишень. А – число попаданий в мишень равно 0, В – число попаданий в мишень меньше, чем 0,5. Очевидно, что
2. Определение. Два события называются равновозможными, если вероятности их наступления равны (в смысле статистического определения вероятности).
На практике равновозможность событий обычно усматривается из симметрии ситуации.
Пример. Пусть испытание – бросание монеты. Тогда события – выпадение “орла” и – выпадение “решки” являются равновозможными.
3. Определение. Событие называется достоверным, если оно наступает в каждом из испытаний.
Достоверное событие будем обозначать через Такое событие определено однозначно для каждого вида испытания.
Пример. Пусть испытание – бросание игральной кости. Тогда где m – число выпавших очков.
Т.к. , то т.е.
4. Определение. Событие называется невозможным, если оно не наступает ни в одном из испытаний.
Невозможное событие будем обозначать символом Æ. Это событие определено однозначно для каждого вида испытания.
Пример. Пусть измеряется рост наудачу взятого человека. Тогда Æ = (значение роста – отрицательное число) = (рост – более 100 км) =….
Т.к. то т.е.
5. Определение. Два события называются несовместными (несовместимыми), если они не могут наступить одновременно.
Пример. Испытание – извлечение карты из колоды. Если событие А – извлечена карта красной масти, событие В – извлечена карта черной масти, то А и В – несовместны.
Пример. Пусть по мишени производится 3 выстрела и m – число попаданий в мишень. Тогда события, например, и – несовместны.
6. Определение. События называются единственно возможными для некоторого испытания, если в результате испытания хотя бы оно из них обязательно наступает.
Пример. Пусть испытание – бросание игральной кости. Тогда события А и В – единственно возможны (т.к. не существует такого исхода бросания игральной кости, при котором ни А, ни В не наступило). Напротив, А и С не являются единственно возможными (т.к. при выпадении “6” ни А, ни С не наступают).
7. Определение. Говорят, что события образуют полную систему (группу), если эти события попарно несовместимы и единственно возможны.
Пример. Пусть испытание – бросание игральной кости. Тогда события образуют полную систему.
Пример. Пусть по мишени производится 3 выстрела и m – число попаданий в мишень. Тогда события, например, образуют полную систему.
Заметим, что при заданном типе испытания полная система событий определена, вообще говоря, неоднозначно.
Определение. Если два события образуют полную систему, то они называются парой взаимно противоположных событий.
Если одно из событий такой пары обозначено, скажем, через , другое будет обозначено
Пример. Пусть испытание – бросание монеты. Тогда события А – выпадение “орла” и В – выпадение “решки” являются взаимно противоположными ().
Пример. Пусть по мишени производится 3 выстрела, и m – число попаданий в мишень. Тогда события, например, и – взаимно противоположны.
1.4. Операции над событиями
Определение. Суммой событий А и В называется такое событие , которое считается наступившим тогда и только тогда, когда наступило или событие А, или событие В, или оба эти события вместе.
Пример. Пусть испытание – извлечение карты из колоды, а следующие события состоят в извлечении: А – карты красной масти, В – картинки, D – числовой карты. Если в результате конкретного испытания из колоды достали, например, “семерку” крестей то событие А+В не наступило, а события и наступили.
Пример. Пусть по мишени производится 3 выстрела, m – число попаданий в мишень , . Тогда .
Замечание 1. Условие единственной возможности событий равносильно тому, что В частности, если события образуют полную систему, то , и при имеем
Определение. Произведением событий А и В называется такое событие , которое считается наступившим тогда и только тогда, когда события А и В наступили одновременно.
Пример. Пусть испытание состоит в бросании игральной кости.
. Тогда и .
Замечание 2. Произвольные события А и В являются несовместимыми тогда и только тогда, когда Æ.
1.5. Классическое определение вероятности
Определение. Пусть некоторое испытание имеет n исходов, причем эти исходы
а) попарно несовместимы;
б) единственно возможны;
в) равновозможны
и наступлению события А благоприятствует исходов из Тогда вероятность наступления события А (в одном испытании) определяется по формуле
Пример. В коробке имеется 10 хороших деталей и 5 бракованных. Наудачу из коробки извлекается одна деталь. Найти вероятность наступления события А – извлеченная деталь – хорошая.
Решение. Общее число исходов равно полному числу деталей в коробке. Извлечению хорошей детали благоприятствует исходов из общего числа (число хороших деталей). Тогда
Пример. Одновременно бросаются три монеты. Найти вероятность того, что на двух из них выпадет “орел”.
Решение. Для удобства будем предполагать, что монеты некоторым образом занумерованы. Единичным исходом здесь является совокупный результат по трем монетам (другими словами, для того, чтобы задать единичный исход, надо сказать, что выпало на первой монете, на второй и на третьей). Перечислим возможные исходы (см. Таблицу 1, в которой выпадение “орла” на соответствующей монете обозначено буквой “О”, “решки” – “Р”). Видно, что общее число исходов равно 8. Число благоприятствующих исходов равно 3 – это исходы с номерами 2, 3, 5 Таблицы 1. Тогда
.
Пример. В коробке 6 белых шаров и 8 красных. Наудачу одновременно извлекаются 3 шара. Найти вероятность, того, что среди них будут:
а) два белых шара;
б) не менее одного белого.
Решение. а) Для удобства будем предполагать, что имеющиеся шары некоторым образом перенумерованы. Пусть, например, белые шары имеют номера 1, 2, … ,6 красные – 7, 8 , … ,14. Тогда единичным исходом является произвольная тройка номеров: , , …, . ( Оставляем читателю в качестве упражнения проверку того, что данные исходы удовлетворяют всем условиям классического определения вероятностей.)
Таблица 1. |
|||
Номер исхода |
Номер монеты |
||
1 |
2 |
3 |
|
1 |
О |
О |
О |
2 |
О |
Р |
О |
3 |
О |
О |
Р |
4 |
О |
Р |
Р |
5 |
Р |
О |
О |
6 |
Р |
Р |
О |
7 |
Р |
О |
Р |
8 |
Р |
Р |
Р |
Тогда общее число n исходов равно числу способов, которыми можно выбрать 3 номера из имеющихся 14-ти номеров. Напомним, что такое число равно соответствующему числу сочетаний:
.
(В общем случае,
равно числу способов, которыми можно выбрать s объектов из k имеющихся объектов.) Таким образом,
=
Найдем теперь число m исходов, благоприятствующих появлению двух белых шаров среди трех извлеченных. Число способов, которыми можно выбрать 2 шара из имеющихся 6-ти белых шаров, равно . Но число благоприятствующих исходов с фиксированной парой белых шаров равно числу способов, которыми можно выбрать оставшийся красный шар в тройку, т.е. равно . Поэтому
Окончательно имеем
где А – событие состоящее в том, что среди трех отобранных шаров ровно 2 белых шара.
б) Полное число n исходов найдено в п. а). Число троек, в которых не менее 2-х белых шаров, равно сумме троек с двумя белыми шарами и троек с тремя белыми шарами:
Окончательно имеем
где В – событие состоящее в том, что среди трех отобранных шаров не менее 2-х белых шаров.
1.6. Основные теоремы теории вероятностей
Теорема сложения вероятностей.
Важным частным случаем этой теоремы является
Теорема сложения вероятностей для несовместных событий. Вероятность суммы двух несовместных событий равна сумме их вероятностей, т.е.
Доказательство. Так как события А и В несовместны, то их произведение равно невозможному событию, т.е. АВ = Æ. Поскольку вероятность невозможного события равна нулю (см. § 1.3), то из теоремы сложения вероятностей следует требуемое утверждение.
Отметим, что аналогичное утверждение справедливо для любого числа попарно несовместных событий: вероятность суммы попарно несовместных событий равна сумме их вероятностей.
Следствие. Пусть события образуют полную систему, тогда сумма их вероятностей равна 1 т.е.
Доказательство. Из определения полной системы следует, что события , в частности, являются единственно возможными, поэтому (см. § 1.4). Тогда
Вероятность достоверного события равна 1 (см. § 1.3). События , в частности, являются попарно несовместными. Тогда из теоремы сложения вероятностей для несовместных событий следует требуемое утверждение.
Данное следствие при представляет важное свойство противоположных событий: сумма вероятностей взаимно противоположных событий равна 1, т.е.
Определение. Условной вероятностью называется вероятность наступления события А в предположении наступления события В.
Определение. Два события называются независимыми, если вероятность наступления одного из них не зависит от того, считается ли другое событие наступившим или нет.
Данное определение равносильно следующему:
события А и В независимы Û
Пример. Пусть испытание состоит в извлечении карты из колоды. Событие А – извлечена “ картинка”, событие В – извлечена “7”. Выяснить, являются ли события А и В независимыми.
Решение. Так как среди “ картинок” нет “семерок”, то . Так как среди “не картинок” – 4 “семерки”, то . Таким образом,
, поэтому события А и В зависимы. Аналогично, в общем случае произвольные (неравные) несовместные события – зависимы.
Теорема (необходимое и достаточное условие независимости событий). События А и В независимы тогда и только тогда, когда
Пример. Пусть испытание состоит в бросании игральной кости, Выяснить, являются ли события А и В независимыми.
Решение. Очевидно, что В предположении обязательного наступления события В, полное число возможных исходов равно 4, из которых 2 исхода благоприятствуют наступлению события А, поэтому Так как то события А и В – независимы.
Теорема умножения вероятностей.
……………………………………….. |
Теорема умножения вероятностей для независимых событий. Вероятность произведения двух независимых событий равна произведению их вероятностей, т.е.
.
Аналогичное утверждение справедливо для любого числа независимых событий.
Пример. Два стрелка одновременно выстреливают в мишень. Вероятность попадания для первого стрелка равна 0,6, для второго – 0,8. Найти вероятность того, что в мишени будет:
а) одна пробоина;
б) хотя бы одна пробоина.
Решение. а) Прежде всего, укажем, когда может наступать интересующее нас событие, перебирая все возможные варианты.
В мишени будет одна пробоина
тогда и только тогда, когда
первый стрелок попал и второй стрелок промахнулся
или
первый стрелок промахнулся и второй стрелок попал.
Пусть событие А – в мишени будет одна пробоина, событие – первый стрелок попал, событие – второй стрелок попал. Тогда – первый стрелок промахнулся,
– второй стрелок промахнулся. “Тогда и только тогда, когда” соответствует отношению равенства событий. Соединительный союз “или” соответствует операции сложения событий. Соединительный союз “и” соответствует умножению событий. Тогда фраза русского языка, в которой мы перечислили все возможности для наступления события А, равносильна следующему символическому равенству
Откуда следует равенство вероятностей
Так как события и несовместны, то, применяя теорему сложения вероятностей для несовместных событий, приходим к равенству
События , и , попарно независимы, поэтому, применяя теорему умножения вероятностей для независимых событий, получаем
По условию, и Тогда, по свойству взаимно противоположных событий (см. следствие из теоремы сложения вероятностей для несовместных событий, ), и Окончательно имеем
б) Пусть – число попаданий в мишень, тогда искомой является вероятность (заметим, что слова “хотя бы один”, “не менее чем один”, “по-крайней мере один” являются синонимами). Событие равносильно тому, что число попаданий в мишень будет равно 1 или 2, т.е.
Тогда, учитывая несовместность событий и , получаем
(см. п. а) данного примера). Событие (два попадания в мишень) наступает тогда и только тогда, когда первый стрелок попадет в мишень и второй стрелок попадет, т.е.
.
Поэтому
(см. теорему умножения вероятностей для независимых событий). Окончательно имеем
Отметим, что эта задача допускает и другое решение. Так как события и взаимно противоположны, то
.
Но Следовательно
Пример. В коробке лежат 4 белых шара и 6 красных. Наудачу, один за другим из коробки извлекается 2 шара. Найти вероятность того, что среди них будет:
а) один красный шар;
б) менее 2-х красных шаров.
Решение. а) Пусть событие А – среди двух извлеченных шаров – ровно один красный. Это событие наступает тогда и только тогда, когда первый из извлеченных шаров – красный, а второй – белый или первый шар – белый, а второй – красный. Напомним, что соединительный союз “или” соответствует сложению событий, союзы “и”, “а” соответствуют умножению событий. Тогда описание всех возможностей наступления события А равносильно следующему формальному равенству
,
где () – первый (второй) шар – красный, () – первый (второй) шар – белый. События и – несовместны, поэтому, используя теорему сложения вероятностей для несовместных событий, получаем
.
Применяя теперь теорему умножения вероятностей, приходим к равенству
.
Для вычисления вероятностей из правой части последнего равенства используем классическое определение вероятности. Тогда
б) Пусть m – число красных шаров среди двух извлеченных. Тогда искомой является вероятность Очевидно, что , и (см. п. а) данного примера). Вместе с тем, событие – среди извлеченных шаров нет красных – равносильно тому, что первый шар окажется белым и второй – также белым, т.е. , поэтому
Окончательно имеем
Заметим, что вероятность может быть также найдена по-другому. События и взаимно противоположны, поэтому
Но
Тогда
Домашнее задание (здесь и далее номера задач указаны по учебнику Н.Ш. Кремера “Теория вероятностей и математическая статистика”): 1.54, 1.58, 1.60, 1.61, 1.64, 1.69.
1.7. Формула полной вероятности. Формула Байеса (гипотез)
Теорема. Пусть события образуют полную систему и F – некоторое событие. Тогда справедлива формула
,
которая и называется формулой полной вероятности.
Пусть событие F отлично от невозможного, тогда
где Данная формула называется формулой Байеса (гипотез).
Пример. Объемы продукции, изготавливаемой двумя рабочими, относятся как 3:2. Вероятности брака для деталей первого и второго рабочих равны соответственно 0,02 и 0,01. Найти вероятность того, что деталь, извлеченная наудачу из не рассортированной продукции,
а) является бракованной;
б) изготовлена первым рабочим, если известно, что она бракована.
Решение. а) Введем в рассмотрение события: – деталь изготовлена первым рабочим, – деталь изготовлена вторым рабочим, F – деталь бракована. Из условия следует, что всю продукцию можно предполагать состоящей из 5-ти частей (3+2=5), причем на долю первого рабочего приходится 3 части из этих 5-ти, на долю второго – 2 части. Тогда, по классическому определению вероятности, , . По условию, и по формуле полной вероятности получаем
,
б)
Домашнее задание: 1.72, 1.75.
Тема 2. Повторные независимые испытания
2.1. Формула Бернулли
Сначала рассмотрим задачу – частный случай задач предыдущей темы. Наблюдение над решением позволит нам получить формулу, существенно упрощающую вычисления в аналогичных случаях.
Пример. Предполагается произвести 4 выстрела по мишени. Вероятность попадания при каждом выстреле считается известной и равной 0,7. Найти вероятность того, что
число попаданий в мишень будет:
а) равно 2;
б) не менее 2-х;
в) менее 4-х.
Решение. а) Принципиально эта задача не отличается от задачи о двух стрелках из § 1.6 (повторные испытания и здесь независимы) и может быть решена тем же способом. Введем обозначения, которые ниже будем использовать в подобных случаях. Число выстрелов по мишени обозначим через n (здесь ), – вероятность попадания в мишень при каждом выстреле, – вероятность промаха при каждом выстреле, – число попаданий. Требуется найти , эту же вероятность обозначим через . Перебирая все случаи, в которых число попаданий в мишень будет равно 2, получаем
.
В общем случае справедлива
Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p. Тогда вероятность того, что в этих n испытаниях событие А наступит раз, вычисляется по формуле
где – число сочетаний из n по , .
Полученная формула носит название формулы Бернулли.
Завершим рассмотрение нашего примера.
б) Так как то, применяя теорему сложения вероятностей для несовместных событий, получаем
Первое слагаемое последней суммы найдено в п. а) данного примера. Аналогично для остальных:
Окончательно имеем
в) По аналогии с предыдущим пунктом задания,
т.е. решение требует, вообще говоря, четырех применений формулы Бернулли. Однако возможно и более короткое решение. Действительно, события и – взаимно противоположны, следовательно
Вероятность найдена в п. б) примера. Таким образом, получаем
Домашнее задание: 2.15, 2.16, 2.18.
2.2. Формула Пуассона (редких событий)
Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем
а) число испытаний достаточно велико (;
б)
Тогда вероятность того, что в этих n испытаниях событие А наступит раз, вычисляется по следующей приближенной формуле
Эта формула и называется формулой Пуассона (редких событий).
Пример. По каналу связи передано 1000 сигналов. Вероятность ошибки при передаче каждого из сигналов равна 0,005. Найти вероятность того, что неверно передано:
а) 7 сигналов;
б) не менее 4-х сигналов.
Решение. а) Воспользуемся формулой Пуассона, т.к. условия ее применимости в данном случае выполнены: число испытаний достаточно велико и Искомое значение найдем по таблице функции Пуассона при и (см. учебник Н.Ш. Кремера, с.556):
б) Требуется найти , где m – число неверно принятых сигналов. Так как то
Искать каждое из слагаемых этой суммы и затем выполнять суммирование – такое решение не представляется рациональным из-за большого числа слагаемых и потому, что таблица функции Пуассона не дает искомых значений с требуемой в данном случае точностью. Воспользуемся переходом к противоположному событию:
Находя вероятности из правой части последнего равенства по таблице функции Пуассона, окончательно получаем
Домашнее задание: 2.20, 2.22б.
2.3. Локальная теорема Муавра-Лапласа
Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем число испытаний достаточно велико (.Тогда вероятность того, что в этих n испытаниях событие А наступит раз, вычисляется по следующей приближенной формуле
где – функция Гаусса,
Пример. Имеется партия деталей, состоящая из 1000 штук. В среднем среди деталей такого вида стандартные детали составляют 90%.Найти вероятность того, что число стандартных деталей в данной партии окажется равным 890.
Решение. Число испытаний в данном случае достаточно велико , поэтому локальная теорема Муавра-Лапласа применима. Из условия следует, что вероятность быть стандартной для произвольной детали данной партии равна
, , . Тогда
По локальной теореме Муавра-Лапласа,
Учитывая, что функция Гаусса четная, используя таблицу этой функции (см. учебник Н.Ш. Кремера, с. 553-554), находим Окончательно, получаем
Свойства функции Гаусса.
1) Функция Гаусса четна: , поэтому ее график симметричен относительно оси ;
2) при всех , т.е. график расположен строго выше оси ;
3) , т.е. ось является горизонтальной асимптотой графика этой функции; на практике полагаем .
Схематично график функции Гаусса изображен на рис. 1.
Домашнее задание. 2.21а, 2.25, 2.27а.
2.4. Интегральная теорема Муавра-Лапласа
Теорема. Пусть произведено n повторных независимых испытаний, в каждом из которых некоторое событие А наступает с вероятностью p , причем число испытаний достаточно велико (.Тогда вероятность того, что число m наступлений события А в этих n испытаниях будет заключено в границах от до , вычисляется по следующей приближенной формуле
где – функция Лапласа, .
Пример. Каждая из 1000 деталей партии стандартна с вероятностью 0,9. Найти вероятность того, что число стандартных деталей этой партии будет не меньше 880.
Решение. Число n повторных независимых испытаний в данном случае равно числу деталей в партии (каждая из деталей партии будет проверяться на предмет качества, а в этой проверке и состоит испытание). поэтому интегральная теорема Муавра-Лапласа применима; неравенство , где – число стандартных деталей в партии, здесь равносильно поэтому Тогда
По свойствам функции Лапласа (см. ниже), , По таблице функции Лапласа (см. учебник Н.Ш. Кремера, с. 555) находим Тогда окончательно имеем
Свойства функции Лапласа
- Функция Лапласа нечетна:
- Функция Лапласа – монотонно возрастающая;
- т.е. прямые и являются горизонтальными асимптотами (правой и левой соответственно) графика ; на практике полагаем при
График функции Лапласа схематично изображен на рис. 2.
Следствия из интегральной теоремы Муавра-Лапласа
Пусть выполнены условия применимости интегральной теоремы Муавра-Лапласа.
Следствие 1. Вероятность того, что число наступлений события А в n повторных независимых испытаниях будет отличаться от величины не более чем на (по абсолютной величине), вычисляется по формуле
Следствие 2. Вероятность того, что доля наступлений события А в n повторных независимых испытаниях будет отличаться от вероятности p наступления этого события в одном испытании не более чем на (по абсолютной величине), вычисляется по формуле
Пример. Подлежат исследованию 1000 проб руды. Вероятность промышленного содержания металла в каждой пробе равна 0,15. Найти границы, в которых с вероятностью 0,9973 будет заключено число проб руды с промышленным содержанием металла.
Решение. Искомые границы для числа проб руды с промышленным содержанием металла (из данных 1000 проб) определяются величинами и (см. интегральную теорему Муавра-Лапласа). Будем предполагать, что искомые границы симметричны относительно величины , где и . Тогда , для некоторого , и, тем самым, единственной определяющей неизвестной данной задачи становится величина . Из следствия 1 и условия задачи следует, что
По таблице значений функции Лапласа найдем такое , что
Тогда и . Окончательно получаем искомые границы: т.е. с вероятностью 0,9973 число проб руды с промышленным содержанием металла (из данных 1000 проб) попадет в интервал (116; 184).
Пример. В лесхозе приживается в среднем 80% саженцев. Сколько саженцев надо посадить, чтобы с вероятностью 0,9981 можно было утверждать, что доля прижившихся саженцев будет находиться в границах от 0,75 до 0,85.
Решение. – вероятность прижиться для каждого из саженцев, . Пусть – необходимое число саженцев (искомая величина данной задачи) и – число прижившихся из них, тогда – доля прижившихся саженцев. По условию,
Данные границы для доли симметричны относительно величины, поэтому неравенство равносильно неравенству
Следовательно, вероятность 0,9981 – это та самая вероятность, которая вычисляется по следствию 2 из интегральной теоремы Муавра-Лапласа при , :
По таблице функции Лапласа найдем такое значение , что Это значение: Тогда
и
Заметим, что значение округлено до целых в большую сторону, чтобы обеспечить, как говорят, “запас по вероятности”. Кроме того, видно, что полученное значение достаточно велико (более 100), поэтому применение интегральной теоремы Муавра-Лапласа для решения данной задачи было возможно.
Тема 3. Дискретная случайная величина
3.1. Закон распределения дискретной случайной величины
Определение. Случайной величиной называется переменная, которая в результате испытания принимает то или иное числовое значение.
Пример. Число попаданий в мишень при выстрелах – случайная величина.
Пример. Рост наудачу взятого человека – случайная величина.
Определение. Случайная величина называется дискретной, если число ее возможных значений конечно или счетно.
(Напомним, что множество называется счетным, если его элементы можно перенумеровать натуральными числами.)
В этом смысле, число попаданий в мишень – пример дискретной случайной величины. Рост человека – непрерывная случайная величина (такие случайные величины будут рассмотрены ниже).
Для обозначения случайных величин будем использовать заглавные буквы латинского алфавита (возможно с индексами), например, и т.п.
Определение. Законом распределения дискретной случайной величины называется такая таблица, в которой перечислены все возможные значения этой случайной величины (без повторений) с соответствующими им вероятностями.
В общем виде закон распределения для случайной величины, например, :
: |
|
… |
|||
… |
где
Из определения закона распределения следует, что события … , образуют полную систему, поэтому (см. следствие из теоремы сложения вероятностей для несовместных событий в §1.6):
т.е.
Данное равенство называется основным свойством закона распределения.
Пример. Два стрелка одновременно выстреливают в мишень. Вероятность попадания для первого равна 0,6, для второго – 0,8. Составить закон распределения случайной величины – общего числа попаданий в мишень.
Решение. Возможные значения данной случайной величины: 0, 1, 2. Так же как в примере из §1.6, через и обозначим события, состоящие в попадании в мишень первого и второго стрелков (соответственно). Тогда аналогично упомянутому примеру получаем
Окончательно, закон распределения случайной величины имеет вид:
: |
|
2 |
|||
0,44 |
0,48 |
1 |
Упражнение. В коробке 3 белых шара и 2 красных. Составить закон распределения случайной величины – числа белых шаров среди 2-х извлеченных шаров.
Ответ.
|
0 |
1 |
2 |
|
|
|
0,1 |
0,6 |
0,3 |
1 |
Пример. В коробке – 3 белых шара и 2 красных. Шары извлекаются последовательно до появления белого шара. Составить закон распределения случайной величины Х – числа извлеченных шаров.
Решение. Возможные значения данной случайной величины: 1, 2, 3. Событие (из коробки будет извлечен один единственный шар) наступает тогда и только тогда, когда первый из шаров оказывается белым, т.к. появление именно белого шара является сигналом к прекращению последующих извлечений (см. условие). Поэтому
где событие – первый из извлеченных шаров – белый. Событие (из коробки будет извлечено ровно 2 шара) наступает тогда и только тогда, когда первый из извлеченных шаров оказывается красным, а второй – белым. Поэтому
где событие – первый из извлеченных шаров – красный, – второй шар – белый. Наконец событие (из коробки будет извлечено 3 шара) наступает тогда и только тогда, когда первый шар – красный, второй – красный и третий – белый. Поэтому
Окончательно искомый закон распределения имеет вид:
Х : |
1 |
2 |
3 |
||
0,6 |
0,3 |
0,1 |
1 |
Упражнение. Имея 3 патрона, стрелок стреляет по мишени до первого попадания (или до израсходования патронов). Вероятность попадания при каждом выстреле равна 0,8. Составить закон распределения случайной величины Х – числа произведенных выстрелов.
Ответ.
Х : |
1 |
2 |
3 |
||
0,8 |
0,16 |
0,04 |
1 |
Пример. Стрелок стреляет в мишень 3 раза. Вероятность попадания при каждом выстреле равна 0,8. Составить закон распределения случайной величины Х – числа попаданий в мишень.
Решение. Возможные значения для числа попаданий: 0, 1, 2, 3. Вероятности того, что случайная величина Х примет эти значения вычисляются по формуле Бернулли при
Окончательно искомый закон распределения имеет вид:
Х : |
0 |
1 |
2 |
3 |
||
0,008 |
0,096 |
0,384 |
0,512 |
1 |
Полученный закон распределения является частным случаем так называемого биномиального закона распределения (при ).
Определение. Случайная величина Х имеет биномиальный закон распределения с параметрами и , если ее закон распределения имеет вид :
Х : |
0 |
1 |
2 |
… |
, |
||
… |
где вероятности вычисляются по формуле Бернулли:
– положительное целое число,
В пределе при и биномиальное распределение переходит в так называемое распределение Пуассона.
Определение. Говорят, что случайная величина Х имеет распределение Пуассона с параметром , если ее закон распределения имеет вид:
Х : |
|
0 |
1 |
2 |
… |
, |
|
|
|
|
… |
где
,
– положительное число.
Убедимся в том, что для распределения Пуассона выполняется основное свойство закона распределения: . Действительно, имеем
(см. курс математического анализа, разложение функции в ряд Маклорена).
Домашнее задание. 3.25, 3.31, 3.36, 3.40, 3.45.
3.2. Арифметические операции над случайными величинами
Определение. Случайные величины Х и Y называются равными, если их законы распределения точно совпадают, и для произвольного числа справедливо равенство:
Пример. Пусть законы распределения случайных величин Х и Y имеют вид:
Y: |
|
0 |
1 |
. |
|
0,5 |
0,5 |
X: |
|
0 |
1 |
|
0,5 |
0,5 |
Эти случайные величины равны, если дополнительно справедливы равенства и , т.е. случайная величина Х принимает значение 0
тогда и только тогда, когда случайная величина Y принимает значение 0, и аналогично со значением 1.
Произвольная случайная величина допускает умножение на число. Действительно, пусть закон распределения случайной величины Х имеет вид:
: |
|
… |
|||
… |
и – некоторое число.
Определение. Случайной величиной называется такая случайная величина, закон распределения которой имеет вид :
: |
|
… |
|||
… |
Пример. Пусть закон распределения случайной величины Х имеет вид:
Х : |
0 |
1 |
2 |
|
0,16 |
0,48 |
0,36 |
и , . Тогда закон распределения :
|
0 |
5 |
10 |
|
0,16 |
0,48 |
0,36 |
Можно придумать, например, следующую интерпретацию данному примеру. Заметим, что Х – биномиально распределена с параметрами . Пусть Х – число попаданий в мишень при 2-х выстрелах, при каждом из которых попадание случается с вероятностью 0,6, и дополнительно известно, что за каждое попадание стрелку выплачивается вознаграждение в размере 5 ден. ед. Тогда Y – заработок стрелка.
Определение. Случайные величины Х и Y называются независимыми, если для любых i и j события и – независимы.
Пример. Пусть из коробки, в которой – 6 белых и 8 красных шаров, извлекается 1 шар. Рассмотрим случайные величины Х – число белых шаров, Y – число красных шаров из извлеченных. События, например, и – несовместны, а поэтому – зависимы (см. § 1.6). Следовательно, и случайные величины Х и Y зависимы.
Определение. Суммой (разностью, произведением) случайных величин Х и Y называется такая случайная величина (, ), которая принимает значение в некотором испытании, если значения и случайных величин Х и в этом испытании таковы, что ().
Пример. Пусть заданы законы распределения независимых случайных величин Х и Y:
Х: |
0 |
1 |
Y : |
0 |
1 |
||
0,4 |
0,6 |
0,2 |
0,8 |
Составить закон распределения случайной величины .
Решение. Удобно использовать вспомогательную таблицу вида:
|
0 |
1 |
0 |
0 |
1 |
1 |
–1 |
0 |
в каждой из центральных клеток которой записаны соответствующие произведения случайных величин X и Y. Такая таблица показывает, какие значения принимает случайная величина U и когда она принимает эти значения. Так тогда и только тогда, когда и или и . Поэтому
.
Применяя теорему сложения вероятностей для несовместных событий, теорему умножения вероятностей – для независимых событий (по условию, случайные величины и – независимы), получаем
Для наступления каждого из двух оставшихся значений случайной величины U (-1 и 1) имеется по одной возможности. Например, тогда и только тогда, когда и . Тогда получаем:
Аналогично,
Окончательно, закон распределения случайной величины U имеет вид:
U : |
–1 |
0 |
1 |
|
0,32 |
0,56 |
0,12 |
Упражнение. Составить законы распределения случайных величин
Ответ.
Z: |
0 |
1 |
2 |
V: |
0 |
1 |
||
0,08 |
0,44 |
0,48 |
0,52 |
0,48 |
W: |
0 |
1 |
R: |
0 |
1 |
||
0,4 |
0,6 |
0,56 |
0,44 |
Заметим, что закон распределения случайной величины Z фактически найден в примере § 3.1 о двух стрелках. Действительно, исходные независимые случайные величины X иY данной задачи могут быть интерпретированы как числа попаданий в мишень первого и второго стрелка из § 3.1. Тогда – общее число попаданий, и закон распределения этой случайной величины и найден в упомянутом примере.
3.3. Параметры распределения дискретной случайной величины
Пусть закон распределения дискретной случайной величины Х имеет вид
: |
|
… |
|||
… |
Определение. Математическим ожиданием дискретной случайной величины Х называется число М(Х), вычисляемое по формуле
Математическое ожидание случайной величины есть число около которого группируются значения этой случайной величины.
Механическим аналогом математического ожидания дискретной случайной величины является центр масс (центр тяжести) системы точечных масс: если в точках числовой оси с абсциссами расположены точечные массы , то абсцисса их центра масс находится точно по формуле для , приведенной выше.
Пример. Пусть случайная величина Х биномиально распределена с параметрами и (см. пример из § 3.1):
Х : |
0 |
1 |
2 |
3 |
|
0,008 |
0,096 |
0,384 |
0,512 |
Тогда
Свойства математического ожидания
- Математическое ожидание постоянной случайной величины равно самой постоянной, т.е.
М(С)=С,
где С – некоторое число.
(Постоянной случайной величиной С называется такая случайная величина, которая принимает единственное значение равное С с вероятностью 1.)
- Постоянный множитель можно выносить за знак математического ожидания, т.е.
где – произвольное число.
- Математическое ожидание суммы (разности) случайных величин равно сумме (разности) математических ожиданий этих случайных величин, т.е.
4. Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий, т.е.
5. Пусть – такие случайные величины, математические ожидания которых равны между собой, т.е. где и а – некоторое число. Тогда среднее арифметическое этих случайных величин равно их общему математическому ожиданию, т.е.
Заметим, что свойства 2 – 5 математического ожидания остаются справедливыми также для непрерывных случайных величин.
Пусть закон распределения случайной величины Х тот же, что и выше (см. начало параграфа).
Определение. Дисперсией дискретной случайной величины Х называется число определяемое равенством
Число является мерой разброса значений случайной величины Х около ее математического ожидания.
Пример. Пусть случайная величина Х биномиально распределена с параметрами и . Найдем дисперсию этой случайной величины.
В предыдущем примере найдено, что М(Х) = 2,4. Тогда
Свойства дисперсии
- Дисперсия постоянной случайной величины равна нулю, т.е.
- Постоянный множитель можно выносить за знак дисперсии, возводя его при этом в квадрат, т.е.
где – произвольное число.
- Справедливо равенство:
- Дисперсия суммы (разности) двух независимых случайных величин равна сумме дисперсий этих случайных величин, т.е.
где случайные величины Х и Y – независимы.
- Пусть случайные величины – независимы и где Тогда
Замечание. называется средним квадратическим отклонением случайной величины Х и обычно обозначается через .
Отметим также, что свойство 3 дисперсии более удобно для ее вычисления по сравнению с исходным определением дисперсии.
Пример. Пусть закон распределения случайной величины Х имеет вид
X: |
|
1 |
2 |
|
0,6 |
0,4 |
Найти используя свойство 3 дисперсии.
Решение.
Математическое ожидание и дисперсия случайной величины называются параметрами распределения этой случайной величины.
Теорема. Пусть случайная величина – биномиально распределена с параметрами и p , тогда параметры ее распределения могут быть найдены по формулам:
Также справедливы равенства
Пример. Пусть случайная величина Х биномиально распределена с параметрам и . Тогда
Очевидно, что использование формул последней теоремы упрощает и ускоряет вычисление математического ожидания и дисперсии биномиально распределенной случайной величины по сравнению с применением исходных определений для М(Х) и
3.4. Функция распределения дискретной случайной величины
Определение. Функцией распределения случайной величины Х называется такая функция значение которой в точке x численно равно вероятности того, что в произвольном испытании значение случайной величины Х окажется меньше чем х, т.е.
Данное определение задает функцию распределения не только для дискретных, но и для непрерывных случайных величин.
Пример. Пусть закон распределения случайной величины Х имеет вид
X: |
|
1 |
2 |
|
0,3 |
0,7 |
Найти функцию распределения этой случайной величины.
Решение. Найдем сначала F(x) для некоторых значений переменной х. Например,
так как данная случайная величина не имеет значений меньших нуля, а потому событие (Х < 0) для нее является невозможным. Аналогично, при любом значении переменной х, которое менее или равно 1, будем иметь Далее имеем:
Аналогично, при любом значении переменной х таком, что , будем иметь
(Или, другими словами, так как все значения данной случайной величины менее 2,5, то событие (Х < 2,5) является достоверным, а потому его вероятность равна 1.) Аналогично, при любом значении переменной х, которое более или равно 2, будем иметь
Окончательно имеем:
График найденной функции распределения изображен на рис. 3.
Свойства функции распределения
- Функция распределения является неубывающей функцией.
- Область значений:
- Асимптотические свойства: (другими словами, прямые у =0 и у =1 являются асимптотами (левой и правой соответственно) графика y =F (x ) ).
- Вероятность того, что в произвольном испытании значение случайной величины Х будет принадлежать полуинтервалу где и – произвольные числа, вычисляется по формуле
.
Доказательство. Значение функции распределения равна вероятности соответствующего события, но область значений вероятности есть отрезок – тем самым доказано свойство 2.
Используя определение функции распределения, получаем . Но произвольное значение случайной величины принадлежит числовой прямой, поэтому событие является невозможным. Вероятность невозможного события равна нулю (см. § 1.3), поэтому
Аналогично, учитывая, что событие является достоверным, а вероятность такого события равна 1, получаем
Нетрудно видеть, что
причем события правой части этого равенства несовместны. Принимая во внимание определение функции распределения и теорему сложении вероятностей для несовместных событий, получаем
что равносильно свойству 4.
Доказательство свойства 1 мы оставляем читателю в качестве упражнения (указание: используйте рассуждении от противного и свойство 4).
Тема 4. Непрерывная случайная величина
4.1. Плотность распределения непрерывной случайной величины
Неформально говоря, случайная величина непрерывна, если ее значения полностью заполняют некоторый интервал. Более точно, справедливо
Определение. Случайная величина называется непрерывной, если ее функция распределения непрерывна на всей числовой прямой и дифференцируема при всех х за исключением, быть может, отдельных значений.
Определение. Плотностью распределения непрерывной случайной величины Х называется такая функция что вероятность того, что в произвольном испытании значение случайной величины Х окажется принадлежащим некоторому отрезку , вычисляется по формуле
Принимая во внимание геометрический смысл определенного интеграла, получаем
Геометрический смысл плотности распределения. Вероятность того, что в произвольном испытании значение случайной величины Х окажется принадлежащим некоторому отрезку , численно равна площади под кривой плотности распределения на данном отрезке (см. рис. 4).
Пример. Пусть плотность распределения случайной величины Х имеет вид:
Найти вероятности:
а) б) в)
Решение. а) По определению плотности распределения,
Вместе с тем, данная плотность распределения задана аналитически по-разному на промежутках и отрезка интегрирования. Соответственно, используя свойства определенного интеграла, получаем
По геометрическому смыслу плотности распределения, полученная вероятность численно равна площади под кривой плотности распределения (см. рис. 5) на отрезке , т.е. равна площади фигуры, составленной из отрезка длины 1 и прямоугольника со сторонами и 0,6.
б) Неравенство равносильно тому, что . Учитывая, что на промежутке данная плотность распределения равна 0, получаем
в) Аналогично предыдущим пунктам задачи, имеем
Рассмотрение геометрического смысла результатов последних двух пунктов данного примера мы оставляем читателю в качестве упражнения. ▶
Свойства плотности распределения
- Плотность распределения неотрицательна, т.е. при всех х.
- Интеграл от плотности распределения на всей числовой прямой равен 1, т.е.
.
(Данное свойство называется условием нормировки плотности распределения.)
Доказательство. Предположим противное: пусть найдется такой отрезок , что плотность распределения отрицательна на этом отрезке. Тогда (см. свойства определенного интеграла) имеем
Но, по определению плотности распределения, интеграл, стоящий в левой части последнего неравенства равен . Так как вероятность события не может быть отрицательной, приходим к противоречию, что доказывает справедливость свойства 1.
По определению плотности распределения,
Но событие является достоверным, поэтому его вероятность равна 1. Тем самым доказано свойство 2.
Парадокс нулевой вероятности
Теорема. Для непрерывной случайной величины вероятность принять произвольное числовое значение равно нулю.
Доказательство. Пусть – произвольное число. События и – равны, поэтому, по определению плотности распределения, получаем
(см. свойства определенного интеграла).
Из парадокса нулевой вероятности вытекает, что для любой непрерывной случайной величины вероятности попадания в произвольный отрезок числовой оси или в соответствующий полуинтервал (интервал) равны между собой, т.е. справедливо
Следствие. Пусть Х непрерывная случайная величина и – произвольные числа. Тогда верно следующее равенство
Доказательство. Очевидно, что
причем события и – несовместны. Используя последнее равенство и теорему сложения вероятностей для несовместных событий, получаем
Но, согласно парадоксу нулевой вероятности, .Тем самым доказано первое из трех равенств Следствия.
Доказательство оставшихся двух равенств мы оставляем читателю в качестве упражнения.
Функция распределения непрерывной случайной величины
Пусть Х – непрерывная случайная величина и- ее плотность распределения. Используя определения функции распределения (см. § 3.4) и плотности распределения, получаем
.
Обратно, если задана функция распределения непрерывной случайной величины, то (см. теорему об интеграле с переменным верхним пределом) плотность распределения этой случайной величины будет определяться равенством
Таким образом, имеется два равноправных способа задания непрерывной случайной величины: с помощью или плотности распределения, или функции распределения.
Пример. Пусть плотность распределения непрерывной случайной величины Х имеет вид:
Найти функцию распределения.
Решение. Пусть . Тогда
Если , то
Если , то
Таким образом, окончательно, искомая функция распределения имеет вид
(см. рис. 6).
Математическое ожидание и дисперсия непрерывной случайной величины
Формулы для вычисления математического ожидания и дисперсии непрерывной случайной величины аналогичны соответствующим формулам для дискретной случайной величины (см. § 3.3). Действительно, рассмотрим следующую таблицу.
|
Дискретная случайная величина |
Непрерывная случайная величина |
Способ описания |
Закон распределения |
Плотность распределения |
Таким образом, переходя при записи этих формул от дискретной к непрерывной случайной величине, суммирование заменяется интегрированием по всей числовой оси, а вместо вероятности используется плотность распределения .
Пример. Функция распределения непрерывной случайной величины Х имеет вид:
Найти математическое ожидание и дисперсию этой случайной величины.
Решение. Для нахождения и нам потребуется плотность распределения данной случайной величины (см. приведенные выше формулы). Получаем:
или
Тогда имеем
Геометрически, полученное значение математического ожидания есть абсцисса центра тяжести фигуры под графиком плотности распределения, т.е. абсцисса прямоугольного треугольника ОАВ (см. рис. 7; напомним, что центр тяжести треугольника есть точка пересечения медиан этого треугольника, а медианы в точке пересечения делятся в отношении 2:1, считая от вершины).
Завершая решение, найдем дисперсию рассматриваемой случайной величины.
Нормальный закон распределения
Определение. Непрерывная случайная величина имеет нормальный закон распределения с параметрами и , если ее плотность распределения имеет вид
Параметры а и s нормального закона тесно связаны с параметрами распределения рассматриваемой случайной величины. Справедлива следующая теорема.
Теорема. Пусть случайная величина Х имеет нормальный закон распределения с параметрами а и . Тогда
Отметим, что график – результат деформации Гауссовой кривой (см. § 2.3). Рассмотрим, как изменяется этот график при изменении параметров а и нормального закона.
На рис. 8 изображены графики при одинаковом значении параметра : изменение параметра а нормального закона приводит к параллельному переносу графика плотности распределения вдоль оси абсцисс.
На рис. 9 изображены графики при одинаковом значении параметра а : изменение параметра нормального закона приводит к “растяжению” графика вдоль оси ординат при сохранении площади под кривой равной 1 (заметим, что на рис. 9 ).
Теорема. Пусть случайная величина Х имеет нормальный закон распределения с параметрами а и . Тогда справедливы формулы:
(1)
(2)
где – функция Лапласа, – функция распределения случайной величины Х.
Заметим, что график функции распределения нормально распределенной случайной величины получается в результате деформации из графика функции Лапласа (см. рис. 10 и 2).
Пример. Случайная величина Х – ошибка измерительного прибора распределена по нормальному закону с дисперсией равной 16 мк2.
Систематическая ошибка отсутствует. Найти вероятность того, что при одном измерении ошибка:
а) превзойдет по модулю 6 мк;
б) окажется в промежутке от 0,5 до 3,5 мк.
Решение. а) Отсутствие систематической ошибки означает, что значения случайной величины Х группируются около нуля, поэтому (см. § 3.3). Искомой является вероятность . Воспользуемся переходом к противоположному событию: . Так как ,
то , т.е. последняя вероятность точно того вида, что может быть вычислена по формуле (2). Используя формулу (2) при , , получаем
Окончательно имеем
б) Искомая вероятность вычисляется по формуле (1) при :
Упражнение. Пусть случайная величина Х нормально распределена с параметрами а и s . Проверить, что Дать геометрическую интерпретацию этому результату.
Домашнее задание. 3.62, 3.63, 3.65, 3.66.
4.3. Центральная предельная теорема
и теоремы Муавра-Лапласа как следствия из нее
Центральная предельная теорема. Пусть случайные величины – независимы и одинаково распределены. Тогда закон распределения их суммы неограниченно приближается к нормальному при неограниченном увеличении числа n эти х случайных величин.
Отметим, что центральная предельная теорема является частным случаем более общего утверждения – теоремы Ляпунова (подробнее см. учебник Н.Ш. Кремера).
Следствие. Биномиальный закон распределения неограниченно приближается к нормальному при неограниченном увеличении параметра n этого закона.
Доказательство. Пусть случайная величина Х – биномиально распределена с параметрами n и p . Рассмотрим сначала тот конкретный пример, когда Х – число наступлений некоторого события А в n повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью p. Введем в рассмотрение случайные величины такие, что – число наступлений события А в i –ом испытании, где Случайная величина принимает значение 1, если в i –ом испытании событие А наступило и значение 0 – в противном случае. Сумма случайных величин принимает значение m тогда и только тогда, когда число Х наступлений события А в n испытаниях равно m., т.е.
.
Тогда по центральной предельной теореме для случайной величины Х получаем требуемое утверждение. Аналогично данное Следствие доказывается и в общем случае.
Данное Следствие при работе с биномиально распределенными случайными величинами (при достаточно больших n ) позволяет использовать формулы, известные для нормально распределенных случайных величин. Именно это и происходит при применении теорем Муавра-Лапласа. Так, заменяя в формуле (1) из § 4.2 а и математическим ожиданием и средне квадратическим отклонением биномиально распределенной случайной величины ( см. § 3.3), обозначая также , приходим к интегральной теореме Муавра-Лапласа.
Геометрически приближение биномиального распределения к нормальному означает, что с ростом n точки плоскости с координатами неограниченно приближаются к кривой плотности нормального закона (здесь m – неотрицательное целое, не превосходящее n, значение вычисляется по формуле Бернулли; см. рис. 11).
Тогда справедливо приближенное равенство
где , которое, записанное явно, и есть локальная теорема Муавра-Лапласа.
Тема 5. Двумерные случайные величины
5.1. Совместные распределения и их параметры
Определение. Вектор , компоненты Х и Y которого являются случайными величинами, называется случайным вектором или двумерной случайной величиной.
Пример. Пусть Х – рост человека, Y – вес человека. Тогда – (непрерывная) двумерная случайная величина.
Пример. Пусть Х и Y – числа попаданий в мишень первого и второго стрелков (соответственно). Тогда – (дискретная) двумерная случайная величина.
Сравнивая между собой одномерную (см. выше темы 3, 4) и двумерную случайные величины, заметим, что, если результат измерения первой – точка на прямой, то результат измерения второй – точка плоскости.
Определение. Закон распределения одной из переменных при фиксированном значении другой называется условным распределением.
Определение. Связь между переменными называется статистической, если каждому значению одной переменной ставится в соответствие условное распределение другой переменной.
Отметим, что задание двумерной случайной величины равносильно заданию статистической связи между переменными.
Рассмотрим сначала двумерную дискретную случайную величину.
По аналогии с одномерным случаем, закон распределения двумерной дискретной случайной величины задается с помощью таблицы вида:
|
|
… |
|
… |
|
|
|
… |
|
… |
|
… |
… |
… |
… |
… |
… |
|
|
… |
|
… |
|
… |
… |
… |
… |
… |
… |
|
|
… |
|
… |
|
где
По аналогии с основным свойством закона распределения одномерной случайной величины, справедливо равенство
Приведенная таблица называется совместным законом распределения случайных величин Х и Y.
Пример #. Совместный закон распределения случайных величин Х и Y имеет вид:
|
0 |
1 |
1 |
0,1 |
0,2 |
2 |
0,3 |
0,4 |
Найти математическое ожидание случайной величины Х.
Решение. Прежде всего найдем закон распределения случайной величины Х. Так как
то закон распределения Х имеет вид:
X: |
|
1 |
2 |
|
0,3 |
0,7 |
Тогда
Оставляем читателю в качестве упражнения проверку того, что закон распределения случайной величины Y имеет вид:
Y: |
|
0 |
1 |
|
0,6 |
0,4 |
и
Определение. Связь между переменными называется функциональной, если каждому значению из области определения одной переменной поставлено в соответствие однозначно определенное значение другой переменной.
Примерами такого вида связи изобилует курс математического анализа:
, и т.д. и т.д.
Определение. Функциональная связь между значениями одной переменной и условными математическими ожиданиями другой переменной называется корреляционной.
Определение. График корреляционной зависимости называется линией регрессии.
Корреляционные зависимости бывают двух видов ( по и по ) в зависимости от того, которая из переменных выполняет роль аргумента: или . Соответственно, – точки корреляционной зависимости по и – точки корреляционной зависимости по .
Пример. По совместному закону распределения из предыдущего примера (Пример #) найти корреляционную зависимость по .
Решение. Применяя теорему умножения вероятностей, получаем
где вероятности, стоящие в числителях последних дробей, берутся из таблицы совместного закона распределения Примера #, вероятность найдена в том же примере. Таким образом, условное распределение случайной величины Y при имеет вид:
|
|
0 |
1 |
|
По этому закону распределения находим условное математическое ожидание:
.
Аналогично получаем:
|
|
0 |
1 |
|
Собирая вместе полученные результаты, запишем корреляционную зависимость по в виде следующей таблицы:
|
1 |
2 |
|
Упражнение. По совместному распределения Примера # убедиться, что корреляционная зависимость по имеет вид:
|
0 |
1 |
Рассмотрим теперь непрерывную двумерную случайную величину.
Определение. Функция называется плотностью распределения непрерывной двумерной случайной величины , если для произвольных чисел
() вероятность того, что в произвольном испытании значение случайной величины Z попадает в прямоугольник вычисляется по формуле
Условные плотности распределения определяются формулами:
Соответственно, условные математические ожидания тогда вычисляются по формулам:
Коэффициент корреляции и его свойства
Определение. Коэффициентом корреляции случайных величин Х и Y называется число, определяемое равенством
где
Коэффициент корреляции является мерой тесноты линейной связи между переменными.
Величина называется ковариацией и обозначается .
Замечание. Из свойства математического ожидания (см. § 3.3) следует, что, если случайные величины Х и Y независимы, то коэффициент корреляции равен нулю. Существенно, что обратное утверждение неверно, т.е. в общем случае из условия равенства коэффициента корреляции нулю не следует, что данные случайные величины независимы.
Упражнение. Совместное распределение случайных величин X иY имеет вид:
|
0 |
1 |
0 |
0,2 |
0,2 |
1 |
0,3 |
0,3 |
Убедиться, что и данные случайные величины независимы.
Упражнение. По совместному распределению Примера # вычислить коэффициент корреляции. (Ответ. )
Упражнение. Совместное распределение величин X иY имеет вид:
|
0 |
1 |
|
-1 |
0,2 |
0 |
|
0 |
0 |
0,6 |
|
1 |
0,2 |
0 |
|
Убедиться, что , но данные случайные величины – зависимы (более того, можно заметить, что в данном случае X иY связаны наиболее “жесткой” из всех возможных связей – функциональной: ).
Теорема (Область возможных значений коэффициента корреляции). Модуль коэффициента корреляции не превосходит1, т.е.
Теорема. Если модуль коэффициента корреляции двух случайных величин равен 1, то между этими случайными величинами существует линейная функциональная зависимость.
Пример. Пусть совместный закон распределения случайных величин X иY имеет вид:
|
1 |
2 |
0 |
0,4 |
0 |
1 |
0 |
0,6 |
Тогда Оставляем читателю в качестве упражнения проверку того, что в данном случае
Из определения ковариации следует, что
Другими словами, ковариация является мерой неравенства между математическим ожиданием произведения двух случайных величин и произведением их математических ожиданий. Аналогично, применительно к дисперсии, справедливо равенство
Двумерный нормальный закон распределения
Определение. Случайная величина называется распределенной по двумерному нормальному закону с параметрами , если ее плотность распределения имеет вид:
,
где
Теорема. Пусть двумерная случайная величина имеет двумерный нормальный закон распределения. Тогда корреляционные зависимости между X и Y – линейны:
где
Это важное свойство двумерного нормального закона будет использовано нами позже при рассмотрении теории корреляции.
Тема 6. Закон больших чисел
6.1. Неравенство Чебышёва
Лемма Чебышёва. Пусть среди значений случайной величины нет отрицательных. Тогда вероятность того, что в некотором испытании значение этой случайной величины превысит число , оценивается по формуле
Так как события и взаимно противоположны, то и лемма Чебышёва может быть также представлена в виде
Пример. В среднем в течение часа на вокзал прибывает 400 пассажиров. Оценить:
а) вероятность того, что число пассажиров, прибывших на вокзал в течение часа, будет более 420;
б) верхнюю границу для числа прибывших пассажиров, которую можно гарантировать с вероятностью не меньшей 0,9.
Решение. Пусть – число пассажиров, прибывающих на вокзал в течение наудачу выбранного часа. По условию, значения этой случайной величины группируются около 400. Тем самым, имеем Полагая в неравенстве Чебышёва получаем
Из условия и второй формы записи неравенства Чебышёва следует, что
где – искомая верхняя граница для числа пассажиров. Таким образом, имеем равенство
Решая это уравнение относительно , получаем:
Неравенство Чебышёва. Для произвольной случайной величины вероятность того, что в некотором испытании значение этой случайной величины будет отличаться от математического ожидания не более чем на (по абсолютной величине), оценивается по формуле
где – произвольное положительное число.
Рассмотрим следствия из неравенства Чебышёва.
Следствие 1. Пусть случайные величины – независимы, , где – некоторое число. Тогда вероятность того, что среднее арифметическое этих случайных величин отличается от среднего арифметического их математических ожиданий не более чем на (по абсолютной величине), оценивается по формуле
Следствие 2. Пусть случайные величины – независимы, , где Тогда вероятность того, что среднее арифметическое этих случайных величин отличается от их общего математического ожидания не более чем на (по абсолютной величине), оценивается по формуле
Следствие 3. Пусть – число наступлений некоторого события в повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью . Тогда вероятность того, что число наступлений события отличается от не более чем на (по абсолютной величине), оценивается по формуле
Следствие 4. Пусть – число наступлений некоторого события в повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью . Тогда вероятность того, что частость наступлений события отличается от вероятности не более чем на (по абсолютной величине), оценивается по формуле
Последнее следствие называется также неравенством Бернулли.
Пример. Вероятность сделать покупку для каждого из покупателей магазина равна 0,7. Почему нельзя применить неравенство Чебышёва для оценки вероятности того, что из 1000 покупателей доля таких, которые приобретут в магазине товар, будет заключена в границах от 0,67 до 0,72? Как следует изменить левую границу, чтобы применение неравенства Чебышёва стало возможным? Решить задачу при соответствующем изменении левой границы. Найти эту же вероятность по интегральной теореме Муавра-Лапласа. Объяснить различие в полученных результатах. Сколько покупателей надо обследовать, чтобы те же границы для рассматриваемой доли можно было гарантировать с вероятностью не меньшей 0,9?
Решение. Неравенство Чебышёва позволяет оценивать вероятности попадания значения случайной величины только в границы, которые симметричны относительно математического ожидания этой случайной величины. Но в данном случае интервал (0,67; 0,72) несимметричен относительно , где – доля покупателей, которые приобретут в магазине товар, – вероятность приобретения товара. Соответственно, для того, чтобы применение неравенства Чебышёва стало возможным, левая граница интервала должна отстоять от ровно настолько, насколько отстоит правая, т.е. на Неравенства и – равносильны, а вероятность оценивается по следствию 4 (неравенству Бернулли) при, , :
Точно такая же вероятность может быть найдена по следствию 2 из интегральной теореме Муавра-Лапласа:
Очевидно, что полученные результаты не противоречат друг другу. Поясним, почему для одной и той же вероятности неравенство Чебышёва дает лишь оценку, в то время как теорема Муавра-Лапласа – точное значение. Дело в том, что неравенство Чебышёва получено без каких бы то ни было предположений о законе распределения рассматриваемой случайной величины. В результате область его применений широка, но получение точных результатов с его помощью оказывается невозможным. В свою очередь, теорема Муавра-Лапласа опирается на свойство биномиального распределения: по центральной предельной теореме, это распределение неограниченно приближается к нормальному при неограниченном увеличении числа испытаний. Использование закона распределения рассматриваемой случайной величины и позволяет уточнить окончательный результат.
Перейдем теперь к последнему заданию данной задачи. По условию и неравенству Бернулли, имеем
причем . Тогда полученное равенство
содержит единственную неизвестную: . Решая это уравнение относительно этой неизвестной, получаем:
6.2. Теоремы Бернулли и Чебышёва
Теорема Бернулли. Пусть – частость наступления события А в повторных независимых испытаниях, в каждом из которых это событие наступает с вероятностью .Тогда для произвольного вероятность того, что частость будет отличаться от вероятности не более чем на (по абсолютной величине) неограниченно приближается к 1 при неограниченном увеличении значения , т.е.
Другими словами, теорема Бернулли утверждает, что частость наступления некоторого события сходится по вероятности к вероятности наступления этого события.
Доказательство. Учитывая, что вероятность произвольного события не превосходит 1, из неравенства Бернулли следует
Переходя к пределу при , получаем
Крайние левый и правый пределы этого двойного неравенства равны 1. Таким образом, имеем
что равносильно утверждению теоремы Бернулли.
Теорема Бернулли утверждает, что, если за значение вероятности некоторого события взять значение частости наступления этого события, найденную по результатам испытаний, то вероятность погрешности (даже сколь угодно малой) приближенного равенства будет стремиться к нулю с увеличением числа испытаний .
Теорема Чебышёва. Пусть случайные величины независимы, одинаково распределены и Тогда для произвольного вероятность того, что среднее арифметическое этих случайных величин отличается от их общего математического ожидания не более чем на (по абсолютной величине) , неограниченно приближается к 1 при неограниченном увеличении числа этих случайных величин т.е.
Другими словами, теорема Чебышёва утверждает, что среднее арифметическое некоторого числа случайных величин, имеющих одинаковое математическое ожидание, сходится по вероятности к их общему математическому ожиданию.
Говоря о приложениях теоремы Чебышёва, отметим, в первую очередь, следующую возможность. Если за значение некоторого неизвестного параметра а взять среднее арифметическое результатов независимых измерений этого параметра, то вероятность погрешности (даже сколь угодно малой) приближенного равенства будет стремиться к нулю при неограниченном увеличении числа этих измерений.
Теоремы Бернулли и Чебышёва являются явными реализациями так называемого закона больших чисел, утверждающего, что при проведении достаточно большого числа испытаний погрешности отдельных испытаний взаимно погашают друг друга (тем самым среднее арифметическое независимых случайных величин – результатов этих испытаний – стремится к постоянной величине при неограниченном увеличении числа испытаний).
Домашнее задание: 6.10, 6.11, 6.17, 6.19, 6.22.
Математическая статистика
Тема 7. Выборочный метод
7.1. Оценка неизвестного параметра. Свойства оценок
Определение. Случайная величина называется оценкой неизвестного параметра , если значение этой случайной величины, найденное по результатам серии из измерений, может быть принято за приближенное значение этого параметра т.е. если справедливо равенство .
Пример. Если в качестве неизвестного параметра рассматривается вероятность наступления некоторого события , то оценкой этого параметра служит частость наступлений события в независимых испытаниях (см. статистическое определение вероятности и теорему Бернулли).
Пример. Пусть случайные величины имеют одинаковое математическое ожидание, т.е. . Тогда оценкой значения общего математического ожидания таких случайных величин служит среднее арифметическое этих случайных величин. Важным частным случаем рассмотренной ситуации является следующий
Пример. Оценкой некоторого параметра служит среднее арифметическое результатов независимых измерений этого параметра (см. теорему Чебышёва).
При непосредственном использовании приближенного равенства говорят о точечном оценивании неизвестного параметра.
Возможно также интервальное оценивание неизвестного параметра. Для того, чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия.
Определение. Для произвольного интервал называется доверительным интервалом; сама величина называется в этом случае предельной ошибкой выборки.
Определение. Вероятность того, что неизвестное значение оцениваемого параметра накрывается доверительным интервалом, называется доверительной вероятностью.
Таким образом, если – оценка параметра , то
– доверительная вероятность (мы предполагаем, что оценка является непрерывной случайной величиной).
Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибки выборки.
Решение задачи интервального оценивания связано с определением характера закона распределения используемой оценки .
Рассмотрим теперь некоторые свойства оценок.
Определение. Оценка параметра называется несмещенной, если математическое ожидание этой оценки равно оцениваемому параметру, т.е.
Определение. Оценка параметра называется состоятельной, если для произвольного выполняется следующее предельное соотношение
Другими словами, оценка параметра состоятельна, если эта оценка сходится по вероятности к данному параметру. (Напомним, что примеры сходимости такого рода дают теоремы Бернулли и Чебышёва, см. § 6.2.)
Определение. Несмещенная оценка некоторого параметра называется эффективной, если она обладает наименьшей дисперсией среди всех несмещенных оценок, найденных по выборке заданного объема.
Пример. Частость наступления некоторого события является несмещенной, состоятельной и эффективной оценкой вероятности этого события. Заметим, что свойства несмещенности и состоятельности частости были фактически рассмотрены нами ранее в несколько ином контексте. Действительно, несмещенность частости – равенство – является одним из свойств биномиально распределенной случайной величины (см. § 3.3). Состоятельность частости утверждается теоремой Бернулли (см. § 6.2).
Пример. Среднее арифметическое некоторого числа независимых и одинаково распределенных случайных величин является несмещенной и состоятельной оценкой общего математического ожидания этих случайных величин. Действительно, несмещенность – есть свойство 5 математического ожидания (см. § 3.3). Состоятельность утверждается теоремой Чебышёва (см. § 6.2).
7.2. Первичная обработка результатов эксперимента. Характеристики вариационных рядов
Пусть произведено независимых измерений некоторой случайной величины : – результат первого измерения, – результат второго измерения, … , – результат -го измерения. Тогда через обозначим среднее арифметическое результатов измерений рассматриваемой случайной величины , то есть
.
Заметим, что, поскольку – случайные величины, то также является случайной величиной.
Пример. Детали некоторого вида расфасованы по ящикам. Результаты обследования шести из этих ящиков (на предмет наличия в них бракованных деталей) представлены в таблице:
1 |
2 |
3 |
4 |
5 |
6 |
|
0 |
1 |
0 |
1 |
2 |
1 |
где – номер ящика, – число бракованных деталей в -ом ящике.
Тогда
Приведенное вычисление подсказывает возможность более компактного представления результатов обследования, а именно – использование таблицы следующего вида:
0 |
1 |
2 |
||
2 |
3 |
1 |
6 |
где – число бракованных деталей в ящике; – число ящиков.
Такая таблица называется вариационным рядом. Аналогично, в общем случае имеем
Определение. Вариационным рядом признака называется таблица вида
… |
|||||
… |
где – возможные значения данного признака, – числа объектов, , – число обследованных объектов ().
Отметим, что величины , значения которых заполняют нижнюю строку вариационного ряда, называются эмпирическими частотами.
Очевидно, что признак , для которого строится вариационный ряд, есть случайная величина.
В том случае, когда результаты обследования представлены вариационным рядом, формула для вычисления имеет вид
(1)
Сама величина в этом случае называется средней вариационного ряда или выборочной средней. Появление в данном случае дополнительного эпитета выборочный связано с тем, что обследованные объекты выбираются из некоторой объемлющей (так называемой генеральной) совокупности объектов.
Напомним, что есть случайная величина. В тех случаях, когда данные эксперимента представлены вариационным рядом, а вычисляется по формуле (1), случайными являются эмпирические частоты .
Вариационный ряд является оценкой закона распределения случайной величины (признака) . Поясним, почему это так. По вариационному ряду построим равнозначную ему таблицу, заменяя строку эмпирических частот частостями . В результате имеем:
… |
|||||
… |
1 |
Учитывая, что частости являются оценками вероятностей (, см. § 7.1), приходим к требуемому утверждению.
Принимая во внимание последнее замечание, получаем
.
Таким образом, средняя вариационного ряда (выборочная средняя) является оценкой математического ожидания той случайной величины (признака) , для которой построен данный вариационный ряд. Можно доказать, что эта оценка является несмещенной и состоятельной.
Учитывая полученные результаты, аналогично построим оценку для дисперсии случайной величины :
Выражение, стоящее в правой части последнего равенства называется выборочной дисперсией и обозначается , то есть
Выборочная дисперсия – оценка для дисперсии случайной величины . Можно доказать, что выборочная дисперсия является смещенной оценкой для , то есть Несмещенная оценка для определяется равенством
Заметим, что для вычисления выборочной дисперсии удобно использовать формулу – аналог свойства 3 дисперсии (см. § 3.3):
Определение. Вариационный ряд называется дискретным, если число возможных значений признака – конечно, и непрерывным (интервальным), если возможные значения признака полностью заполняют некоторый интервал.
Вариационные ряды, которые встречались нам до сих пор в данном параграфе, являются дискретными. Рассмотрим пример интервального вариационного ряда.
Пример. По результатам обследования некоторого малого предприятия получены следующие данные о ежемесячной заработной плате его сотрудников:
5 – 15 |
15 – 25 |
25 – 35 |
||
|
3 |
5 |
2 |
10 |
где – размер заработной платы (ден. ед.), – число сотрудников.
Для нахождения параметров непрерывного вариационного ряда – выборочной средней, выборочной дисперсии – этот вариационный ряд сначала сводится к дискретному (в результате выбора середины для каждого из рассматриваемых интервалов), после чего и вычисляются по приведенным выше формулам.
Например, данный интервальный вариационный ряд сводится к следующему дискретному:
10 |
20 |
30 |
||
|
3 |
5 |
2 |
10 |
Тогда
или
7.3. Сплошное и выборочное наблюдения
Пусть дана некоторая (генеральная) совокупность объектов и требуется оценить значение некоторого параметра этой совокупности (например, среднее значение прибыли для малых предприятий некоторого региона или долю выборщиков, проголосовавших за данного кандидата на выборах).
Предположим, что от полного обследования всей генеральной совокупности решили отказаться. Среди возможных причин здесь можно указать разрушение объекта в результате обследования (в том случае, когда, например, требуется узнать средний срок службы лампочек в партии, изготовленной на некотором заводе, полное обследование, конечно, даст исчерпывающую информацию, но сама совокупность перестанет существовать). Другая возможная причина – высокая стоимость полного обследования или его чрезмерная продолжительность (например, выводы экспресс-анализа результатов голосования на некоторых выборах требуется получить в кротчайшие сроки, что невозможно при тотальном обследовании). Наконец, генеральная совокупность может обладать таким свойством как «необозримость» (например, рыба некоторого вида в данном море).
Тогда из генеральной совокупности выделяют часть (выборку). Обследуя ее, находят значение исследуемого параметра в выборке. На основании этих результатов делают вывод о значении этого параметра во всей генеральной совокупности (см. ниже §§ 7.4, 7.5).
Среди основных принципов выборочного метода следует отметить случайность и массовость. В самом деле, объекты в выборку следует отбирать случайным образом, в противном случае объективных данных о генеральной совокупности не получить. Также, следует постараться взять в выборку так много объектов как возможно, поскольку малая выборка будет плохо отражать свойства всей генеральной совокупности.
Определение. Ошибкой репрезентативности называется ошибка, связанная с тем, что не все объекты генеральной совокупности попадут в выборку (и, тем самым, будут обследованы).
Заметим, что ошибка репрезентативности выборочного метода принципиально неустранима.
В зависимости от способа формирования, выборки бывают собственно-случайные, механические, типические, серийные (подробнее см. учебник Н.Ш. Кремера). В дальнейшем мы будем рассматривать лишь собственно-случайные выборки, которые составляются следующим образом:
Предположим, что объекты генеральной совокупности некоторым образом перенумерованы. Из полной совокупности номеров случайным образом отбирают столько номеров, сколько элементов должно быть в выборке. Элементы генеральной совокупности с такими номерами и подвергаются обследованию.
Выборка называется повторной, если перед отбором очередного номера из полной совокупности номеров предыдущий номер возвращается назад в совокупность; в противном случае – бесповторной.
В данном курсе мы рассмотрим следующие из задач выборочного метода:
– оценка неизвестного значения генерального среднего (см. § 7.4);
– оценка неизвестного значения генеральной доли (см. § 7.5).
7.4. Оценка генеральной средней
Пусть задана генеральная совокупность объектов, для которой фиксирован некоторой числовой признак . Требуется оценить среднее значение признака в генеральной совокупности – генеральную среднюю . Для этого из генеральной совокупности выделяют часть (выборку), и по результатам ее обследования находят среднее значение признака в выборке – выборочную среднюю , с помощью которой и выполняют оценивание неизвестного значения . Другими словами, выборочная средняя является оценкой генерального среднего .
Пример. Пусть некоторая совокупность деталей обследуется на предмет их длины. Тогда – средняя длина деталей в генеральной совокупности, – средняя длина деталей в выборке, – длина детали, взятой наудачу из генеральной совокупности.
В том случае, когда оценивание сводится к использованию приближенного равенства , говорят о точечном оценивании генеральной средней (см. § 7.1).
Возможно также интервальное оценивание генеральной средней (см. § 7.1). Для того чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия.
Определение. Для произвольного интервал называется доверительным интервалом; величина называется в этом случае предельной ошибкой выборки.
Определение. Вероятность того, что неизвестное значение генеральной средней накрывается доверительным интервалом, называется доверительной вероятностью.
Таким образом,
– доверительная вероятность.
Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибке выборки.
Как и всякая оценка, выборочная средняя является случайной величиной. Действительно, элементы выборки отбираются из генеральной совокупности случайным образом, а значение зависит от того, какие именно элементы попали в выборку. Рассмотрим свойства выборочной средней как случайной величины.
Теорема 1. Математическое ожидание выборочной средней равно генеральной средней , то есть
Среднее квадратическое отклонение выборочной средней вычисляется по формулам
– в случае повторной выборки и
– в случае бесповторной,
где – объем выборки, – объем генеральной совокупности, – дисперсия признака для рассматриваемой генеральной совокупности (генеральная дисперсия).
Напомним, что, по определению среднего квадратического отклонения, равно корню квадратному из дисперсии выборочной средней, то есть
(аналогично в случае бесповторной выборки).
Замечание. При применении на практике формул Теоремы 1 полагают, что
.
Теорема 2. Закон распределения выборочной средней неограниченно приближается к нормальному при неограниченном увеличении объёма выборки.
Согласно результатам § 4.3, для произвольной нормально распределенной случайной величины справедлива формула
.
Учитывая Теорему 2, в последнем равенстве положим . Тогда, по Теореме 1, и , и приведенная формула – свойство нормального закона распределения принимает вид:
.
Вероятность, стоящая в левой части последнего равенства называется доверительной вероятностью (см. выше), поэтому сама эта формула называется формулой доверительной вероятности.
Теорема 3. Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней .
Пример. Для обследования средней заработной платы трехсот рабочих была образована выборка, состоящая из пятидесяти рабочих. Результаты выборочного обследования представлены в таблице:
Заработная плата в месяц, ден. ед. |
100-120 |
120-140 |
140-160 |
160-180 |
180-200 |
200-220 |
|
Число рабочих |
5 |
10 |
19 |
10 |
4 |
2 |
50 |
1. Найти вероятность того, что средняя заработная плата всех рабочих отличается от средней выборочной не более чем на 5 ден. ед. (по абсолютной величине) в случае повторной и бесповторной выборок.
2. Найти границы, в которых с вероятностью 0,9545 заключена средняя заработная плата всех рабочих.
3. Сколько рабочих надо взять в выборку, чтобы полученные в п. 2 доверительные границы можно было гарантировать с вероятностью 0,9973.
Решение. Исходный вариационный ряд является интервальным. Для нахождения его характеристик, прежде всего, сведем этот вариационный ряд к дискретному:
110 |
130 |
150 |
170 |
190 |
210 |
||
5 |
10 |
19 |
10 |
4 |
2 |
50 |
где – возможное значение заработной платы – середина - го интервала исходного вариационного ряда (ден. ед.); – число рабочих; .
.
.
Для нахождения доверительной вероятности (см. п. 1 задания) воспользуемся одноименной формулой при . Но сначала вычислим средние квадратические отклонения выборочной средней для каждого из рассматриваемых типов выборок.
а) Повторная выборка.
б) Бесповторная выборка, .
.
.
Доверительный интервал в данном случае: .
Тем самым получаем, что: неизвестное значение средней заработной платы всех рабочих накрывается интервалом (146,6;156,6) с вероятностью 0,8557 в случае повторной выборки и с вероятностью 0,89 в случае бесповторной выборки.
В п. 2 задания искомым является доверительный интервал, для нахождения которого следует вычислить предельную ошибку выборки . Из условия и формулы доверительной вероятности в случае повторной выборки следует, что
.
По таблице значений функции Лапласа найдем такое значение , что . Имеем . Поскольку
,
то
.
Соответствующий доверительный интервал:
.
Аналогично, в случае бесповторной выборки имеем
.
Соответствующий доверительный интервал:
.
Таким образом, неизвестное значение средней заработной платы всех рабочих с вероятностью 0,9545 накрывается доверительным интервалом (144,73; 158,47) в случае повторной выборки и доверительным интервалом (145,33; 157,87) в случае бесповторной выборки.
При решении п. 3 задания будем считать известными приближенные значения выборочной средней и выборочной дисперсии . Также используем предельные ошибки выборки , найденные в п. 2. Рассмотрим сначала случай повторной выборки.
Из условия и формулы доверительной вероятности следует, что
.
По таблице значений функции Лапласа найдем такое значение аргумента , что : . Тогда
и .
Используя известную формулу для (см. Теорему 2 данного параграфа), имеем равенство:
,
в котором единственной неизвестной является искомый объем выборки . Решая получившееся уравнение относительно , получаем
.
Подставляя в правую часть последнего равенства известные величины, получаем
(заметим, что округление в данном случае, по смыслу искомой величины, следует произвести до целых, причем в большую сторону, чтобы обеспечить, как говорят, запас по вероятности).
Повторяя проведенные рассуждения для случая бесповторной выборки, имеем:
,
.
Решая полученное уравнение относительно , получаем
,
откуда
,
(также как и выше округление здесь произведено в большую сторону).
Таким образом, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (144,73; 158,47) в случае повторной выборки, в эту выборку следует взять 113 рабочих. Аналогично, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (145,33; 157,87) в случае бесповторной выборки, в выборку следует взять 94 рабочих.
Замечание. Если в задаче на выборочный метод объем генеральной совокупности много больше объема выборки (в ряде случаев это предполагается по умолчанию, а объем генеральной совокупности просто не указан), естественно считать, что . Как следует из формул Теоремы 1, случаи повторной и бесповторной выборок дают тогда совпадающие результаты.
7.5 Оценка генеральной доли
Пусть требуется оценить долю тех объектов заданной генеральной совокупности, которые удовлетворяют некоторому условию – генеральную долю . Для этого из генеральной совокупности выделяют выборку, и по результатам её обследования находят долю тех объектов, которые удовлетворяют условию – выборочную долю . Очевидно, что , где – объем выборки, – число тех её объектов, которые удовлетворяют условию . Выборочная доля в данном случае является той величиной, с помощью которой мы получим информацию о неизвестном значении генеральной доли.
Таким образом, выборочная доля является оценкой генеральной доли .
Пример. – доля бракованных деталей генеральной совокупности, – доля бракованных деталей в выборке. Условие (событие) – деталь, взятая наудачу из генеральной совокупности – бракована.
Простейший способ оценивания – точечное оценивание – подразумевает использование приближенного равенства .
Как и всякая оценка, выборочная доля является случайной величиной. Действительно, выборка из генеральной совокупности выделяется случайным образом. Соответственно то значение, которое примет выборочная доля, будет случайным.
Следующие теоремы характеризуют выборочную долю как случайную величину.
Теорема 1. Математическое ожидание выборочной доли равно генеральной доле:
.
Среднее квадратическое отклонение () выборочной доли вычисляется по формулам
– в случае повторной выборки и
– в случае бесповторной выборки, где – объем генеральной совокупности.
Напомним, что по определению среднего квадратического отклонения в случае повторной выборки имеем (аналогично в случае бесповторной выборки).
Замечание. При применении формул Теоремы 1 полагают
.
Теорема 2. Закон распределения выборочной доли неограниченно приближается к нормальному закону при неограниченном увеличении объема выборки.
Подобно тому, как мы это сделали в предыдущем параграфе, как следствие Теоремы 2, получаем формулу доверительной вероятности:
– в случае повторной выборки. Заменяя в последнем равенстве на , получаем формулу доверительной вероятности в случае бесповторной выборки.
По определению, величина , фигурирующая в формуле доверительной вероятности, называется предельной ошибкой выборки. Интервал называется доверительным интервалом.
Выше было указано, в чем состоит точечная оценка генеральной доли. Интервальное оценивание сводится, например, к вычислению значения доверительной вероятности при заданной предельной ошибке выборки.
Теорема 3. В случае повторной выборки выборочная доля является несмещенной и состоятельной оценкой генеральной доли.
Пример. Выборочные данные о надое молока для 100 коров из 1000 представлены таблицей:
Надой молока, ц |
10-20 |
20-30 |
30-40 |
40-50 |
50-60 |
|
Число коров |
2 |
18 |
46 |
30 |
4 |
100 |
1. Найти вероятность того, что доля всех коров с надоем молока более 40 ц отличается от такой доли в выборке не более чем на 0,05 (по абсолютной величине), для случая повторной и бесповторной выборок.
2. Найти границы, в которых с вероятностью 0,9596 заключена доля всех коров с надоем более 40 ц.
3. Сколько коров надо обследовать, чтобы с вероятностью 0,9786 для генеральной доли коров с надоем более 40 ц можно было гарантировать те же границы что и в п.2.
Решение. Число коров с надоем более 40 ц равно 34 (, см. заданный вариационный ряд). Тогда .
Для нахождения доверительной вероятности п. 1 задания воспользуемся одноименной формулой при .
Пусть рассматриваемая выборка – повторная. Тогда по формуле Теоремы 1, учитывая Замечание, получаем
.
Следовательно
.
Аналогично, в случае бесповторной выборки:
,
.
Доверительным в данном случае является интервал . Таким образом, неизвестное значение доли всех коров с надоем более 40 ц накрывается доверительным интервалом (0,29;0,39) с вероятностью 0,7109 в случае повторной выборки и с вероятностью 0,733 в случае бесповторной выборки.
В п. 2 задания при заданном значении доверительной вероятности искомым является доверительный интервал. Поскольку значение выборочной доли известно, остается найти предельную ошибку выборки .
Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем
.
По таблице значений функции Лапласа найдем такое , что : . Тогда и, используя найденное выше значение , получаем
.
Соответственно, доверительным будет интервал:
.
Пусть выборка – бесповторная. Аналогично предыдущему, получаем предельную ошибку выборки
и доверительный интервал:
.
Таким образом, доля всех коров с надоем молока более 40 ц с вероятностью 0,9596 накрывается доверительным интервалом (0,243; 0,437) в случае повторной выборки и интервалом (0,248; 0,432) в случае бесповторной выборки.
В п. 3 по заданным значениям доверительной вероятности и предельной ошибки выборки найдем необходимый объем выборки. Из начла решения заимствуем значение выборочной доли , найденное по исходному вариационному ряду.
Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем:
.
По таблице значений функции Лапласа найдем такое , что : . Тогда и, . Подставляя вместо выражение из Теоремы 1, приходим к уравнению относительно неизвестной величины :
.
Решая это уравнение относительно , подставляя в полученную формулу известные величины, завершаем решение
(заметим, что, как и ранее, округление здесь произведено в большую сторону).
Аналогично, в случае бесповторной выборки из условия и формулы доверительной вероятности следует равенство
или, принимая во внимание известное выражение для (см. Теорему 1):
.
Решая это уравнение относительно , получаем
.
Подставляя в правую часть последнего равенства известные значения, окончательно имеем:
.
Таким образом, в повторную выборку надо взять 127 коров, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,243; 0,437). Аналогично, в бесповторную выборку надо взять 123 коровы, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,248; 0,432).
Домашнее задание: 9.19, 9.21, 9.23, 9.30.