Математична статистика

Тема: Математична статистика

План

  1. Вибірка.
  2. Оцінки параметрів розподілу. Властивості оцінок.
  3. Приклади оцінок з їх властивостями.
  4. Методи побудови оцінок: а) емпіричні або вибіркові оцінки;

б) метод моментів;

в) метод максимальної правдоподібності.

  1. Асимптотично-нормальні оцінки.
  2. Надійні інтервали.

Д.з. 085-116: 599, 600, 602, 604, 605.

Математична статистика – це наука про способи отримання висновків із спостережень над випадковими величинами. Математична статистика оперує з скінченними кількостями результатів спостережень (випробувань).

Сукупність спостережуваних значень випадкової величини Х це первинний статистичний матеріал, який називається генеральною сукупністю. З генеральної сукупності, яку уявляють нескінченною, роблять вибірку об’єму (обсягу) n – це результати n випробувань.

Припустимо, що випадкова величина Х має функцію розподілу F(t). Позначимо ,…, - результати n випробувань. До проведення випробувань ,…, - незалежні випадкові величини з однаковим розподілом Х і однаковою функцією розподілу F(t), а після випробувань – це конкретні числа, кажуть реалізація вибірки. Вектор х=(,…,) - вибірка з розподілу F(t).

Нехай F(t) залежить від деяких параметрів, які позначимо вектором. Це позначається .

Нехай х=(,…,) – реалізація вибірки з розподілом . Значення параметра - невідоме і його треба оцінити за цією реалізацією вибірки.

Нам треба вказати правило, за яким, тільки за реалізацією вибірки, можна обчислити значення параметра , тобто, побудувати функцію =h(x)=h(,,…,), яка приблизно дорівнює : . Цю функцію називатимемо оцінкою параметра .

- це функція від вибірки, тому це також випадкова величина.

Означення. Будь-яку функцію h задану на вибірках будемо називати статистикою:

h(,,…,) -- статистика.

Приклади статистик: h=ln(…), h=++…+, h=(++…+)/n.

Оцінкою параметра називається така статистика h(х), що приблизно дорівнює . Позначають =h(x). Для одного і того ж параметра можна запропонувати багато оцінок. міра розсіювання оцінки відносно параметра .

Теорема. Серед усіх оцінок з однаковою дисперсією найменшу міру розсіювання відносно мають оцінки, в яких математичне сподівання дорівнює оцінюваному параметру : .

Доведення..

Властивості оцінок

1. Оцінка називається незміщеною(незсуненою) оцінкою параметра , якщо .

Властивість незміщеної оцінки. Міра розсіювання незміщеної оцінки відносно параметра це дисперсія цієї оцінки:.

  1. Незміщену оцінку параметра q називають його найкращою незміщеною оцінкою (ефективною оцінкою), якщо вона має мінімально можливу дисперсію:, тоді, згідно теореми, буде найменша можлива міра розсіювання.

3. Часто розглядають послідовність оцінок , де n=1,2,3,... – об'єм вибірки, який можна змінювати (приклади ті самі).

Послідовність оцінок називається асимптотично-незміщеною послідовністю оцінок параметра , якщо .

4. Послідовність оцінок називається конзистентною (змістовною) послідовністю оцінок параметра , якщо для будь-якого .

e можна брати деже малим 0,01; 0,0001 і т.д., тобто ця властивість означає що ймовірність того, щояк завгодно мало відхилиться від q (є (q-e,q+e)) близька до одиниці при достатньо великих n. Така збіжність називається збіжність за імовірністю і позначається за імов.

5. Послідовність оцінок називається сильно конзистентною послідовністю оцінок параметра q, якщо . Тобто розподіл наближається до сталої величини q при великих n. Така збіжність називається збіжність з імовірністю 1 і позначається , з імов. 1 і це сильніша збіжність.

Нагадування. Закон великих чисел: для будь-якого

1) , 2) .

Це збіжність за імовірністю: за імов. і за імов.

Посилений закон великих чисел стверджує, що насправді в цих випадках є сильніша збіжність – збіжність з імовірністю 1.

Приклади оцінок

  1. Оцінка ймовірності події

Нехай в n випробуваннях подія А відбулася k разів. Треба оцінити ймовірність події А: p=P(A).

Розглянемо таку оцінку – відносну частоту події А.

Властивості. а) Ця оцінка незміщена.

Доведення. k – випадкова величина, має розподіл Бернуллі. Mk=np, Dk = npq, М nn(A)=M k/n=p.

б) Ця оцінка конзистентна і, навіть, сильно конзистентна. Це випливає із закону великих чисел: з імов.1.

Вправа. Знайти міру розсіювання nn відносно р, тобто Dnn .

2. Оцінка математичного сподівання

Припустимо, що існує МХ = а – число.

Розглянемо оцінку математичного сподівання: - середнє арифметичне.

Властивості. а) оцінка незміщена.

Доведення. .

б) конзистентна і, навіть сильно конзистентна. Це також випливає із закону великих чисел.

Вправа. Знайти міру розсіюваннявідносно МХ, тобто .

3. Оцінка дисперсії при відомому математичному сподіванні

Нехай МХ = а – відоме число і DX – скінченна (невідома).

=

Властивості. а) незміщена.

Доведення. =.

2) сильно конзистентна.

Доведення. За посиленим законом великих чисел: з імов. 1, тобто з імов. 1.

Вправа. Знайти міру розсіювання відносно DХ, тобто .

Методи побудови оцінок

Емпіричні (вибіркові) оцінки

Нехай вибірка розподілу X з функцією розподілу F(t).

(Нагадування: F(t)=P(X<t). )

Означення. Емпіричною функцією розподілу називають таку функцію F*n(t), яка визначає для кожного t відносну частоту події (Х<t) на основі вибірки, тобто F*n(t) =, де: – кількість значень вибірки менших за t. Це оцінка функції розподілу: = F*n(t).

Властивість. При кожному значенні t емпірична функція розподілу є незміщеною і конзистентною оцінкою значення функції розподілу F(t), як оцінка ймовірності (пр.1).

- вибірка

,...,x*n – варіаційний ряд – елементи вибірки у зростаючому (не строго) порядку.

Різниця між максимальним та мінімальним вибірковими значеннями називається розмахом вибірки і позначається R: R=x*n -x*1

Якщо є однакові елементи вибірки, то позначимо – елементи вибірки у строго зростаючому порядку без повторів – називаються варіантами, і n1,n2,...,nk – їхні відповідні частоти. n1+n2+...+nk=n.

При цьому скачки в точках будуть – відносні частоти варіант.

Відносні частоти позначають, =. Цей графік F*n(t) є графіком функції розподілу деякої дискретної випадкової величини. Якщо є функція розподілу, то можна побудувати закон розподілу, який позначають Х' :

X'

P

Цей розподіл X', що відповідає емпіричній функції розподілу F*n(t) називається емпіричним або вибірковим розподілом. Вибірковий закон розподілу X' або відповідність між варіантами та їх частотами називають також ще дискретним варіаційним чи статистичним рядом.

За допомогою цієї закону розподілу X', або емпіричної функції розподілу F*n(t) можна будувати інтуїтивно наочні оцінки параметрів розподілу:

Якщо параметр обраховується за деякою формулою з допомогою закону розподілу Х, то оцінку параметра рахуємо за тою ж формулою але з допомогою закону розподілу X'.

Або якщо параметр є деякою функцією від функції розподілу F(t) – , то за оцінку параметра беремо ту ж функцію від емпіричної функції розподілу F*n(t) –=g(F*n(t)). Такі оцінки називаються емпіричними або вибірковими оцінками.

Приклади вибіркових оцінок

1. Вибіркове середнє значення:

.

Ми вже знаємо, що ця оцінка є незміщеною та сильно конзистентною оцінкою математичного сподівання.

  1. Вибіркова дисперсія:

, або, якщо розписувати першу формулу дисперсії отримаємо:.

Ця оцінка має позначення . Це приклад оцінки дисперсії при невідомому математичному сподіванні, якщо відомо що МХ і DХ скінченні.

=

Властивості. а) оцінка зміщена (погано), але асимптотично-незміщена.

=

=, але

при , тобто є асимптотична незміщеність оцінки;

б) сильно конзистентна: з імов.1

(за законом великих чисел).

Отже, якщо обсяг вибірки досить великий, то вибіркова дисперсія є цілком хорошою оцінкою дисперсії, але при малому обсязі вибірки (n < 30) дається взнаки зміщеність, тому вибіркову дисперсію виправляють за допомогою поправки Беселя. Виправлена дисперсія позначається і дорівнює .

Виправлена дисперсія вже є незміщеною оцінкою дисперсії, крім того, вона залишається сильно конзистентною, бо поправка при .

Зауваження. При обрахунку, зручно використати властивість дисперсії:

, для будь-якого числа .

. Число найкраще вибирати близьким до () і заокруглювати його до стількох знаків після коми, як у елементах вибірки. Аналогічно, при обчисленні, для зручності можна використовувати всі властивості математичного сподівання, тому що =МХ '.

Приклад. На модулі з теми «ДР і ряди» з 9 балів 10 студентів отримали такі бали: 7,7 3,6 5,2 5,7 3 6,9 4,9 1,5 3,3 8,1. Оцінити математичне сподівання та дисперсію.

, ,,=5.

=

=(пораховано точно, без жодних заокруглень).

.

Відповідь. =4,99 =4,9.

Наведемо ще деякі вибіркові оцінки.

3. Вибіркове середнє квадратичне відхилення: .

Розглядають також часто оцінку, отриману з виправленої дисперсії: .

4. Вибіркові початкові моменти : то .

5. Вибіркові центральні моменти, аналогічно як дисперсія , , .

6.Коефіцієнт варіації для випадкових величин рахується за формулою,то .

  1. Вибіркова медіана. Якщо n – непарне, то середнє значення у варіаційному ряді буде вибірковою медіаною: = x*( n+1) / 2 . Якщо n – парне, то беруть середнє арифметичне двох середніх значень: =(x*n / 2 + x*n / 2+1 ) /2. Вибіркова мода: – та варіанта, що має найбільшу частоту, якщо така існує.

8. Для сумісного розподілу (Х,Y) вибірка має вигляд , ,…,.

-- вибірковий закон сумісного розподілу .

Вибірковий коефіцієнт кореляції , де .

Вибіркове рівняння лінійної регресії і т.п.

Теорема. Якщо параметр G обчислюється для розподілу Х за формулою

, то його вибіркова оцінка є незміщеною і сильно конзистентною, тобто з імов. 1.

Зауваження. Такими параметрами серед попередніх були початкові моменти. Отже, вибіркові початкові моменти є незміщеними і конзистентними оцінками початкових моментів.

Центральні моменти мають складнішу формулу обчислення (використовується попередньо оцінене математичне сподівання), тому, вони необов'язково будуть незміщеними. Але оскільки їх можна виразити через початкові моменти, то вибіркові центральні моменти будуть сильно конзистентними.

Графічне зображення вибіркового розподілу. Інтервальний варіаційний ряд

Графік дискретного варіаційного ряду називається полігоном розподілу.

Приклад. Полігон кількості замовлень X, виконаних майстром за день, за даними спостережень протягом 27 робочих днів:

xi

1

2

3

4

5

6

7

ni

1

2

4

6

8

4

2

Якщо розподіл Х є неперервним і обсяг вибірки великий (), то значення групують по проміжках. Відповідність між проміжками групування та їх частотами називається інтервальним варіаційним рядом. Область можливих значень розподілу ділять на проміжки:

[,), [,),...,[,] – проміжки групування. Їх кількість k рекомендується вибирати за формулою , де n – обсяг вибірки.

Один з способів групування. Вираховують довжину проміжку за формулою. Тоді

a0=x*1 - h/2,, і т.д. Підраховують кількість елементів вибірки (частоту) кожного інтервалу і відносну частоту=.

Інколи вибірка задається у вигляді інтервального варіаційного ряду, в якому можуть бути різними довжини проміжків .

Для оцінки щільності f(t) розподілу Х ділимо відносні частоти на довжини проміжків

f *n(t) =, щоб отримати значення щільності відносних частот на проміжках. Графік f *n(t) називається гістограмою . f *n(t) =

Якщо заданий тільки інтервальний варіаційний ряд, то ми можемо обчислити значення емпіричної функції розподілу F*n(t) тільки на кінцях проміжків: F*n(а0), F*n(а1),... Наносять ці точки на графік та сполучають їх відрізками. Ця ламана називається кумулятою.

За інтервальним варіаційним рядом можна знаходити вибіркові числові оцінки параметрів розподілу тільки приблизно (при групуванні частина інформації втрачається). Для цього вводять як середини проміжків: .

Можна знаходити вибіркові моду , медіанута квантилі як показано на графіках гістограми та кумуляти відповідно.

Математична статистика