Статистичний аналіз вибіркових сукупностей

Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Савула В.Р.
Викладач: Назаревич О. Б.
Термін до: 18 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.


Прізвище Савула
Ім'я Вікторія
По-батькові Романівна
Факультет ФІС
Група СНм-51
Залікова книжка СНм-11-245
Репозиторія
Презентація доповіді на тему Статистичний аналіз вибіркових сукупностей
є розміщеною в Репозиторії.


Математична статистика - це розділ математики, в якому вивчаються математичні методи планування експериментів, систематизації, обробки та використання статистичних даних для наукових і практичних цілей. У математичній статистиці передбачається, що результати дослідних даних і спостережень є реалізацією випадкових величин або процесів, що мають ті чи інші закони розподілу.
Методи математичної статистики обгрунтовують способи угрупування та аналізу статистичних відомостей про якісні та кількісні ознаки об'єктів різної природи. Проведення обстеження кожного об'єкта великої сукупності щодо цікавить ознаки чи фізично неможливо або економічно недоцільно. Для встановлення статистичних закономірностей випадково відбирають з усієї сукупності обмежене число об'єктів і піддають їх вивчення.

Історія розвитку теорії ймовірностей та математичної статистики

Математична статистика як наука починається з робіт знаменитого німецького математика Карла Фрідріха Гауса, який на основі теорії ймовірностей дослідив і обгрунтував метод найменших квадратів, застосований для обробки астрономічних даних.
Поняття випадкового процесу введено в XX столітті і пов'язане з іменами О.М. Колмогорова, А.Я. Хинчина, О.Є. Слуцького, Н. Вінера.
У другому десятилітті XX століття почалися дослідження динаміки біологічних популяцій. Італійський математик Віто Вольтерра розробив математичну теорію цього процесу на базі чисто детерміністських міркувань.
Математична статистика бурхливо розвивається і в даний час. За останні 40 років можна виділити чотири принципово нові напрями досліджень:

  • Розробка та впровадження математичних методів планування експериментів;
  • Розвиток статистики об'єктів нечислової природи як самостійного напряму в прикладній математичній статистиці;
  • Розвиток статистичних методів, стійких по відношенню до малих відхилень від використовуваної ймовірнісної моделі;
  • Широке розгортання робіт зі створення комп'ютерних пакетів програм, призначених для проведення статистичного аналізу даних.

Теоретичні основи статистичної обробки експериментальних даних

Функцією розподілу називають функцію [math]F(x)[/math], що визначає ймовірність того, що неперервна випадкова величина [math]X[/math] в результаті випробування прийме значення, менше числа [math]x[/math]:
[math]F(x)=P(X\lt x)[/math]

Властивості функції розподілу:
1) значення функції розподілу належать відрізку [0,1]: [math]0\lt =F(x)\lt =1[/math];
2) [math]F(x)[/math] - неспадними функція, тобто [math]F(x_2)\gt =F(x_1)[/math] якщо [math]x_2\gt x_1[/math];
3) ймовірність того, що випадкова величина прийме значення, укладену в інтервалі (a, b), дорівнює приросту функції розподілу на цьому інтервалі: [math]P(a\lt =X\lt b)=F(b)-F(a)[/math]  ;
4) якщо всі можливі значення випадкової величини належать інтервалу (a, b), то F(x)=0 при x<=a і F(x)=1 при x>=b .
Щільністю розподілу ймовірностей неперервної випадкової величини Х називають функцію [math]f(x)[/math] - першу похідну від функції розподілу [math]F(x)[/math]:

[math]f(x)=F^{'}(x)[/math]

Властивості щільності розподілу:
1) щільність розподілу - невід'ємна функція: f (x) ≥ 0;
2) невласний інтеграл від щільності розподілу в межах від - ∞ до + ∞ дорівнює одиниці: [math]\int\limits_{-\infty }^{+\infty }{f\left( x \right)dx=1}[/math]  ;
3) ймовірність того, що неперервна випадкова величина Х прийме значення, що належить інтервалу ([math]x_{1}[/math]; [math]x{2}[/math]), дорівнює певному інтегралу від щільності розподілу, взятому від a до b:
[math]P\left( {{x}_{1}}\le X\lt {{x}_{2}} \right)=\int\limits_{{{x}_{1}}}^{{{x}_{2}}}{f\left( x \right)dx=F\left( {{x}_{2}} \right)-F\left( x{{c}_{1}} \right)}[/math]

Числові характеристики випадкових величин

Математичне сподівання [math]M(X)[/math] неперервної випадкової величини, розподіленої на інтервалі ([math]x_{1}[/math]; [math]x{2}[/math]), характеризує її середнє значення і визначається за формулою
[math]M\left( X \right)=\int\limits_{{{x}_{1}}}^{{{x}_{2}}}{xf\left( x \right)dx}[/math] Якщо можливі значення неперервної випадкової величини належать всій числовій осі Ох, то математичне сподівання і дисперсія визначаються за формулами
Середнє квадратичне відхилення σ (Х) випадкової безперервної величини визначається за формулою
[math]\sigma \left( X \right)=\sqrt{D(X)}\[/math]

Статистичний аналіз вибіркової сукупності

Вибірковою сукупністю, або просто вибіркою, називають сукупність випадково відібраних об'єктів. Обсягом n вибіркової сукупності називають число об'єктів цієї сукупності.
Інтервальним статистичним розподілом вибірки називають перелік інтервалів та відповідних їм частот [math]n[/math] i відносних частот [math]{n}_{i}/{n}[/math].
Гістограмою частот називають ступінчасту фігуру, що складається з прямокутників, підставами яких служать часткові інтервали довжиною [math]h[/math], а висоти дорівнюють відношенню [math]{n_i}/{h}[/math] (Щільність частоти).
Для розподілу спостережень за інтервалами необхідно знайти довжину інтервалу [math]h[/math], яка визначається як відношення різниці між максимальним [math]X[/math] ma [math]x[/math] і мінімальним [math]{X}_{min}[/math] елементами вибірки до кількості інтервалів [math]k[/math]
[math]h=\frac{{{X}_{\max }}-{{X}_{\min }}}{k}[/math]
Кількість інтервалів [math]k[/math] (ціле число) доцільно вибрати не менше 7, але й не більше 15 або визначити за формулою Старджесса [math]n=1+3,322lgn[/math],
де [math]n[/math] - обсяг вибірки.
Якщо [math]k[/math], яке обчислюється за формулою Старджесса, неціле число, то в якості числа інтервалів можна найближчим до [math]k[/math] ціле число, не менше [math]k[/math].

Статистичні оцінки параметрів розподілу

Вибірковою дисперсією D називають середнє арифметичне квадратів відхилення спостережуваних значень ознаки від їх середнього значення [math]\widehat{{{x}_{b}}}[/math] . Якщо всі значення х 1, х 2, ...., Х n ознаки різні, то
[math]{{D}_{v}}=\frac{1}{n}\sum{{{\left( {{x}_{i}}-{{\overline{x}}_{v}} \right)}^{2}}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}^{2}}_{i}-{{\overline{x}}_{v}}^{2}}[/math]
Якщо значення ознаки [math]{x}_{1}[/math] ,[math]{x}_{2}[/math] , ...., [math]{x}_{k}[/math] мають відповідно частоти [math]{n}_{1}[/math] , [math]{n}_{2}[/math] , ..... [math]{n}_{k}[/math] , причому [math]{n}_{1}[/math] + [math]{n}_{2}[/math]+ ... ... + [math]{n}_{k}[/math] = n, то
[math]{{D}_{v}}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{n}_{i}}{{\left( {{x}_{i}}-{{\overline{x}}_{v}} \right)}^{2}}}[/math]
Вибірковим середнім квадратичним відхиленням називають квадратний корінь з вибіркової дисперсії:
[math]{{\sigma }_{v}}=\sqrt{{{D}_{v}}}[/math]

Метод моментів

Метод моментів - це визначення невідомих параметрів статистичного розподілу шляхом прирівнювання теоретичних моментів розглянутого розподілу відповідним емпіричним моментів того ж порядку. Для знаходження параметра λ показового розподілу необхідно прирівняти початковий момент першого порядку показового розподілу початкового моменту першого порядку емпіричного розподілу:
[math]\frac{1}{\lambda }={{\overline{x}}_{v}}[/math]

Перевірка статистичних гіпотез

Встановлення закону розподілу вибіркової сукупності проводиться через перевірку статистичних гіпотез.
Статистичною називають гіпотезу про вид невідомого розподілу. Статистичні гіпотези бувають двох видів: нульова (висувний) гіпотеза Н0 і конкуруюча (суперечить нульовий) Н1.
Проведення перевірки статистичними методами приводить до появи помилок двох родів: 1) помилка першого роду - відкидання правильної гіпотези, 2) помилка другого роду - прийняття неправильної гіпотези.
Імовірність зробити помилку першого роду називають рівнем значущості і позначають через α. Найбільш часто рівень значимості беруть 0,05, що означає наявність ризику відкинути правильну гіпотезу в п'яти випадках зі ста.
Критичною областю називають сукупність значень критерію, за яких нульову гіпотезу відкидають.
Областю прийняття гіпотези називають сукупність значень критерію, за яких нульову гіпотезу приймають.
Критичною точкою називають точку, яка відокремлює критичну область від області прийняття гіпотези. Для кожного критерію є відповідні таблиці, по яких і знаходять критичну точку.
Для підтвердження гіпотези, що висувається порівнюються:

1) коефіцієнт асиметрії   статистичного розподілу з коефіцієнтами асиметрії   рівномірного і нормального розподілів (   );
2) ексцес статистичного розподілу з ексцесами рівномірного ( ) Або нормального розподілів ( );
3) коефіцієнт варіації V статистичного розподілу з коефіцієнтами варіації показового ( ) Розподілу.

Список використаних літератури

1.

Посилання