Відмінності між версіями «Коваріаційний аналіз»
(розробка) |
|||
Рядок 1: | Рядок 1: | ||
− | '''Коваріаційний аналіз''' — сукупність методів математичної статистики, що відносяться до аналізу моделей залежності середнього значення деякої випадкової величини < | + | '''Коваріаційний аналіз''' — сукупність методів математичної статистики, що відносяться до аналізу моделей залежності середнього значення деякої випадкової величини <math>Y</math> одночасно від набору (основних) якісних факторів <math>F</math> і (супутніх) кількісних факторів <math>X</math>. Фактори задають поєднання умов, при яких були отримані спостереження <math>X,Y</math>, і описуються за допомогою індикаторних змінних, причому серед супутніх і індикаторних змінних можуть бути як випадкові, так і невипадкові (контрольовані в експерименті). |
− | Якщо випадкова величина < | + | Якщо випадкова величина <math>Y</math> є вектором, то говорять про [[багатовимірний коваріаційний аналіз|багатовимірний коваріаційний аналіз]]. |
− | '''Коваріаційний аналіз''' часто застосовують перед [[дисперсійний аналіз | дисперсійним аналізом]], щоб перевірити гомогенність (однорідність) вибірки спостережень < | + | '''Коваріаційний аналіз''' часто застосовують перед [[дисперсійний аналіз|дисперсійним аналізом]], щоб перевірити гомогенність (однорідність) вибірки спостережень <math> X, Y </ math> за всіма супутніми факторами. |
== Приклади задач == | == Приклади задач == | ||
Рядок 24: | Рядок 24: | ||
== Постановка завдання == | == Постановка завдання == | ||
− | Основні теоретичні та прикладні проблеми коваріаційного аналізу відносяться до лінійних моделям. Зокрема, якщо аналізуються < | + | Основні теоретичні та прикладні проблеми коваріаційного аналізу відносяться до лінійних моделям. Зокрема, якщо аналізуються <math>n</math> спостережень <math>Y_1,\ldots,Y_n</math> с <math>p</math> супутніми змінними <math>(X=(x^{(1)},\ldots,x^{(p)}))</math>, <math>k</math> можливими типами умов експерименту <math>(F=(f_1,\ldots,f_k))</math>, то лінійна модель відповідного коваріаційного аналізу задається рівнянням: |
− | :: < | + | :: <math>Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}</math> |
− | де < | + | де <math> i = 1, \ ldots, n </ math>, індикаторні змінні <math> f_ {ij} </ math> рівні 1, якщо <math> j </ math>-е умова експерименту мало місце при спостереженні <math> Y_i </ math>, і рівні 0 в іншому випадку. Коефіцієнти <math> \ theta_j </ math> визначають ефект впливу <math> j </ math>-го умови, <math> x_i ^ {(j)} </ math> — значення супутньої змінної <math> x ^ {( j)} </ math>, при якому отримано спостереження <math> Y_i </ math>, <math> \ beta_j </ math> — значення відповідних коефіцієнтів регресії <math> Y </ math> по <math> x ^ { (j)} </ math>, <math> \ eps_ {ij} </ math> — незалежні випадкові помилки з нульовим математичним очікуванням. |
− | Наведена формула задає лінійну модель''однофакторного'' коваріаційного аналізу з < | + | Наведена формула задає лінійну модель''однофакторного'' коваріаційного аналізу з <math> p </ math> ''незалежними змінними'' і <math> k </ math> ''рівнями'' фактора. |
При включенні в модель додаткових факторів в правій частині рівняння з'являться складові, які відповідають за ефекти рівнів нововведених в модель факторів. | При включенні в модель додаткових факторів в правій частині рівняння з'являться складові, які відповідають за ефекти рівнів нововведених в модель факторів. | ||
'''Зауваження:''' коефіцієнти регресії у наведеній формулі не залежать від якісних чинників. Це включає припущення, що лінійна залежність має однакові коефіцієнти для кожного значення якісного фактора. | '''Зауваження:''' коефіцієнти регресії у наведеній формулі не залежать від якісних чинників. Це включає припущення, що лінійна залежність має однакові коефіцієнти для кожного значення якісного фактора. | ||
− | Основне призначення коваріаційного аналізу — використання в побудові статистичних оцінок < | + | Основне призначення коваріаційного аналізу — використання в побудові статистичних оцінок <math> \ theta_1, \ ldots, \ theta_k </ math>; <math> \ beta_1, \ ldots, \ beta_p </ math> і статистичних критеріїв для перевірки різних гіпотез щодо значень цих параметрів. Якщо в моделі постулювати апріорі <math> \ beta_1 = \ dots = \ beta_p = 0 </ math>, то вийде модель [[дисперсійний аналіз | дисперсійного аналізу]], якщо ж виключити вплив некількісних факторів (покласти <math> \ theta_1 = \ dots = \ theta_k = 0 </ math>), то вийде модель [[регресійний аналіз | регресійного аналізу]]. |
== Гіпотези та критерії коваріаційного аналізу == | == Гіпотези та критерії коваріаційного аналізу == | ||
Рядок 41: | Рядок 41: | ||
Основною гіпотезою, що перевіряється в коваріаційного аналізу, є | Основною гіпотезою, що перевіряється в коваріаційного аналізу, є | ||
− | :: < | + | :: <math> H_0: \; \ theta_1 = \ theta_2 = \ dots = \ theta_k. </ math> |
− | У випадку однієї сопутствеющей змінної (< | + | У випадку однієї сопутствеющей змінної (<math> p = 1 </ math>) цю гіпотезу можна інтерпретувати таким чином. |
− | За припущеннями лінійної моделі коваріаційного аналізу для кожного рівня фактора криві регресії залежної змінної < | + | За припущеннями лінійної моделі коваріаційного аналізу для кожного рівня фактора криві регресії залежної змінної <math> Y </ math> на супутню змінну <math> x </ math> паралельні. |
− | Гіпотеза < | + | Гіпотеза <math> H_0 </ math> припускає, що ці криві збігаються. |
''Наприклад, в задачі про сорти крохмалю ця гіпотеза стверджує, що різниця міцності плівок зумовлено виключно різними значеннями випадкової змінної «товщина плівки». | ''Наприклад, в задачі про сорти крохмалю ця гіпотеза стверджує, що різниця міцності плівок зумовлено виключно різними значеннями випадкової змінної «товщина плівки». |
Версія за 12:09, 1 березня 2012
Коваріаційний аналіз — сукупність методів математичної статистики, що відносяться до аналізу моделей залежності середнього значення деякої випадкової величини [math]Y[/math] одночасно від набору (основних) якісних факторів [math]F[/math] і (супутніх) кількісних факторів [math]X[/math]. Фактори задають поєднання умов, при яких були отримані спостереження [math]X,Y[/math], і описуються за допомогою індикаторних змінних, причому серед супутніх і індикаторних змінних можуть бути як випадкові, так і невипадкові (контрольовані в експерименті).
Якщо випадкова величина [math]Y[/math] є вектором, то говорять про багатовимірний коваріаційний аналіз.
Коваріаційний аналіз часто застосовують перед дисперсійним аналізом, щоб перевірити гомогенність (однорідність) вибірки спостережень [math]X, Y \lt / math\gt за всіма супутніми факторами. == Приклади задач == '''Приклад 1''': Нехай маємо 3 методи вивчення арифметики і групу студентів. Група розбирається випадковим чином на 3 підгрупи для вивчення одного із методів. В кінці курсу студенти складають загальний тест, за результатами якого ставляться бали. Також для кожного студента є одна чи кілька характеристик (кількісних) їх загальної освідченості. Потрібно перевірити гіпотезу про одинакові ефективності методик навчання. '''Приклад 2''': Для порівняння якості декількох видів крохмалю (пшеничного, картопляного та ін.) був проведений експеримент, в якому вимірювалася міцність крохмальних плівок. Також для кожного випробування виміряна товщина використовувалася крохмальної плівки. Потрібно перевірити гіпотезу про однаковій якості різного крохмалю. '''Приклад 3''': Нехай для кількох різних шкіл були зібрані оцінки їхніх учнів, отримані на загальному для всіх іспиті. Також для кожного з учнів відомі оцінки, отримані ними з інших іспитів. Потрібно перевірити гіпотезу про однаковій якості освіти в школах. == Постановка завдання == Основні теоретичні та прикладні проблеми коваріаційного аналізу відносяться до лінійних моделям. Зокрема, якщо аналізуються \lt math\gt n[/math] спостережень [math]Y_1,\ldots,Y_n[/math] с [math]p[/math] супутніми змінними [math](X=(x^{(1)},\ldots,x^{(p)}))[/math], [math]k[/math] можливими типами умов експерименту [math](F=(f_1,\ldots,f_k))[/math], то лінійна модель відповідного коваріаційного аналізу задається рівнянням:
- [math]Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}[/math]
де <math> i = 1, \ ldots, n </ math>, індикаторні змінні <math> f_ {ij} </ math> рівні 1, якщо <math> j </ math>-е умова експерименту мало місце при спостереженні <math> Y_i </ math>, і рівні 0 в іншому випадку. Коефіцієнти <math> \ theta_j </ math> визначають ефект впливу <math> j </ math>-го умови, <math> x_i ^ {(j)} </ math> — значення супутньої змінної <math> x ^ {( j)} </ math>, при якому отримано спостереження <math> Y_i </ math>, <math> \ beta_j </ math> — значення відповідних коефіцієнтів регресії <math> Y </ math> по <math> x ^ { (j)} </ math>, <math> \ eps_ {ij} </ math> — незалежні випадкові помилки з нульовим математичним очікуванням.
Наведена формула задає лінійну модельоднофакторного коваріаційного аналізу з <math> p </ math> незалежними змінними і <math> k </ math> рівнями фактора. При включенні в модель додаткових факторів в правій частині рівняння з'являться складові, які відповідають за ефекти рівнів нововведених в модель факторів.
Зауваження: коефіцієнти регресії у наведеній формулі не залежать від якісних чинників. Це включає припущення, що лінійна залежність має однакові коефіцієнти для кожного значення якісного фактора.
Основне призначення коваріаційного аналізу — використання в побудові статистичних оцінок <math> \ theta_1, \ ldots, \ theta_k </ math>; <math> \ beta_1, \ ldots, \ beta_p </ math> і статистичних критеріїв для перевірки різних гіпотез щодо значень цих параметрів. Якщо в моделі постулювати апріорі <math> \ beta_1 = \ dots = \ beta_p = 0 </ math>, то вийде модель дисперсійного аналізу, якщо ж виключити вплив некількісних факторів (покласти <math> \ theta_1 = \ dots = \ theta_k = 0 </ math>), то вийде модель регресійного аналізу.
Гіпотези та критерії коваріаційного аналізу
Основною гіпотезою, що перевіряється в коваріаційного аналізу, є
- <math> H_0: \; \ theta_1 = \ theta_2 = \ dots = \ theta_k. </ math>
У випадку однієї сопутствеющей змінної (<math> p = 1 </ math>) цю гіпотезу можна інтерпретувати таким чином. За припущеннями лінійної моделі коваріаційного аналізу для кожного рівня фактора криві регресії залежної змінної <math> Y </ math> на супутню змінну <math> x </ math> паралельні. Гіпотеза <math> H_0 </ math> припускає, що ці криві збігаються.
Наприклад, в задачі про сорти крохмалю ця гіпотеза стверджує, що різниця міцності плівок зумовлено виключно різними значеннями випадкової змінної «товщина плівки».
Зазвичай ця гіпотеза перевіряється за допомогою критерію Фішера в результаті відомості поставленого завдання до задач дисперсійного аналізу.
Література
- Кендалл М.Дж., Стьюарт А. Багатомірний статистичний аналіз і тимчасові ряди. — М., 1976.
- Шеффе Г. Дисперсійний аналіз. — М., 1980.
- Фішер Р. А. Статистичні методи для дослідників. — М. Госстатіздат. 1958.