Коваріаційний аналіз
Коваріаційний аналіз — сукупність методів математичної статистики, що відносяться до аналізу моделей залежності середнього значення деякої випадкової величини <tex>Y</tex> одночасно від набору (основних) якісних факторів <tex>F</tex> і (супутніх) кількісних факторів <tex>X</tex>. Фактори задають поєднання умов, при яких були отримані спостереження [math]X,Y[/math], і описуються за допомогою індикаторних змінних, причому серед супутніх і індикаторних змінних можуть бути як випадкові, так і невипадкові (контрольовані в експерименті).
Якщо випадкова величина <tex>Y</tex> є вектором, то говорять про багатовимірний коваріаційний аналіз|багатовимірний коваріаційний аналіз]].
Коваріаційний аналіз часто застосовують перед дисперсійним аналізом, щоб перевірити гомогенність (однорідність) вибірки спостережень <tex> X, Y </ tex> за всіма супутніми факторами.
Зміст
Приклади задач
Приклад 1: Нехай маємо 3 методи вивчення арифметики і групу студентів. Група розбирається випадковим чином на 3 підгрупи для вивчення одного із методів. В кінці курсу студенти складають загальний тест, за результатами якого ставляться бали. Також для кожного студента є одна чи кілька характеристик (кількісних) їх загальної освідченості.
Потрібно перевірити гіпотезу про одинакові ефективності методик навчання.
Приклад 2: Для порівняння якості декількох видів крохмалю (пшеничного, картопляного та ін.) був проведений експеримент, в якому вимірювалася міцність крохмальних плівок. Також для кожного випробування виміряна товщина використовувалася крохмальної плівки.
Потрібно перевірити гіпотезу про однаковій якості різного крохмалю.
Приклад 3: Нехай для кількох різних шкіл були зібрані оцінки їхніх учнів, отримані на загальному для всіх іспиті. Також для кожного з учнів відомі оцінки, отримані ними з інших іспитів.
Потрібно перевірити гіпотезу про однаковій якості освіти в школах.
Постановка завдання
Основні теоретичні та прикладні проблеми коваріаційного аналізу відносяться до лінійних моделям. Зокрема, якщо аналізуються <tex>n</tex> спостережень <tex>Y_1,\ldots,Y_n</tex> с <tex>p</tex> супутніми змінними <tex>(X=(x^{(1)},\ldots,x^{(p)}))</tex>, <tex>k</tex> можливими типами умов експерименту <tex>(F=(f_1,\ldots,f_k))</tex>, то лінійна модель відповідного коваріаційного аналізу задається рівнянням:
- <tex>Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}</tex>
де <tex> i = 1, \ ldots, n </ tex>, індикаторні змінні <tex> f_ {ij} </ tex> рівні 1, якщо <tex> j </ tex>-е умова експерименту мало місце при спостереженні <tex> Y_i </ tex>, і рівні 0 в іншому випадку. Коефіцієнти <tex> \ theta_j </ tex> визначають ефект впливу <tex> j </ tex>-го умови, <tex> x_i ^ {(j)} </ tex> — значення супутньої змінної <tex> x ^ {( j)} </ tex>, при якому отримано спостереження <tex> Y_i </ tex>, <tex> \ beta_j </ tex> — значення відповідних коефіцієнтів регресії <tex> Y </ tex> по <tex> x ^ { (j)} </ tex>, <tex> \ eps_ {ij} </ tex> — незалежні випадкові помилки з нульовим математичним очікуванням.
Наведена формула задає лінійну модельоднофакторного коваріаційного аналізу з <tex> p </ tex> незалежними змінними і <tex> k </ tex> рівнями фактора. При включенні в модель додаткових факторів в правій частині рівняння з'являться складові, які відповідають за ефекти рівнів нововведених в модель факторів.
Зауваження: коефіцієнти регресії у наведеній формулі не залежать від якісних чинників. Це включає припущення, що лінійна залежність має однакові коефіцієнти для кожного значення якісного фактора.
Основне призначення коваріаційного аналізу — використання в побудові статистичних оцінок <tex> \ theta_1, \ ldots, \ theta_k </ tex>; <tex> \ beta_1, \ ldots, \ beta_p </ tex> і статистичних критеріїв для перевірки різних гіпотез щодо значень цих параметрів. Якщо в моделі постулювати апріорі <tex> \ beta_1 = \ dots = \ beta_p = 0 </ tex>, то вийде модель дисперсійного аналізу, якщо ж виключити вплив некількісних факторів (покласти <tex> \ theta_1 = \ dots = \ theta_k = 0 </ tex>), то вийде модель регресійного аналізу.
Гіпотези та критерії коваріаційного аналізу
Основною гіпотезою, що перевіряється в коваріаційного аналізу, є
- <tex> H_0: \; \ theta_1 = \ theta_2 = \ dots = \ theta_k. </ Tex>
У випадку однієї сопутствеющей змінної (<tex> p = 1 </ tex>) цю гіпотезу можна інтерпретувати таким чином. За припущеннями лінійної моделі коваріаційного аналізу для кожного рівня фактора криві регресії залежної змінної <tex> Y </ tex> на супутню змінну <tex> x </ tex> паралельні. Гіпотеза <tex> H_0 </ tex> припускає, що ці криві збігаються.
Наприклад, в задачі про сорти крохмалю ця гіпотеза стверджує, що різниця міцності плівок зумовлено виключно різними значеннями випадкової змінної «товщина плівки».
Зазвичай ця гіпотеза перевіряється за допомогою критерію Фішера в результаті відомості поставленого завдання до задач дисперсійного аналізу.
Література
- Кендалл М.Дж., Стьюарт А. Багатомірний статистичний аналіз і тимчасові ряди. — М., 1976.
- Шеффе Г. Дисперсійний аналіз. — М., 1980.
- Фішер Р. А. Статистичні методи для дослідників. — М. Госстатіздат. 1958.