Коваріаційний аналіз

Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Кордяк М.В.
Викладач: Назаревич О. Б.
Термін до: 18 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.


Прізвище Кордяк
Ім'я Микола
По-батькові Володимирович
Факультет ФІС
Група СНм-51
Залікова книжка СНм-11-234

Коваріаційний аналіз — сукупність методів математичної статистики, що відносяться до аналізу моделей залежності середнього значення деякої випадкової величини [math]Y[/math] одночасно від набору (основних) якісних факторів [math]F[/math] і (супутніх) кількісних факторів [math]X[/math]. Фактори задають поєднання умов, при яких були отримані спостереження [math]X,Y[/math], і описуються за допомогою індикаторних змінних, причому серед супутніх і індикаторних змінних можуть бути як випадкові, так і невипадкові (контрольовані в експерименті).

Якщо випадкова величина [math]Y[/math] є вектором, то говорять про багатовимірний коваріаційний аналіз.

Коваріаційний аналіз часто застосовують перед дисперсійним аналізом, щоб перевірити гомогенність (однорідність) вибірки спостережень [math] X, Y [/math] за всіма супутніми факторами.

Приклади задач

Приклад 1: Нехай маємо 3 методи вивчення арифметики і групу студентів. Група розбирається випадковим чином на 3 підгрупи для вивчення одного із методів. В кінці курсу студенти складають загальний тест, за результатами якого ставляться бали. Також для кожного студента є одна чи кілька характеристик (кількісних) їх загальної освідченості.

Потрібно перевірити гіпотезу про одинакові ефективності методик навчання.

Приклад 2: Для порівняння якості декількох видів крохмалю (пшеничного, картопляного та ін.) був проведений експеримент, в якому вимірювалася міцність крохмальних плівок. Також для кожного випробування виміряна товщина використовувалася крохмальної плівки.

Потрібно перевірити гіпотезу про однаковій якості різного крохмалю.

Приклад 3: Нехай для кількох різних шкіл були зібрані оцінки їхніх учнів, отримані на загальному для всіх іспиті. Також для кожного з учнів відомі оцінки, отримані ними з інших іспитів.

Потрібно перевірити гіпотезу про однаковій якості освіти в школах.

Постановка завдання

Основні теоретичні та прикладні проблеми коваріаційного аналізу відносяться до лінійних моделей. Зокрема, якщо аналізуються [math]n[/math] спостереження [math]Y_1,\ldots,Y_n[/math] з [math]p[/math] супутніми змінними [math](X=(x^{(1)},\ldots,x^{(p)}))[/math], [math]k[/math] можливими типами умов експерименту [math](F=(f_1,\ldots,f_k))[/math], то лінійна модель відповідного коваріаційного аналізу задається рівнянням:

[math]Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j}+\sum\limits_{j=1}^p{\beta_jx_i^{(j)}+\eps_{ij}}[/math]

де [math]i=1,\ldots,n[/math], індикаторні змінні [math]f_{ij}[/math] дорівнюють 1, якщо [math]j[/math]-е умова експерименту мало місце при спостереженні [math]Y_i[/math], і дорівнюють 0 в іншому випадку. Коефіцієнти [math]\theta_j[/math] визначають ефект впливу [math] j [/math]-ї умови, [math]x_i^{(j)}[/math] — значення супутньої змінної [math]x^{(j)}[/math], при якій отримано спостереження. [math]Y_i[/math],[math]\beta_j[/math] — значення відповідних коефіцієнтів регресії [math]Y[/math] по [math]x^{(j)}[/math], [math]\eps_{ij}[/math] — незалежні випадкові помилки з нульовим математичним сподіванням.

Наведена формула задає лінійну модель однофакторного коваріаційного аналізу з [math]p[/math] незалежними змінними і [math]k[/math] рівнями фактора. При включенні в модель додаткових факторів в правій частині рівняння з'являться складові, які відповідають за ефекти рівнів нововведених в модель факторів.

Зауваження: коефіцієнти регресії у наведеній формулі не залежать від якісних чинників. Це включає припущення, що лінійна залежність має однакові коефіцієнти для кожного значення якісного фактора.

Основне призначення коваріаційного аналізу — використання в побудові статистичних оцінок [math]\theta_1,\ldots,\theta_k[/math]; [math]\beta_1,\ldots,\beta_p[/math] і статистичних критеріїв для перевірки різних гіпотез щодо значень цих параметрів. Якщо в моделі апріорі задати [math]\beta_1=\dots=\beta_p=0[/math], то вийде модель дисперсійного аналізу, якщо ж виключити вплив кількох факторів (задати [math]\theta_1=\dots=\theta_k=0[/math]), то вийде модель регресійного аналізу.

Гіпотези та критерії коваріаційного аналізу

Основною гіпотезою, що перевіряється в коваріаційного аналізу, є

[math]H_0:\;\theta_1=\theta_2=\dots=\theta_k.[/math]

У випадку однієї супутньої змінної ([math] p = 1 [/math]) цю гіпотезу можна інтерпретувати таким чином. За припущеннями лінійної моделі коваріаційного аналізу для кожного рівня фактору криві регресії залежної змінної [math] Y [/math] на супутню змінну [math] x [/math] паралельні. Гіпотеза [math] H_0 [/math] припускає, що ці криві збігаються.

Наприклад, в задачі про сорти крохмалю ця гіпотеза стверджує, що різниця міцності плівок зумовлена виключно різними значеннями випадкової змінної «товщина плівки».

Зазвичай ця гіпотеза перевіряється за допомогою критерію Фішера в результаті відомості поставленого завдання до задач дисперсійного аналізу.

Література

  1. Кендалл М.Дж., Стьюарт А. Багатомірний статистичний аналіз і тимчасові ряди. — М., 1976.
  2. Шеффе Г. Дисперсійний аналіз. — М., 1980.
  3. Фішер Р. А. Статистичні методи для дослідників. — М. Госстатіздат. 1958.