Розкладання дисперсії на складові

Матеріал з Вікі-знання або навчання 2.0 в ТНТУ
Перейти до: навігація, пошук
Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Пріян Н.
Викладач: Назаревич О. Б.
Термін до: 14 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.



Розглянемо задачу розкладання дисперсії як характеристики коливальності (розкиду, розсіювання, зміни) на простому абстрактному прикладі.

Нехай вимірювана величина LaTeX: y набувала в LaTeX: N дослідах таких значень LaTeX: y_1,y_2,y_3, ..., y_k, ..., y_N, які характеризуються деякими середніми LaTeX: \overline{y} та оцінкою дисперсії LaTeX: S_y^2. Відкладемо результати вимірювань LaTeX: y на осі ординат (рис. 1), а вісь абсцис для одного із випливаючих на LaTeX: y фаторів LaTeX: x.

Img1.jpg

Рисунок - 1


Відрізком довжиною LaTeX: S_y зобразимо показник загального розкиду значення LaTeX: y (скористатися дисперсією LaTeX: S_y^2 не можна, оскільки її розмірність не збігається з розмірністю LaTeX: y). Припустимо, що одночасно з LaTeX: y реєструвалася величина певного фактора, який за припущенням впливає на LaTeX: y. Цей фактор в усіх дослідах набував лише трьох значень. Результати сумісних вимірювань пар значень LaTeX: y і LaTeX: x зображено на рис. 2. помітна загальна тенденція зростання LaTeX: y зі збільшенням LaTeX: x. Однак говорять лише про зміни LaTeX: y у середньому. оскільки в окремих випадках спостерігається , наприклад LaTeX: y_1>y_5, хоча LaTeX: y_5 відповідає більшому LaTeX: x. Ішими словами, кожному LaTeX: x_i відповідає середнє LaTeX: y_i, яке можна розрахувати у даному випадку за чотирма значеннями LaTeX: y. Умовні середні LaTeX: y_i зображено на рис. 3. Розглядаючи LaTeX: \overline{y_i} як самостійні значення, говорять про їх розкид відносно загального середнього LaTeX: \overline{y_i}. Охарактеризуємо цей розкид величиною LaTeX: S^2_{y/x}, яка при певному числі дослідів (в даному випадку 3) залежить від суми квадратів відхилень умовних середніх LaTeX: \overline{y_i} від загального середнього LaTeX: \overline{y}.

Img2.jpg Img3.jpg

Рисунок - 2 Рисунок -3


Природно, що від того, наскільки зміни LaTeX: x впливають на середні зміни LaTeX: y, залежать значення LaTeX: S^2_{y/x} і показник загального розкиду LaTeX: S^2_y. Зазначимо, що при одному й тому ж значенні LaTeX: x в чотирьох дослідах дістали різні значення LaTeX: y (див. рис. 2). Наявність даного розкиду при фіксованому значенні фактора LaTeX: x пояснюється діянням невраховуваних факторів LaTeX: z, тобто різними випадковими причинами. Не виділяючи будь-яку з них, охарактеризуємо сумарний ефект від них залишковою дисперсією LaTeX: S^2_{y/z}, яка, представляючи розкид результатів вимірювань LaTeX: y відносно LaTeX: \overline{y}, залежить від суми квадратів відхилень LaTeX: y, виміряних при кожному значенні LaTeX: x, від відповідних умовних середніх LaTeX: \overline{y_i}. На рис. 3 відрізками зображено показник розкиду для кожного LaTeX: x, а також показник розкиду LaTeX: S_{y/x} середніх значень LaTeX: \overline{y_i}.

Очевидно, що, коли усунути вплив невраховуваних факторів, розкид LaTeX: y при фіксованому LaTeX: x не спостерігатиметься і загальний розкид LaTeX: y визначатиметься тільки діяннями LaTeX: x (див. рис. 4). З іншого боку, якби вплив фактора LaTeX: x на LaTeX: y був відсутній, а випадкові причини виявляли своє діяння (див. рис. 5), то загальний розкид LaTeX: y визначався б тільки ними і характеризувався лише залишковою дисперсією від діяння невраховуваних факторів.

Img4.jpg Img5.jpg

Рисунок - 4 Рисунок - 5


Детально розглянемо основні принципи сучасного експерименту: рандомізацію, багатофакторність, оптимізацію та автоматизацію. Пояснимо перший з них. Дисперсійний аналіз стає об’єктивним інструментом дослідження лише при умові, що кожне значення змінної вибрано з генеральної сукупності випадковим чином. Відбір випадкових значень змінної, який забезпечує однакову імовірність потрапити до вибірки будь-якого з них для всієї генеральної сукупності, називається рандомізацією (від англійського random – вибраний навмання). У біометрії це слово прийнято записувати і вимовляти як рендомізація. Щоб забезпечити однакову імовірність для будь-якого члена генеральної сукупності, найчастіше користуються таблицею випадкових чисел.

Таким чином, при сумісності діяння фактора LaTeX: x та випадкових причин LaTeX: z наступною буде рівність LaTeX: S^2= S^2_{y/x}+ S^2_{y/z}, яка і виражає властивість адитивної дисперсії.

Зазначимо, що ця формула правильна лише при незалежних (некорельованих) факторах, які впливають на LaTeX: y. У противному разі вона ускладнюється: LaTeX: S^2= S^2_{y/x} +  S^2_{y/z} - 2 S_{y/x} S_{y/z} r_{xz} , де LaTeX:  r_{xz} - коефіцієнт кореляції.

Формула адитивності дисперсії є основною всього дисперсійного аналізу. Її застосування часто зустрічається з боку експерименту внутрішній опір. Оскільки при всій своїй простоті вона не є очевидною. Тому, перш ніж дістати на основі цієї формули розрахункові рівняння, доведемо її правильність. Для цього скористаємось формальним перетворенням суми квадратів відхилень від загального середнього: LaTeX: \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y})^2 = \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y_i} + \overline{y_j} + \overline{y})^2 + \sum_{j=1}^n \sum_{i=1}^m [(y_{ij} - \overline{y_i}) + (\overline{y_i} - \overline{y})]^2 =

LaTeX:  = \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y_i})^2 + \sum_{j=1}^n \sum_{i=1}^m (\overline{y_i} - \overline{y})^2 + 2\sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y_i})(\overline{y_i}-\overline{y}) .

Враховуючи, що LaTeX:  \overline{y_i} = \frac{\mathrm 1}{\mathrm n}\, \sum_{j=1}^n y_{ij}  ;

LaTeX:  \overline{y} = \frac{\mathrm 1}{\mathrm mn}\, \sum_{j=1}^n \sum_{i=1}^m y_ij = \frac{\mathrm 1}{\mathrm m}\, \sum_{i=1}^m \frac{\mathrm 1}{\mathrm n}\, \sum_{j=1}^n y_{ij} = \frac{\mathrm 1}{\mathrm m}\, \sum_{i=1}^m \overline{y_i} ;

LaTeX:  \sum_{j=1}^n \overline{y_i} = n \overline{y_i}  ; LaTeX:  \sum_{j=1}^n \overline{y} = n \overline{y} ,

покажемо, як останній доданок при розкладанні перетворюється в нуль:

LaTeX:  \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y_i})(\overline{y_i}-\overline{y}) = \sum_{j=1}^n \sum_{i=1}^m y_{ij}\overline{y_i} - \sum_{j=1}^n \sum_{i=1}^m \overline{y_i} \overline{y_i} -

LaTeX:   - \sum_{j=1}^n \sum_{i=1}^m y_{ij} \overline{y} + \sum_{j=1}^n \sum_{i=1}^m \overline{y_i} \overline{y} = \sum_{i=1}^m \overline{y_i} n \frac{\mathrm 1}{\mathrm n}\, \sum_{j=1}^n y_{ij}-

LaTeX:  -  \sum_{i=1}^m \overline{y_i} \sum_{j=1}^n \overline{y_i} - mn \frac{\mathrm 1}{\mathrm mn}\, \sum_{j=1}^n \sum_{i=1}^m y_{ij} y + m \frac{\mathrm 1}{\mathrm m}\, \sum_{i=1}^m y_i \sum_{j=1}^n \overline{y} =

LaTeX:  = \sum_{i=1}^m n \overline{y_i} \overline{y_i} - \sum_{i=1}^m n \overline{y_i} \overline{y_i} - m n \overline{y} \overline{y} + m n \overline{y} \overline{y}= 0

Отже,

LaTeX:  \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y_i})^2 = \sum_{j=1}^n \sum_{i=1}^m (y_{ij} - \overline{y})^2 + \sum_{j=1}^n \sum_{i=1}^m (\overline{y_i} - \overline{y})^2 ,

що й треба було довести, оскільки LaTeX:  S^2_y  \approx  \sum  \sum (y_{ij} - \overline{y})^2 ; LaTeX:  S^2_{y/x}  \tilde  \sum  \sum (y_{ij} - \overline{y_i})^2 ; LaTeX:  S^2_{y/z}  \approx  \sum  \sum (\overline{y_i} - \overline{y})^2 .

Другий доданок в здобутому результаті містить тільки одну змінну LaTeX:  y_i , яка підсумовується за LaTeX:  m . Тому підсумовування за змінною LaTeX:  j сталою LaTeX:  (\overline{y_i} - \overline{y})^2 рівнозначне помноженню на LaTeX:  n , тобто LaTeX:  \sum_{j=1}^n = n , тоді LaTeX:  \sum_{j=1}^n \sum_{i=1}^m = (\overline{y_i} - \overline{y})^2 = \sum_{i=1}^m  n (\overline{y_i} - \overline{y})^2 .

Така сума називається зваженою, оскільки LaTeX: n у загальному випадку для кожного LaTeX: i може бути різними.

При використанні дисперсійного аналізу запишемо останні формули через вихідні значення LaTeX: y_{ij}: LaTeX:  \sum \sum (y_{ij} - \overline{y})^2 = \sum \sum y^2_{ij} + \sum \sum \overline{y^2} + 2 \sum \sum y_{ij} \overline{y} = LaTeX:  \sum \sum y_{ij}^2 + m n \overline{y^2} - 2 m n y^2 = \sum \sum y^2_{ij} - m n \overline{y^2} = LaTeX:  \sum \sum y_{ij}^2 - \frac{\mathrm mn}{\mathrm m^2 n^2}\, (\sum \sum y_{ij})^2 = \sum_{j=1}^n \sum_{i=1}^m y^2_{ij} - \frac{\mathrm 1}{\mathrm mn}\, (\sum \sum y_{ij})^2 ; LaTeX:  \sum \sum (\overline{y_i} - \overline{y})^2 - \sum^n \sum^m \overline{y^2_i} + \sum^n \sum^m \overline{y^2} - 2\sum^n \sum^m \overline{y_i} \overline{y} = LaTeX:  \sum^n \sum^m y^2_i + \frac{\mathrm mn}{\mathrm m^2 n^2}\, (\sum \sum y_{ij})^2 - 2 m \overline{y} n \overline{y} = LaTeX:  \sum^2 n \frac{\mathrm 1}{\mathrm n^2}\, (\sum^n y_{ij})^2 + \frac{\mathrm 1}{\mathrm mn}\, (\sum \sum y_{ij})^2 - 2 \frac{\mathrm 1}{\mathrm mn}\, (\sum \sum y_{ij})^2 = LaTeX:  = \frac{\mathrm 1}{\mathrm n}\, \sum^m (\sum^n y_{ij})^2 - \frac{\mathrm 1}{\mathrm mn}\, (\sum \sum y_{ij})^2 ;

LaTeX:  \sum \sum (y_{ij} - \overline{y_i})^2 = \sum \sum y^2_{ij} + \sum \sum \overline{y^2_i} - 2 \sum \sum y_{ij} \overline{y_i} = LaTeX:  \sum^m \sum^n y^2_{ij} + n\sum^m y^2_i - 2\sum^m \sum^n y_{ij} \frac{\mathrm 1}{\mathrm n}\, \sum^n y_{ij} = LaTeX: \sum \sum y^2_{ij} +n \sum^m \frac{\mathrm 1}{\mathrm n^2}\, (\sum^n y_{ij})^2 - 2\sum^m \frac{\mathrm 1}{\mathrm n}\, (\sum^n y_{ij})^2 = LaTeX:  \sum \sum y^2_{ij} - \frac{\mathrm 1}{\mathrm n}\, \sum^m (\sum^n y_{ij})^2 .

Ці формули є робочими при одно факторному дисперсійному аналізі. Якщо розглядати дисперсії не функції, а не залежного параметра, а замість LaTeX: y покласти LaTeX: x, то структура формул зберігатиметься.

Посилання

В.О. АНІСТРАТЕНКО, В.Г. ФЕДОРОВ. Математичне планування експериментів в АПК: Навч. посібник. - К.: Вища шк., 1993. - 375 с.: іл.

Особисті інструменти
Google AdSense
реклама