Множинна і рангова кореляції

Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Гусак А.В.
Викладач: Назаревич О. Б.
Термін до: 10 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.


Множинна кореляція — метод кореляційного аналізу для вимірювання кореляційного зв'язку одночасно між двома, трьома і більше кореляційними ознаками.

Рангова кореляція — метод кореляційного аналізу, який використовується для сукупностей невеликого обсягу і для кількісних ознак, якщо їхня сукупність не має нормального розподілу.


Множинна кореляція

Обчислення часткових коефіцієнтів кореляції часто зумовлюється практичною необхідністю. Часто доводиться вивчати явища, які складаються під впливом не одного, а багатьох різних факторів, кожний з яких окремо може не справляти вирішального впливу. Сукупний же вплив факторів інколи виявляється достатньо сильним, щоб по їх змінах можна було робити висновки про величини показника досліджуваного явища. Наприклад, при обчисленні коефіцієнта парної кореляції між урожайністю та кількістю опадів, можна зробити неправильний висновок про зв'язок між цими ознаками, оскільки може спостерігатися помітна кореляція між кількістю опадів і температурою повітря, а остання сама по собі впливає на урожайність. Тому для правильного уявлення про вплив на урожайність саме бажаного фактора (кількості опадів) треба визначити кореляцію між урожайністю і кількістю опадів при однакових значеннях середньої температури повітря. Методи вимірювання кореляційного зв'язку одночасно між двома, трьома і більше кореляційними ознаками створюють вчення про множинну кореляцію (питання множинної кореляції вперше досліджувались англійським вченим Ф.А.Еджвортом у кінці XIX ст.).

Коефіцієнт множинної кореляції (конкордації)

[math]W = \frac{{12S}}{{{m^2}({n^3} - n)}}[/math]
[math]S = \sum\limits_{i = 1}^n {(\sum\limits_{j = 1}^m {{R_{ij}}} } {)^2} - \frac{{{{(\sum\nolimits_{i = 1}^n {\sum\nolimits_{j = 1}^m {{R_{ij}}} } )}^2}}}{n}[/math]
[math]{m}[/math] - Число груп, які ранжуються.
[math]{n}[/math] - Число змінних.
[math]{R_{ij}}[/math] - Ранг i-го фактора у j-й одиниці.

Для перевірки значущості часткових коефіцієнтів кореляції можна застосовувати ті критерії згоди, що й для коефіцієнтів парної кореляції Якщо треба з'ясувати міру лінійної кореляції між якою-небудь ознакою та рештою факторів, то обчислюють загальний коефіцієнт множинної кореляції. Його значущість оцінюється за [math]{\chi}[/math]-критерієм, так як і для кореляційного відношення:

[math]{\chi ^2} = m(n - 1)*W[/math]
[math]{\chi ^2}_{kp} = (\alpha ;(n - 1)(m - 1))[/math]
якщо [math]{\chi ^2} \gt {\chi ^2}_{kp}[/math] ,то гіпотеза про відсутність зв'язку відкидається.

У разі наявності пов'язаних рангів:

[math]W = \frac{{12S}}{{{m^2}({n^3} - n) - m\sum\nolimits_{j = 1}^m {({t^3}_j - {t_j})} }}[/math]
[math]{\chi ^2} = \frac{{12S}}{{mn(n + 1) - \frac{{\sum\nolimits_{j = 1}^m {({t^3}_j - {t_j})} }}{{n - 1}}}}[/math]

Властивості коефіцієнта кореляції

  • Нерівність Коші - Буняковського :
якщо взяти в якості скалярного добутку двох випадкових величин коваріацію [math](X,Y) = \operatorname{cov} (X,Y)[/math], то норма випадкової величини буде дорівнювати [math]\left\| X \right\| = \sqrt {D[X]}[/math] , і наслідком нерівності Коші - Буняковського буде:
[math]- 1 \leq \{R_{XY}} \leq \1[/math]
  • Коефіцієнт кореляції дорівнює [math]\pm 1[/math] тоді і тільки тоді, коли X і Y лінійно залежні (виключаючи події нульової ймовірності, коли кілька точок "вибиваються" з прямої, що відбиває лінійну залежність випадкових величин):
[math]{R_{XY}} = \pm 1 \Leftrightarrow Y = kX + b,k \ne 0[/math]
де [math]k,b \in R[/math] . Більш того в цьому випадку знаки [math]{R_{XY}}[/math] і [math]{k}[/math] збігаються
  • Якщо X, Y незалежні випадкові величини, то [math]{R_{XY}=0}[/math] . Зворотне в загальному випадку невірно.

Область застосування

Даний метод обробки статистичних даних дуже популярний в економіці і соціальних науках (зокрема в психології і соціології), хоча сфера застосування коефіцієнтів кореляції обширна: контроль якості промислової продукції, металознавство, агрохімія, гідробіологія, біометрія та інші. У різних прикладних галузях прийняті різні межі інтервалів для оцінки тісноти й значущості зв'язку. Популярність методу обумовлена двома моментами: коефіцієнти кореляції відносно прості в підрахунку, їх застосування не вимагає спеціальної математичної підготовки. У поєднанні з простотою інтерпретації, простота застосування коефіцієнта привела до його широкого поширення в сфері аналізу статистичних даних.


Рангова кореляція

Рангову кореляцію здійснюють при встановленні щільності зв'язку між атрибутивними ознаками. Рангами називають числа натурального ряду, які згідно зі значеннями ознаки надаються елементам сукупності і певним чином упорядковують її. Ранжування проводиться за кожною ознакою окремо: перший ранг надається найменшому значенню ознаки, останній — найбільшому або навпаки. Кількість рангів дорівнює обсягу сукупності. Очевидно, зі збільшенням обсягу сукупності ступінь «розпізнаваності» елементів зменшується. З огляду на те, що рангова кореляція не потребує додержання будь-яких математичних передумов щодо розподілу ознак, зокрема вимоги нормальності розподілу, рангові оцінки щільності зв’язку доцільно використовувати для сукупностей невеликого обсягу. Якщо існує певність, що наданим рангам відповідають рівновіддалені значення ознак, то можна обчислити звичайні коефіцієнти кореляції. Крім того, до рангової кореляції доводиться вдаватися і для кількісних ознак, якщо їхня сукупність не має нормального розподілу. Коефіцієнт кореляції рангів розраховується за формулою Спірмена:

[math]r_s=1-\frac{6\sum{(x_i-y_i)^{2}}}{N-(N^{2}-1)}[/math]

де [math]{x_i-y_i}[/math] — різниця між спряженими значеннями рангів змінних [math]{x}[/math] і [math]{y}[/math]. Застосування цієї формули, як і рангових критеріїв згоди, є більш універсальним (немає потреби в нормальному розподілі, ознаки можуть бути як якісні, так і кількісні) і простішим, проте точність розрахунку [math]{r_s}[/math] порівняно з [math]{r}[/math] може бути нижче ніж 3 % . Дещо іншу трактовку коефіцієнта взаємної спряженості наведено в посібнику [1]. Там можна також ознайомитися з коефіцієнтом асоціації та бісеріальним коефіцієнтом кореляції і прикладами їх використання. Подібно тому, як множинна кореляція є узагальненням простої кореляції на випадок, коли існують кілька факторів [math]{x}[/math], канонічна кореляція є узагальненням простої кореляції на випадок, коли існують кілька змінних [math]{x}[/math] і кілька змінних [math]{y}[/math]. Методика розрахунку коефіцієнтів канонічної кореляції між лінійною комбінацією кількох [math]{y}[/math] та лінійною комбінацією кількох [math]{x}[/math] наведена у книзі [2].

Література

  1. Лисенко А.Н. Математические методы планирования многофакторных медико-биологических экспериментов. – М. : Медицина, 1979. – 343 с.
  2. Б. Болч, К. Дж. Хуань. Многомерные статистические методы для экономики. М. : Статистика, 1970.
  3. Аністратенко В.О., Федоров В.Г. Математичне планування експериментів в АПК: Навч. посібник. – К. : Вища школа, 1993.