Кореляційний аналіз

Матеріал з Вікі-знання або навчання 2.0 в ТНТУ
Перейти до: навігація, пошук
Невідредагована стаття
Цю статтю потрібно відредагувати.
Щоб вона відповідала ВИМОГАМ.


{{{img}}}
Імя Інна
Прізвище Канєвська
По-батькові
Факультет ФІС
Група СНм-51
Залікова книжка


....... Презентація доповіді (університетський репозиторій).

Зміст

Кореляційний аналіз, мета і завдання

Кореляційний аналіз – це статистичне дослідження (стохастичної) залежності між випадковими величинами (англ. correlation – взаємозв’язок). У найпростішому випадку досліджують дві вибірки (набори даних), у загальному – багатовимірні комплекси (групи) геологічних параметрів або об’єктів.

Мета кореляційного аналізу – забезпечити отримання деякої інформації про одну змінну за допомогою іншої змінної. В випадках, коли можливе досягнення мети, говорять, що змінні корелюють. В загальному вигляді сприйняття гіпотези про наявність кореляції означає, що зміна значення змінної А відбудеться одночасно з пропорційною зміною значення В.

Мірою залежності між експериментальними наборами даних є числа – коефіцієнти зв’язку.

Головні завдання кореляційного аналізу:

1) оцінка за вибірковими даними коефіцієнтів кореляції;

2) перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення;

3) оцінка близькості виявленого зв’язку до лінійного;

4) побудова довірчого інтервалу для коефіцієнтів кореляції.

Визначення сили та напрямку взаємозв’язку між змінними є однією з важливих проблем аналізу даних. В загальному випадку для цього застосовують поняття кореляції.

Поняття кореляції

Коефіцієнт кореляції, а в загальному випадку кореляційна функція, дозволяють встановити степінь взаємозв’язку між змінними. Кореляція може бути лінійною або нелінійною в залежності від типу залежності, яка фактично існує між змінними. Досить часто на практиці розглядають тільки лінійну кореляцію (взаємозв’язок), але більш глибокий аналіз потребує використання для дослідження процесів нелінійних залежностей. Складну нелінійну залежність можна спростити, але знати про її існування необхідно для того, щоб побудувати адекватну модель процесу.

1.JPG

Рис. 1.1 - Ілюстрація «простої» кореляції

Формула для обчислення коефіцієнтів кореляції має вигляд:

2.jpg

де N − довжина вибірки даних; x, y − середні вибіркові x, y ; σx,σ y − стандартні відхилення, тобто корені квадратні з їх дисперсій.

Наприклад,

3.JPG

де N − число вимірів змінної y ; y − середнє значення ряду {y(k)}, яке обчислюється за формулою:

4.JPG

Часткова та напівчасткова кореляції

У випадку двох нормальних або майже нормальних величин коефіцієнт кореляції між ними може бути використаний як міра взаємозв’язку і це підтверджено багатьма практичними результатами. Проте при інтерпретації «взаємозв’язку» часто виникають наступні труднощі: якщо одна величина корельована с іншою, то це може бути відображенням того факту, що вони обидві корельовані з деякою третьою величиною або з сукупністю величин, які залишаються за кадром і не введені в модель. Така ситуація приводить до розгляду умовних кореляцій між двома величинами при фіксованих значеннях інших величин. Це так звані часткові кореляції. Якщо кореляція між двома величинами зменшується, коли ми фіксуємо деяку іншу випадкову величину, то це означає, що їх взаємозв’язок виникає частково через вплив цієї величини. Якщо ж часткова кореляція дорівнює нулю або дуже мала, то робимо висновок, що їх взаємозв’язок цілком обумовлений власним впливом і ніяк не пов’язаний з третьою величиною.

І навпаки, якщо часткова кореляція більше початкової кореляції між двома величинами, то ми робимо висновок, що інші величини ослабили зв’язок, або приховали (замазали) кореляцію.

Розрізняють поняття напівчасткової та часткової кореляції. Розглянемо ситуацію для трьох змінних (два при Х1 та Х2 (пояснюючі, незалежні змінні) і одна змінна відклику Y (залежна змінна, змінна критерію)). Часткова та напівчасткова кореляції позбавляють впливу третьої змінної.

5.JPG

Рис. 1.2 - Ілюстрація кореляції трьох змінних

Значення напівчасткової та часткової кореляції можна виразити через множинну кореляцію. Множинна кореляція у випадку трьох змінних обчислюється за формулою:


Напівчасткова кореляція названа так, тому що дисперсія контрольованої змінної (Х2) усувається з іншої незалежної змінної (Х1), але не із залежної змінної (Y). Тобто ми позбавляємось лише впливу Х2 на Х1.

1 3.jpg

Рис. 1.3 - Ілюстрація напівчасткової кореляції

У випадку трьох змінних формула для обчислення напівчасткової кореляції буде мати вигляд:

LaTeX: r_{_{Y(1.2)}}^{2}=R_{Y.12}^{2}-r_{Y2}^{2}

В термінах звичайних коефіцієнтів кореляції отримаємо:

LaTeX: r_{Y(1.2)}^{2}=\frac{{{({{r}_{Y1}}-{{r}_{Y2}}{{r}_{12}})}^{2}}}{1-r_{12}^{2}}


LaTeX: {{r}_{Y(1.2)}}=\frac{{{r}_{Y1}}-{{r}_{Y2}}{{r}_{12}}}{\sqrt{1-r_{12}^{2}}}

де LaTeX: {{r}_{Y1}} - проста кореляція між


LaTeX: {{r}_{Y2}}{{r}_{12}} - результат кореляції між у і х2 та х1 і х2


LaTeX: \sqrt{1-r_{_{12}}^{2}} - загальна дисперсія за винятком взаємозв’язку між LaTeX: {{x}_{1}} та LaTeX: {{x}_{2}}.

Часткова кореляція відрізняється від напівчасткової тим, що усувається вплив третьої змінної з іншої незалежної змінної, а також і з залежної змінної.

1 4.jpg

Рис. 1.4 - Ілюстрація часткової кореляції

У випадку трьох змінних формула для обчислення часткової кореляції буде мати вигляд:

LaTeX: r_{Y1.2}^{2}=\frac{R_{Y.12}^{2}-r_{Y2}^{2}}{1-r_{Y2}^{2}}

В термінах звичайних коефіцієнтів кореляції отримаємо:

LaTeX: r_{Y1.2}^{2}=\frac{({{r}_{Y1}}-{{r}_{Y2}}{{r}_{12}})}{(1-r_{Y2}^{2})(1-r_{Y2}^{2})}

LaTeX: {{r}_{Y1.2}}=\frac{{{r}_{Y1}}-{{r}_{Y2}}{{r}_{12}}}{\sqrt{(1-r_{Y2}^{2})(1-r_{Y2}^{2})}}

де LaTeX: {{r}_{Y1}} - LaTeX: y та LaTeX: {{x}_{1}}

LaTeX: {{r}_{Y2}}{{r}_{12}} - результат кореляції між у і х2 та х1 і х2

LaTeX: \sqrt{1-r_{_{12}}^{2}} - загальна дисперсія за винятком всіх часткових взаємозв’язків між LaTeX: {{x}_{1}} і LaTeX: {{x}_{2}}

Якщо кореляція між х1 і х2 та у і х2 відсутня, то LaTeX: {{r}_{Y1.2}}={{r}_{Y1}}

Властивості коефіцієнта кореляції

1. Коефіцієнт кореляції є в межах від -1 до +1.

LaTeX: -1\le \rho (x,y)\le +1

Якщо LaTeX: \rho (x,y)>0, то кореляція пряма, а якщо LaTeX: \rho (x,y)<0 – зворотна. Пряма кореляція: більшим значенням випадкової змінної LaTeX: x відповідають більші значення LaTeX: y; зворотна кореляція: більшим значенням LaTeX: x відповідають менші LaTeX: y і навпаки, більшим LaTeX: y – менші LaTeX: x.

2. Симетрія

LaTeX: \rho (x,y)=\rho (y,x)

3. Якщо LaTeX: x та LaTeX: y пов’язані лінійним функціональним зв’язком LaTeX: y\left( x \right)=a+bx, LaTeX: a i LaTeX: b – сталі, то LaTeX: \left| \rho (x,y) \right|=1, і навпаки.

4. Якщо випадкові змінні лінійно незалежні, то LaTeX: \rho (x,y)=0, і навпаки. Останні дві властивості можна сформулювати як необхідну й достатню умови, причому критерієм залежності випадкових величин LaTeX: x і LaTeX: y є відмінність коефіцієнта кореляції від нуля: LaTeX: r\ne 0.

Кореляційне поле

Графічно дані для кореляційного аналізу зображають у вигляді кореляційного поля, тобто точок на площині, кожна з яких має координати LaTeX: ({{x}_{i}},{{y}_{i}}) (рис.3.1)

6.jpg

Рис. 3.1. Візуальна оцінка характеру кореляційного зв’язку
за кореляційним полем: a – пряма кореляція, LaTeX: r>0; б – зворотна кореляція, LaTeX: r<0.


Для прямої кореляції характерною тенденцією є збільшення одного з параметрів, якщо збільшується інший, а для оберненої, навпаки: збільшення одного супроводжується, як звичайно, зменшенням іншого. Причиною фіктивної кореляції (тобто такої, що спостережена, але не властива природним об’єктам) може бути неоднорідність сукупності даних, які відображають два різні об’єкти (рис. 3.2). Іноді методика дослідження впливає на створення видимості зв’язку там, де його немає. Наприклад, якщо вимірювати довжину і ширину без урахування орієнтації зразків, то всі точки кореляційного поля лежатимуть у секторі від 0 до 45° (замість сектора 0–90°), що помилково можна сприйняти як наявність деякого зв’язку

7.jpg

Рис. 3.2. Некорельовані дані, LaTeX: r=0 і фіктивна кореляція (неоднорідні дані).

Перевірка гіпотези про значущість коефіцієнта кореляції

Згідно зі схемою статистичного доведення виконуємо таке. 1. Нульова гіпотеза: лінійного зв’язку немає, тоді істинний коефіцієнт кореляції дорівнює нулю:

LaTeX: {{H}_{0}}:\rho (x,y)=0

за двосторонньої альтернативи

LaTeX: {{H}_{1}}:\rho (x,y)\ne 0

2. Вибираємо LaTeX: \alpha , наприклад, LaTeX: \alpha =0,05.

3. Обчислюємо вибірковий коефіцієнт кореляції LaTeX: r і будуємо статистику

LaTeX: t=\frac{r}{\sqrt{1-{{r}^{2}}}}\sqrt{n-2}

4. Ця статистика має розподіл Стьюдента з LaTeX: df=n-2 ступенями вільності, а для LaTeX: n>60 можна використовувати й стандартний закон розподілу.

5. Знаходимо критичні значення статистики, тобто квантилі розподілу Стьюдента (чи стандартного для великих вибірок) для заданого рівня значущості LaTeX: \alpha . Для LaTeX: n\le 60 маємо LaTeX: {{t}_{Kp}}={{t}_{Kp}}(\alpha ,d,f), а для LaTeX: n>60 – наближену формулу LaTeX: {{t}_{Kp}}=\psi (\alpha ), де LaTeX: \psi (\alpha )={{\Phi }^{-1}}(\alpha ) - обернена функція стандартного закону розподілу.

6. Перевіряємо критерій: якщо LaTeX: \left| t \right|\ge {{t}_{Kp}}, то нульову гіпотезу відхиляємо, тобто існує суттєвий лінійний зв’язок між даними (дані корелюють). На практиці зручнішою є формула, яка дає критичне значення самого коефіцієнта кореляції. З рівняння статистики можна визначити LaTeX: {{r}_{Kp}}=\frac{{{t}_{Kp}}}{\sqrt{n-2+t_{Kp}^{2}}} Ця формула дає змогу один раз відшукати критичне значення коефіцієнта кореляції (для фіксованого LaTeX: \alpha і LaTeX: n) і використовувати його в наступній серії порівнянь парних коефіцієнтів кореляції з критичним, наприклад, для перевірки на значущість коефіцієнтів кореляційної матриці.

Автокореляція

Автокореляція або автокореляційна функція - це кореляція функції з самою собою зміщеною на певну величину незалежної змінної. Автокореляція використовується для знаходження закономірностей в ряді даних, таких як періодичність. Часто застосовується у статистиці та обробці сигналів для аналізу функцій або серій даних. Математично автокореляційна функція визначається як:

LaTeX: {{R}_{f}}(\tau )=\int\limits_{-\infty }^{\infty }{f(t){{f}^{*}}(t-\tau )}dt,

де функція LaTeX: f(t) інтегрується у добутку з комплексно спряженою та зміщеною на певну величину LaTeX: \tau (часто LaTeX: \tau це час) функцією.

Кореляційна матриця

Нехай маємо групу з LaTeX: k випадкових змінних LaTeX: {{x}_{1}},...,{{x}_{k}} (досліджуваних параметрів), що представлені вибірками обсягу LaTeX: n кожна. Для усіх можливих різних пар індексів LaTeX: i,j=1,2,...,k можна обчислити парні коефіцієнти кореляції LaTeX: {{r}_{ij}}=r({{x}_{i}},{{x}_{j}}). Для LaTeX: i=j, тобто для двох ідентичних наборів, можна прийняти LaTeX: {{r}_{i}}_{j}=1, що відповідає лінійній функціональній залежності LaTeX: {{x}_{i}}={{x}_{j}} (тотожності) для всіх пар значень у вибірках. Коефіцієнти кореляції запишемо у вигляді підсумкової симетричної матриці

LaTeX: R=\left[ \begin{matrix}
</p>
<pre>  1 & {{r}_{12}} & ...  \\
  {{r}_{21}} & 1 & ...  \\
  ... & ... & ...  \\
  {{r}_{k1}} & {{r}_{k2}} & ...  \\
</pre>
<p>\end{matrix} \right..

Після перевірки кожного з коефіцієнтів на значущість (достатньо це зробити для елементів матриці над головною діагоналлю) і заміни коефіцієнтів, що менше LaTeX: {{r}_{Kp}}, нулем, “очищена” кореляційна матриця відображає “справжні” статистично значимі зв’язки між змінними. Аналіз структури кореляційної матриці є дуже важливим методом для виявлення, наприклад, парагенетичних асоціацій у геохімічних дослідженнях , а також основою інших методів аналізу (наприклад, факторного). З огляду на це часто виникає завдання порівняти різні коефіцієнти кореляції. Оскільки істинні коефіцієнти кореляції LaTeX: {{\rho }_{i}}, та LaTeX: {{\rho }_{j}} невідомі, то рішення ухвалюють, користуючись їхніми вибірковими оцінками LaTeX: {{r}_{i}} та LaTeX: {{r}_{j}}на підставі статистичного доведення.

1. Формулюємо нульову гіпотезу про рівність коефіцієнтів кореляції

LaTeX: {{H}_{0}}:{{\rho }_{i}}={{\rho }_{j}}

та альтернативну їй

LaTeX: {{H}_{1}}:{{\rho }_{i}}\ne {{\rho }_{j}}

2. Вибираємо рівень значущості LaTeX: \alpha .

3. Оскільки розподіл коефіцієнтів кореляції за умови LaTeX: \rho \ne 0 має значну асиметрію, то використовуємо перетворені величини

LaTeX: z{}_{i}=\frac{1}{2}\ln \frac{1+{{r}_{i}}}{1-{{r}_{i}}}

і будуємо статистику


LaTeX: {{t}^{*}}=\frac{\left| {{z}_{i}}-{{z}_{j}} \right|}{s\sqrt{2}} LaTeX: s=1/\sqrt{n-3}

4. В умовах гіпотези LaTeX: {{H}_{0}} статистика LaTeX: {{t}^{*}} має асимптотично нормальний розподіл з нульовим середнім та дисперсією, що дорівнює 1.

5. Знаходимо критичні значення статистики, тобто квантилі стандартного нормального розподілу, наприклад, для LaTeX: \alpha =0,05 маємо LaTeX: {{t}^{*}}={{\psi }^{-1}}(0,05)=1,96.

6. Якщо

LaTeX: \left| {{z}_{i}}-{{z}_{j}} \right|<{{t}^{*}}s\sqrt{2}

то гіпотеза про рівність коефіцієнтів не суперечить вибірковим даним (для заданого LaTeX: \alpha ).

Список використаних джерел

  1. Курсова робота на тему: “Розробка методів для обчислення часткової кореляційної функції”.
  2. http://uk.wikipedia.org/wikiАвтокореляція
  3. http://www.lnu.edu.ua/faculty/geology/phis_geo/Khomyak/E-book_Geostatistics/Part2/Lections2-3-1.htm
  4. Аністенко В.О., Федоров В.Г. – Математичне планування експерименту АПК.



SeminarSpeech.png
Студент: Користувач:inna
Виступ відбувся: 9 березня 2010
Тема: Кореляційний аналіз експериментальних даних. Кореляційна матриця. Перевірка гіпотез відносно значень кореляційної матриці
Особисті інструменти
реклама