Відмінності між версіями «Регресійний аналіз»
OliaD (обговорення • внесок) (Створена сторінка: 33) |
OliaD (обговорення • внесок) |
||
(Не показано одну проміжну версію цього користувача) | |||
Рядок 1: | Рядок 1: | ||
− | + | ||
+ | '''Регресійний аналіз''' — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії. | ||
+ | Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв'язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень. | ||
+ | Функція f (x1, x2, ..., хk), що описує залежність умовного середнього значення результативної ознаки у від заданих значень аргументів, називається функцією (рівнянням) регресії. | ||
+ | Термін "регресія" (лат. - "regression" - відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф. Гальтпном і пов'язаний тільки зі специфікою одного з перших конкретних прикладів, у якому це поняття було використано. | ||
+ | Для точного опису рівняння регресії необхідно знати умовний закон розподілу результативного показника у. У статистичній практиці таку інформацію отримати зазвичай не вдається, тому обмежуються пошуком підходящих апроксимацій для функції f (x1, x2, ..., хk), заснованих на вихідних статистичних даних. | ||
+ | У рамках окремих модельних припущень про тип розподілу вектора показників (у, x1, x2, ..., хk) може бути отриманий загальний вигляд рівняння регресії f (x) = M (y / x) x = (x1, x2, ..., хk) . | ||
+ | |||
+ | == Мета регресійного аналізу == | ||
+ | 1.Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними). | ||
+ | 2.Пророкування значення залежної змінної за допомогою незалежної. | ||
+ | 3.Визначення внеску окремих незалежних змінних у варіацію залежної. | ||
+ | Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку і є передумова для застосування аналізу. | ||
+ | |||
+ | == Алгоритм регресійного аналізу == | ||
+ | <!-- Нехай маємо випадкову величину <math>\xi \in \mathbb{R}^p</math> та <math>\eta</math> що залежить від попередньої. <math>X(k)</math> — реалізації випадкової величини <math>\xi</math>. --> | ||
+ | Нехай у точках '''x<sub>n</sub>''' незалежної змінної '''x''' отримані виміри '''Y<sub>n</sub>'''. Потрібно знайти залежність середнього значення величини <math>\bar Y</math>від величини '''х''', тобто <math>\bar Y (x)=f(x|a)</math>, де '''a''' — вектор невідомих параметрів <math>a_i</math>. Функцію <math>f(x|a)</math> називають функцією регресії. Звичайно припускають, що <math>f(x|a)</math> є лінійною функцією параметрів '''а''', тобто має вигляд: | ||
+ | :<math>f(x|a)=\sum_{i=1}^I a_i \varphi_i(x)</math> (1), | ||
+ | де <math>f_i(x)</math> — задані функції. | ||
+ | |||
+ | У цьому випадку матрицю <math>A_{ni}=f_i(x_n)</math> називається регресійною матрицею. | ||
+ | |||
+ | Для визначення параметрів <math>a_i</math> звичайно використовують [[метод найменших квадратів]], тобто оцінки <math>a_i</math> визначають із умови мінімуму [[функціонал]]а: | ||
+ | :<math>\Phi= \sum_{n=1}^N \frac{(Y_n- \sum_{i}^{ } A_{ni}a_i)^2}{\sigma_n^2}</math> | ||
+ | |||
+ | і з мінімуму функціонала:<math>\Phi=\sum_{n,m} (Y_n- \sum_{i} A_{ni}a_i)(R^{-1})_{nm} (Y_m-\sum_{i} A_{mi}a_i)</math> для корельованих вимірів з кореляційною матрицею ''R''. | ||
+ | |||
+ | У якості функцій <math>f_i(x)</math> при невеликих <math>I(I \ge 5)</math> звичайно служать [[степенева функція|степеневі функції]] <math>f_i(x)= x^i</math>. Часто використовують [[ортогональні многочлени|ортогональні]] й нормовані поліноми на множині <math>x_n</math>: | ||
+ | :<math>\varphi_i(x)= \sum_{k=1}^i c_k^ix^k, \sum_{n} \varphi_i(x_n)\sigma_n^{-2}\varphi_j(x_n)=\delta_{ij}</math>. | ||
+ | |||
+ | У цьому випадку легко знайти оцінку <math>\tilde{a}_i</math>: | ||
+ | :<math>\tilde{a}_i=\sum_{n} \varphi_i(x_n)Y_n</math>. | ||
+ | |||
+ | Звідси випливає, що обчислення <math>\tilde{a}_i</math> не залежить від обчислення інших <math>\tilde{a}_j</math>. | ||
+ | |||
+ | Популярне використання в якості <math>f_i(x)</math> [[сплайн]]ів <math>B_i(x)</math>, які мають дві основні властивості: | ||
+ | # <math>B_i(x)</math> — поліном заданого степеня; | ||
+ | # <math>B_i(x)</math> відмінний від нуля в околиці точки <math>x_i</math>. | ||
+ | |||
+ | При пошуку функції регресії у вигляді (1) природно виникає питання про кількість членів '''I''' у сумі (1). При малому значенні '''I''' не можна досягти гарного опису <math>\bar Y(x)</math>, а при великому — великі статистичні помилки функції регресії. | ||
+ | |||
+ | == Література == | ||
+ | 1. Александров В.В., Алексєєв О.І., Горський Н.Д. Аналіз даних на ЕОМ (на прикладі системи СИТО). - М.: Фінанси і статистика, 1990. | ||
+ | 2. Блюмин С.Л., Суханов В.Ф., Чеботарьов С.В. Економічний факторний аналіз: Монографія. - Липецьк: ЛЕГІ, 2004. | ||
+ | 3. Рогальський Ф.Б., Курилович Я.Є., Цокуренка А.А. Математичні методи аналізу економічних систем. Книга 1. - К.: Наукова думка, 2001. | ||
+ | 4. Рогальський Ф.Б., Цокуренка А.А. Математичні методи аналізу економічних систем. Книга 2. - К.: Наукова думка, 2001. |
Поточна версія на 16:26, 29 квітня 2013
Регресійний аналіз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії. Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв'язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень. Функція f (x1, x2, ..., хk), що описує залежність умовного середнього значення результативної ознаки у від заданих значень аргументів, називається функцією (рівнянням) регресії. Термін "регресія" (лат. - "regression" - відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф. Гальтпном і пов'язаний тільки зі специфікою одного з перших конкретних прикладів, у якому це поняття було використано. Для точного опису рівняння регресії необхідно знати умовний закон розподілу результативного показника у. У статистичній практиці таку інформацію отримати зазвичай не вдається, тому обмежуються пошуком підходящих апроксимацій для функції f (x1, x2, ..., хk), заснованих на вихідних статистичних даних. У рамках окремих модельних припущень про тип розподілу вектора показників (у, x1, x2, ..., хk) може бути отриманий загальний вигляд рівняння регресії f (x) = M (y / x) x = (x1, x2, ..., хk) .
Мета регресійного аналізу
1.Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними). 2.Пророкування значення залежної змінної за допомогою незалежної. 3.Визначення внеску окремих незалежних змінних у варіацію залежної. Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку і є передумова для застосування аналізу.
Алгоритм регресійного аналізу
Нехай у точках xn незалежної змінної x отримані виміри Yn. Потрібно знайти залежність середнього значення величини [math]\bar Y[/math]від величини х, тобто [math]\bar Y (x)=f(x|a)[/math], де a — вектор невідомих параметрів [math]a_i[/math]. Функцію [math]f(x|a)[/math] називають функцією регресії. Звичайно припускають, що [math]f(x|a)[/math] є лінійною функцією параметрів а, тобто має вигляд:
- [math]f(x|a)=\sum_{i=1}^I a_i \varphi_i(x)[/math] (1),
де [math]f_i(x)[/math] — задані функції.
У цьому випадку матрицю [math]A_{ni}=f_i(x_n)[/math] називається регресійною матрицею.
Для визначення параметрів [math]a_i[/math] звичайно використовують метод найменших квадратів, тобто оцінки [math]a_i[/math] визначають із умови мінімуму функціонала:
- [math]\Phi= \sum_{n=1}^N \frac{(Y_n- \sum_{i}^{ } A_{ni}a_i)^2}{\sigma_n^2}[/math]
і з мінімуму функціонала:[math]\Phi=\sum_{n,m} (Y_n- \sum_{i} A_{ni}a_i)(R^{-1})_{nm} (Y_m-\sum_{i} A_{mi}a_i)[/math] для корельованих вимірів з кореляційною матрицею R.
У якості функцій [math]f_i(x)[/math] при невеликих [math]I(I \ge 5)[/math] звичайно служать степеневі функції [math]f_i(x)= x^i[/math]. Часто використовують ортогональні й нормовані поліноми на множині [math]x_n[/math]:
- [math]\varphi_i(x)= \sum_{k=1}^i c_k^ix^k, \sum_{n} \varphi_i(x_n)\sigma_n^{-2}\varphi_j(x_n)=\delta_{ij}[/math].
У цьому випадку легко знайти оцінку [math]\tilde{a}_i[/math]:
- [math]\tilde{a}_i=\sum_{n} \varphi_i(x_n)Y_n[/math].
Звідси випливає, що обчислення [math]\tilde{a}_i[/math] не залежить від обчислення інших [math]\tilde{a}_j[/math].
Популярне використання в якості [math]f_i(x)[/math] сплайнів [math]B_i(x)[/math], які мають дві основні властивості:
- [math]B_i(x)[/math] — поліном заданого степеня;
- [math]B_i(x)[/math] відмінний від нуля в околиці точки [math]x_i[/math].
При пошуку функції регресії у вигляді (1) природно виникає питання про кількість членів I у сумі (1). При малому значенні I не можна досягти гарного опису [math]\bar Y(x)[/math], а при великому — великі статистичні помилки функції регресії.
Література
1. Александров В.В., Алексєєв О.І., Горський Н.Д. Аналіз даних на ЕОМ (на прикладі системи СИТО). - М.: Фінанси і статистика, 1990. 2. Блюмин С.Л., Суханов В.Ф., Чеботарьов С.В. Економічний факторний аналіз: Монографія. - Липецьк: ЛЕГІ, 2004. 3. Рогальський Ф.Б., Курилович Я.Є., Цокуренка А.А. Математичні методи аналізу економічних систем. Книга 1. - К.: Наукова думка, 2001. 4. Рогальський Ф.Б., Цокуренка А.А. Математичні методи аналізу економічних систем. Книга 2. - К.: Наукова думка, 2001.