Відмінності між версіями «Ядерне згладжуваня»

(Постановка задачі)
(Принцип)
Рядок 8: Рядок 8:
  
 
== Принцип ==
 
== Принцип ==
Принцип, используйщий идейно простой подход к представлению последовательности весов <math>\{ W_{mi}(x) \}_{i=1}^m</math> состоит в описании формы весовой
+
Принцип, використання ідейно простого підхіду до уявлення послідовності вагів <math>\{ W_{mi}(x)\}_{i=1}^m</math> полягає в описі форми вагової  функції <math>w_{mi}(x) </math> за допомогою функції щільності із скалярним параметром, який регулює розмір і форму вагів біля х.  Цю функцію форми  прийнято називати ''''ядром'''' <math>k</math>.  
функции <math>W_{mi}(x)</math> посредством функции плотности со скалярным параметром, который регулирует размер и форму весов около х.  
+
Отримані таким чином ваги далі використовуються для представлення величини <math>a(x) </math> у вигляді зваженої суми значень <math>y_i</math> навчаючої вибірки.
Эту функцию формы принято называть ''ядром'' <math>K</math>.
 
 
 
Полученные таким образом веса далее используются для представления величины <math>a(x)</math> в виде взвешенной суммы значений <math> y_i</math> обучающей выборки.
 
  
 
== Опис методу ==
 
== Опис методу ==

Версія за 19:42, 13 березня 2012

Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Шостак В.М.
Викладач: Назаревич О. Б.
Термін до: 18 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.


{{{img}}}
Імя Володимир
Прізвище Шостак
По-батькові Михайлович
Факультет ФІС
Група СН-51
Залікова книжка СН-11-222


Ядерне згладжуваня - один із найпростіших видів непараметричної регресії.

Постановка задачі

Вирішується завдання відновлення регресії. Заданий простір об'єктів x і безліч можливих відповідей y=r. Існує невідома цільова залежність y^*: X \rightarrow Y, значення якої відомі лише на об'єктах навчальної вибірки X^m={(x_i, y_i)}_{i=1}^m. Потрібно побудувати алгоритм a: X \rightarrow Y, що апроксимує цільову залежність y^*.

Принцип

Принцип, використання ідейно простого підхіду до уявлення послідовності вагів \{ W_{mi}(x)\}_{i=1}^m полягає в описі форми вагової функції w_{mi}(x) за допомогою функції щільності із скалярним параметром, який регулює розмір і форму вагів біля х. Цю функцію форми прийнято називати 'ядром' k. Отримані таким чином ваги далі використовуються для представлення величини a(x) у вигляді зваженої суми значень y_i навчаючої вибірки.

Опис методу

Визначення ядра

Ядро — это непрерывная ограниченная симметричная вещественная функция K с единичным интегралом

\int K(u)du=1

Послідовність ваги

Послідовність ваги для ядерних оцінок (для одновимірного x) знаходиться як ::W_{mi}(x)=\frac{K_{h_m}(x-X_i)}{\hat{f}_{h_m}(x)}, де

\hat{f}_{h_m}(x)=\frac1m \sum_{i=1}^m K_{h_m}(x-X_i),

a

K_{h_m}(u)=\frac{1}{h_m} K\(\frac{u}{h_m}\)

уявимо собі ядро з параметром h_m. Також цей параметр прийнято називати шириной вікна. Підкреслемо залежність h\ =\ h_m від об'єму вибірки m, умова скороченого значення послідовністі ваги W_{mi}(x).

Функція ядра

Функция \hat{f}_{h_m}(x) является ядерной оценкой плотности Розенблата — Парзена (Rosenblatt, 1956; Parzen, 1962) для (маргинальной) плотности переменной x. Данный вид ядерных весов W_{mi}(x) был предложен в работах (Nadaraya, 1964) и (Watson, 1964). Как следствие, оценка ожидаемой величины восстанавливаемой зависимости E(y\|x):

\hat{m}_h(x)=\frac{\frac1m\textstyle\sum\limits_{i=1}^m K_{h_m}(x-X_i)Y_i}{\frac1m\textstyle\sum\limits_{i=1}^m K_{h_m}(x-X_i)}

часто называют оценкой Надарая—Ватсона. Ширина окна определяет, насколько быстро убывают веса W_{mi}(x) по мере удаления объектов x_i от x. Характер убывания определяется видом ядра K. Нормализация весов \hat{f}_{h_m}(x) гарантирует, что сумма весов равна единице.

Замечание. При ряде условий имеет место сходимость по вероятности данной оценки к E(y|x).

Приклад функції ядра

Приклади різних функцій ядра.

На практике используется несколько видов ядерных функций. Чаще всего используется квартическая ядерная функция

K(u)=(15/16)(1-u^2)^2I(\| u \| \le 1).

Также используется ядро Епанечникова, обладающее некоторыми свойствами оптимальности [Хардле В п4.5]; это функция параболического типа (Epanechnikov, 1969; Bartlett, 1963):

K(u)=0.75(1-u^2)I(\| u \| \le 1).

Другими примерами являются ядро Гаусса,

K(u)=(2\pi)^{-1/2} \exp(-u^2/2),

треугольное ядро

K(u)=(1-\|u\|)I(\| u \| \le 1),

и прямоугольное ядро

K(u)=(1/2)I(\| u \| \le 1).

Замечание. Точность восстанавливаемой зависимости мало зависит от выбора ядра. Ядро определяет степень гладкости функции a(x).

Залежність від ширини вікна

Выбор окна решающим образом влияет на точность восстанавливаемой зависимости. При чересчур малых значениях h кривая a(x) стремится пройти через каждую точку выборки, остро реагируя на шумы и претерпевая резкие скачки, поскольку в этом случае оценка опирается только на небольшое число наблюдений из узкой окрестности точки x. Наоборот, если ширина окна велика, функция чрезмерно сглаживается и в пределе при h \rightarrow \infty вырождается в константу -- усреднённое значение величин y_i. В этом случае сглаженная функция не даёт возможности определить характерные особенности искомой зависимости y^*(x).

Література

  1. Хардле В.Прикладна непараметрична регресія-1989р.
  2. Воронцов К.В.Лекції по алгоритмам відновлення регресії - 2007.
  3. Лагутин М.Б.Прикладна математична статистика.- 2009

Див. також

посилання

Непараметрична регресія