Відмінності між версіями «Непараметрична регресія»

(Локально поліноміальні наближення)
(Методи крос-валідації)
Рядок 40: Рядок 40:
 
::<math>\int{\[y(x) - \hat{y}(x)\]^2dx } = \int{y^2(x)dx} - 2*\int{y(x)\hat{y}(x)dx} + \int{\hat{y}^2(x)dx}</math>
 
::<math>\int{\[y(x) - \hat{y}(x)\]^2dx } = \int{y^2(x)dx} - 2*\int{y(x)\hat{y}(x)dx} + \int{\hat{y}^2(x)dx}</math>
  
[[Файл:Example_density.jpg|right|300px]]
+
[[Файл:Example_density.jpg||thumb|right|300px|Рис. 1. Оцінка щільності крос-валідаціїна основі найменших квадратів]]
 
:Можно заменить эти величины их выборочными аналогами, сделать поправку на смещение и получить целевую функцию, которую затем можно минимизировать с помощью численных методов. Этот подход был предложен в работах Rudemo (1982) и Bowman (1984). Для  понимания  сущности  комментариев  в Loader (1999)  на  '''Рис.  1'''  изображены  оценки бимодальной  плотности  –  ядерная  оценка  при  применении  правила  подстановки  и  кросс-валидации на основе наименьших квадратов. '''Рис.  1''' показывает, что на самом деле правило подстановки  чрезмерно  сглаживает,  приводя  к  существенному  смещению  в  левой  вершине. Кросс-валидация    на  основе  наименьших    квадратов  исправляет    это, как  отмечает    Loader (1999), но ценой дополнительной вариации в правой вершине.  
 
:Можно заменить эти величины их выборочными аналогами, сделать поправку на смещение и получить целевую функцию, которую затем можно минимизировать с помощью численных методов. Этот подход был предложен в работах Rudemo (1982) и Bowman (1984). Для  понимания  сущности  комментариев  в Loader (1999)  на  '''Рис.  1'''  изображены  оценки бимодальной  плотности  –  ядерная  оценка  при  применении  правила  подстановки  и  кросс-валидации на основе наименьших квадратов. '''Рис.  1''' показывает, что на самом деле правило подстановки  чрезмерно  сглаживает,  приводя  к  существенному  смещению  в  левой  вершине. Кросс-валидация    на  основе  наименьших    квадратов  исправляет    это, как  отмечает    Loader (1999), но ценой дополнительной вариации в правой вершине.  
 
:Одна  из  проблем  данного  подхода  –  его  чувствительность  к  наличию  округленных  или дискретизированных данных, а также к мелкомасштабным эффектам в данных.  
 
:Одна  из  проблем  данного  подхода  –  его  чувствительность  к  наличию  округленных  или дискретизированных данных, а также к мелкомасштабным эффектам в данных.  

Версія за 23:54, 3 березня 2012

Blue check.png Дана стаття являється неперевіреним навчальним завданням.
Студент: Шостак В.М.
Викладач: Назаревич О. Б.
Термін до: 10 березня 2012

До вказаного терміну стаття не повинна редагуватися іншими учасниками проекту. Після завершення терміну виконання будь-який учасник може вільно редагувати дану статтю і витерти дане попередження, що вводиться за допомогою шаблону.


{{{img}}}
Імя Володимир
Прізвище Шостак
По-батькові Михайлович
Факультет ФІС
Група СН-51
Залікова книжка СН-11-222


Непараметрична регресія, на відміну від параметричних підходів, використовує модель, яка не описується кінцевим числом параметрів.

Вступ

Мета регресійного аналіза полягає у здійсненні розумної апроксимації невідомої функції відгуку [math]Y(X)[/math] по відомим точкам [math](X_i,Y_i)_{i = 1}^{m}[/math]. У випадку малих помилок спостереження стає можливим сконцентрувати увагу на важливих деталях середньої залежності [math]Y[/math] від [math]X[/math] при її інтерпретації.

Відмінність від параметричних підходів

Процедура аппроксимации обычно называется сглаживанием. По существу эта аппроксимация функции отклика [math]Y[/math] может быть выполнена двумя способами. Довольно часто используется параметрический подход, заключающийся в предположении, что функция отклика [math]Y[/math] имеет некоторую предписанную функциональную форму, например, это прямая линия с неизвестными свободным членом и наклоном. Альтернативой этому может служить попытка оценить [math]Y[/math] непараметрическим образом, без указания конкретного ее вида. Первый подход к анализу регрессионной зависимости называется параметрическим, поскольку предполагается, что вид функции полностью описывается конечным набором параметров. Типичный пример параметрической модели представляет собой полиномиальное уравнение регрессии, когда параметрами являются коэффициенты при неизвестных. Однако при параметрическом подходе молчаливо предполагается, что кривая может быть представлена в терминах параметрической модели, или, по крайней мере, имеется уверенность в том, что ошибка аппроксимации для наилучшего параметрического приближения пренебрежимо мала. Наоборот, в непараметрической модели регрессионной зависимости не производится проектирования данных в "прокрустово ложе" фиксированной параметризации. Предварительное задание параметрической модели может оказаться слишком ограничительным или чересчур малой размерности для аппроксимации непредвиденных характеристик, в то время как непараметрическое сглаживание предоставляет гибкие средства анализа неизвестных регрессионных зависимостей.
Непараметрический подход приводит, таким образом, к гибкому функциональному виду кривой регрессии.

Різновиди

Ядерне згладжування

Одним из простейших методов является ядерное сглаживание. Этот метод прост в применении, не требует дополнительных математических сведений и понятен на интуитивном уровне. Ядерное сглаживание во многих случаях является подходящим средством. Существуют разнообразные альтернативные методы сглаживания такие, например, как сплайны, но в [Хардле В, гл3] показывается, что в асимптотическом смысле они эквивалентны ядерному сглаживанию.
Ключом к проведению качественного непараметрического оценивания является выбор подходящей ширины окна для имеющейся задачи. Хотя ядерная функция [math]K[/math] остается важной, ее главная роль состоит в обеспечении дифференцируемости и гладкости получающейся оценки. Ширина окна [math]h[/math], с другой стороны, определяет поведение оценки в конечных выборках, что ядерная функция сделать просто не в состоянии. Существуют четыре общих подхода к выбору ширины окна:
  1. референтные эвристические правила
  2. методы подстановки
  3. методы кросс-валидации
  4. бутстраповские методы.

Ради аккуратности подчеркнем, что диктуемые данными методы выбора ширины окна <tex>h</tex> не всегда гарантируют хороший результат.

Исходя из минимизации глобальной ошибки следует [math]h[/math] брать равным::
[math]h_{opt}=\[ \frac{\int{K^2(z)dz}}{ \(\int{z^2K^2(z)dz} \)^2 \int{\[y''(x)\]^2dx} }\]^{-1/5} m^{-1/5}[/math], где [math]y(x)[/math] - неизвестная аппроксимируемая зависимость.

Референтні евристичні правила

Референтные эвристические правила выбора ширины окна используют стандартное семейство распределений для определения [math]h_{opt}[/math].

Рассмотрим оценку Парзена-Розенблата для одномерной функции плотности

[math]\hat{y}(x)=\frac{1}{mh} \sum_{i=0}^m{K\( \frac{X_i-x}{h}\)}[/math].
В случае семейства нормальных распределений и гауссовского ядра <tex>h_{opt}=1.059*\sigma m^{-1/5}</tex>. На практике применяется [math]\hat{\sigma}[/math], выборочное стандартное отклонение.

Методи підстановки

Методы подстановки, такие как в Sheather, Jones (1991), состоят в подстановке оценок неизвестной константы [math]\int{\[y''(x)\]^2dx[/math] в формулу для оптимальной ширины окна на основе первоначальной оценки [math]y''(x)[/math], которая в свою очередь основана на «предварительной» ширине окна, например, найденной по правилу [math]1.059*\sigma m^{-1/5}[/math] . Все прочие константы в выражении для [math]h_{opt}[/math] известны после выбора ядерной функции [math]K[/math] (то есть [math]\int{K^2(z)dz}[/math] и [math]\int{z^2K^2(z)dz}[/math] известны). Хотя такие правила популярны, заинтересованный читатель может обратиться к работе Loader (1999), где обсуждаются относительные достоинства методов подстановки по сравнению с другими методами выбора ширины окна, обсуждаемыми ниже.

Методи крос-валідації

Методы кросс-валидация на основе наименьших квадратов – это полностью автоматический и диктуемый данными метод выбора сглаживающего параметра. Этот метод основан на принципе выбора ширины окна, минимизирующей интегральную среднеквадратическую ошибку получающейся оценки. Интеграл квадрата разности <tex>y(x)</tex> и <tex>\hat{y}(x)</tex> имеет вид
[math]\int{\[y(x) - \hat{y}(x)\]^2dx } = \int{y^2(x)dx} - 2*\int{y(x)\hat{y}(x)dx} + \int{\hat{y}^2(x)dx}[/math]
Файл:Example density.jpg
Рис. 1. Оцінка щільності крос-валідаціїна основі найменших квадратів
Можно заменить эти величины их выборочными аналогами, сделать поправку на смещение и получить целевую функцию, которую затем можно минимизировать с помощью численных методов. Этот подход был предложен в работах Rudemo (1982) и Bowman (1984). Для понимания сущности комментариев в Loader (1999) на Рис. 1 изображены оценки бимодальной плотности – ядерная оценка при применении правила подстановки и кросс-валидации на основе наименьших квадратов. Рис. 1 показывает, что на самом деле правило подстановки чрезмерно сглаживает, приводя к существенному смещению в левой вершине. Кросс-валидация на основе наименьших квадратов исправляет это, как отмечает Loader (1999), но ценой дополнительной вариации в правой вершине.
Одна из проблем данного подхода – его чувствительность к наличию округленных или дискретизированных данных, а также к мелкомасштабным эффектам в данных.
Из примера следует, что, возможно, ядерную оценку с фиксированным параметром [math]h[/math] можно улучшить, и существуют «адаптивные» ядерные оценки, которые позволяют [math]h[/math] меняться в точке [math]x[/math] или [math]X_i[/math] ; см. Abramson (1982) и Breiman, Meisel, Purcell (1977). Эти оценки, однако, способствуют введению ложного шума в оценку плотности. Однако метод с фиксированным [math]h[/math] доминирует в прикладных исследованиях.

Бутстраповскі методи

Faraway, Jhun (1990) предложили метод выбора ширины окна [math]h[/math] на основе бутстрапа путем оценивания интегральной среднеквадратичной ошибки для каждой фиксированной ширины окна, и затем минимизации по всем значениям. Данный подход использует сглаженный бутстраповский метод на основе начальной оценки плотности. Один из недостатков этого подхода в том, что целевая функция является случайной, что может привести к проблемам при численной минимизации, а также его вычислительная сложность.

Ядерные веса определяют некоторую окрестность вокруг точки [math]x[/math] лежащей на сетке. Следующий вопрос сглаживания – полиномиальное приближение функции [math]y[/math] в этой окрестности.

Локально поліноміальні наближення

Файл:Example polynom.jpg
Рис. 2. Локально поліноміальні зглажування
Простейшим полиномом приближения в такой окрестности является константа. Ядерная оценка минимизирует сумму квадратов невязок в окрестности точки [math]x[/math], форма и размер которой определяется ядром [math]K[/math].
Локально полиномиальное приближение и его связь с ядерным сглаживанием подробно исследованы в работе (Muller 1987), где показана их эквивалентность.
Подробнее также см. Алгоритм LOWESS

kNN оцінки

Файл:Example knn.jpg
Рис. 3. k-NN зглажування
Конструкция оценок ближайших соседей отличается от ядерных оценок. Ядерная оценка определяется как взвешенное среднее перемененных отклика в фиксированной окрестности точки [math]x[/math], причем веса определялись ядром [math]K[/math] и шириной окна [math]h[/math]. Оценка k-ближайших соседей представляет собой среднее, взвешенное в изменяющейся окрестности. Эта окрестность определяется только теми значениями переменной [math]X[/math], которые являются [math]k[/math] ближайшими к [math]x[/math] по евклидову (обычно) расстоянию. Последовательность [math]k-NN[/math] весов была введена в работе Loftsgaarden, Quesenberry (1965) для близкой задачи оценивания плотности и использовалась в Cover, Hart(1967) для целей классификации.
Параметр сглаживания [math]k[/math] определяет степень гладкости оценки кривой. Он играет ту же роль, что и ширина окна для ядерных сглаживателей. Влияние переменного [math]k[/math] на качественные характеристики оценки аналогочино случаю ядерных оценок с прямоугольным ядром.
На Рис. 3. изображен пример сравнения ядерного сглаживания с квартическим ядром и [math]k-NN[/math] сглаживания. Ширина окна выбиралась методом кросс-проверки. Данные прогонялись через окна шириной [math]h=0.25[/math] для ядерного сглаживания на отрезке [math][0,3][/math] и [math]h=0.15[/math] для оси значений. Получившиеся кривые регрессии практически совпадают для [math]x\le 1[/math], где лежит большая часть данных. При бо‘льших значения [math]x[/math] наблюдается существенное расхождение кривых: ядерная оценка показывает очевидное бимодальное соотношение, а симметризованная оценка ближайших соседей указывает либо на асимптоту, либо даже на слабое убывание с ростом дохода. В контексте задачи, кажется, что последнее содержит больше смысла с точки зрения экономики...

Оценки ортогональных разложений

Файл:Example fur.jpg
Рис. 4. Згладжування c допомогою ортогональних розкладань

Предположим, что функция регрессии может быть представлена в виде ряда Фурье

[math]y(x)=\sum_{j=0}^{\infty}\beta_j\varphi_j(x)[/math],
где [math]{\{\varphi_j\}}_{j=0}^\infty[/math] - известна система базисных функций, а [math]{\{\beta_j\}}_{j=0}^\infty[/math] - неизвестные коэффициенты Фурье. В работе Szego (1959) приведены условия, при которых такое представление возможно. Хорошо известными системами базисных функций являются полиномы Лагерра и полиномы Лежандра. Как только фиксирован базис функций, проблема оценивания функции регрессии может быть сведена к оцениванию коэффициентов Фурье. Конечно, существует определенная трудность, состоящая в том, что может быть бесконечно много ненулевых коэффициентов [math]\beta_j[/math]. Таким образом, при заданном конечном объеме выборки [math]m[/math] можно эффективно оценить лишь подмножество коэффициентов.
Пример применения показан на Рис. 4.

Зглажування сплайнами

Файл:Example spline.jpg
Рис. 5. Зглажування за допомогою сплайнів

Общей мерой близости к данным для некоторой кривой [math]g[/math] является сумма квадратов невязок

[math]\sum_{i=1}^{n}{(Y_i-g(X_i))}^2[/math]
Если [math]g[/math] может любой кривой - неограниченной в функциональном смысле - то эта мера, имеющая смысл расстояния, равна нулю для всякой кривой [math]g[/math], интерполирующей данные. Подход, основанный на сглаживании сплайнами, исключает эту нежелательную интерполяцию данных за счет достижения компромисса между двумя противоречивыми целями: получить хорошую аппроксимацию данных и получить кривую, не имеющую слишком быстрых локальных изменений.
Известны различные способы количественной оценки локальных изменений. Можно определить меру плавности кривой, основанную, например, на первой, второй, и более старших производных. Для успешного раскрытия основной идеи удобнее всего ввести интеграл от квадрата второй производной, т.е. для количественной оценки локального изменения использовать штраф за нарушение плавности
[math]\int {(g''(x))}^2dx[/math].
Пример сглаживания сплайнами представлен на Рис. 5. интерпретация данных: данные о мотоцикле [ Значения [math]X[/math] (в мс) после смоделированного столкновения с мотоциклом. Переменная отклика [math]Y[/math] - ускорение (в g) посмертного тестирования объекта. Из Schmidt, Mattern, Schiiler (1981)]

Перелік менш поширених методів

Файл:Example regr.jpg
Рис. 6. Регрессограмма

Рекурентні методи

Предположим, что данные [math]\{(X_i,Y_i)\}_{i\ge l}[/math] наблюдаются не как выборка фиксированного объема [math]m[/math], а как последовательность пар [math](X_1,Y_1),(X_2,Y_2),\ldots[/math] поступающих с выхода некоторого устройства наблюдения. Такие устройства присутствуют в задачах контроля (surveillance problems), управления (control operations) или вмешательства(intervention problems). В общем случае можно рассматривать данные как временной ряд. Поскольку непараметрическая

оценка обычно определяется по всей выборке, ее приходится пересчитывать при поступлении новых данных. Следовательно, с вычислительной точки зрения предпочтительнее, чтобы оценка регрессии, основанная на [math](n + 1)[/math] точках, строилась исходя из [math](n + 1)[/math]-го наблюдения [math](X_{n+i},Y_{n+1})[/math] и оценки, полученной по первым [math]n[/math] точкам, без вызова предыдущих данных из памяти компьютера.

Регрессограмма

Этот термин был введен Тьюки (Tukey, 1961) для того, чтобы подчеркнуть связь этой оценки с гистограммой. Регрессограмма представляет собой среднее тех значений переменных отклика, для которых соответствующие величины [math]X[/math] попадают в один из интервалов разбиения пространства наблюдений переменной [math]X[/math] Tukey(1947) - ее можно рассматривать как аппроксимацию [math]y(x)[/math] ступенчатой функцией, и она фактически является ядерной оценкой (с прямоугольным ядром), вычисленной в средних точках интервалов разбиения. На Рис. 6. изображены данные о работе мотоцикла и регрессограмма при шаге разбиения 4.

Література

  1. Хардле В. непараметрическая регрессия.- 1989.
  2. Расин, Джеффри «Непараметрическая эконометрика: вводный курс». - Квантиль, №4, 2008. - 7–56стр.

Ссилки

  1. Abramson, I.S. On bandwidth variation in kernel estimates – a square root law. Annals of Statistics 10. – 1982 . - 1217–1223 стр.
  2. Bowman, A.W. An alternative method of cross-validation for the smoothing of density estimates. Biometrika 7. - 1984 . - 353 –360 стр.
  3. Breiman, L., W. Meisel, E. Purcell Variable kernel estimates of multivariate densities. Technometrics 19. - 1977 . - 135 –144 стр.
  4. Cover, T. M. and Hart, P. E. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13. - 1967 . - 21 -27 стр.
  5. Faraway, J., M. Jhun Bootstrap choice of bandwidth for density estimation. Journal of the American Statistical Association 85.- 1990.-1119–1122 стр.
  6. Loader, C.R.Bandwidth selection: Classical or plug-in? Annals of Statistics 27.-1999. - 415–438 стр.
  7. Loftsgaarden, D. O., Quesenberry, G. P. A nonparametric estimate of a multivariate density function. Annals of Mathematical Statistics, 36.-1965.-1049-1051 стр.
  8. Muller H. G. Weighted local regression and kernel methods for nonparametric curve fitting. Journal of the American Statistical Association, 82.-1987.-231-238 стр.
  9. Rudemo, M. Empirical choice of histograms and kernel density estimators. Scandinavian Journal of Statistics 9.-1982. -65–78 стр.
  10. Schmidt, G. Mattern, R., Schiiler, F. Biomechanical investigation to determine physical and traumatological differentiation criteria for the maximum load capacity of head and vertebral column with and without protective helmet under effects of impact. EEC Research Program on Biomechanics of Impacts. Final Report Phase III, Project 65, Institut fur Rechtsmedizin, Universitat Heidelberg, West Germany.-1981.- 231-238 стр.
  11. Sheather, S., M. Jones A reliable data-based bandwidth selection method for kernel density estimation. Journal of Royal Statistical Society, Series B 53.-1991. - 683–690 стр.
  12. Szego, G. Orthogonal polynomials. Amer. Math. Soc. Coll. PubL, 23.-1959.
  13. Tukey, J. W. Nonparametric estimation II. Statistically equivalent blocks and tolerance regions. The continuous case. Annals of Mathematical Statistics, 18.-1947. - 529-539 стр.

Див. також

Посилання