Подмножество приближения регрессоров для моделей GPR

Подмножество метода приближения регрессоров (SR) состоит из замены функции ядра k(x,xr|θ) в точном методе GPR по его приближению k^SR(x,xr|θ,A), учитывая активный набор AN={1,2,...,n}. Можно задать метод SR для оценки параметра при помощи 'FitMethod','sr' аргумент пары "имя-значение" в вызове fitrgp. Для предсказания с помощью SR можно использовать 'PredictMethod','sr' аргумент пары "имя-значение" в вызове fitrgp.

Аппроксимация функции ядра

Для точной модели GPR ожидаемое предсказание в GPR зависит от набора N функции SN={k(x,xi|θ),i=1,2,,n}, где N={1,2,...,n} - набор индексов всех наблюдений, и n - общее количество наблюдений. Идея состоит в том, чтобы аппроксимировать диапазон этих функций меньшим набором функций, SA, где AN={1,2,...,n} - подмножество индексов точек, выбранных в активном наборе. Рассмотреть SA={k(x,xj|θ),jA}. Цель состоит в том, чтобы аппроксимировать элементы SN как линейные комбинации элементов SA.

Предположим, что приближение к k(x,xr|θ) использование функций в SA является следующим:

k^(x,xr|θ)=jAcjrk(x,xj|θ),

где cjr являются коэффициентами линейной комбинации для аппроксимации k(x,xr|θ). Предположим C - матрица, содержащая все коэффициенты; cjr. Затем, C, является |A|×n матрица такая, что C(j,r)=cjr. Программное обеспечение находит лучшее приближение к элементам SN использование активного набора AN={1,2,...,n} путем минимизации функции ошибки

E(A,C)=r=1nk(x,xr|θ)k^(x,xr|θ)2,

где - Пространства воспроизводящего ядра Гильберта (RKHS), сопоставленный с функцией ядра k [1], [2].

Матрица коэффициентов, которая минимизирует E(A,C) является

C^A= K(XA,XA|θ)1K(XA,X|θ),

и приближение к функции ядра с помощью элементов в активном наборе AN={1,2,...,n} является

k^(x,xr|θ)=jAcjrk(x,xj|θ)= K(xT,XA|θ)C(:,r).

Приближение SR к функции ядра с помощью активного набора AN={1,2,...,n} определяется как:

k^SR(x,xr|θ,A)= K(xT,XA|θ)C^A(:,r)=K(xT,XA|θ)K(XA,XA|θ)1K(XA,xrT|θ)

и приближение SR к K(X,X|θ) является:

K^SR(X,X|θ,A)=  K(X,XA|θ) K(XA,XA|θ)1 K(XA,X|θ).

Оценка параметра

Замена K(X,X|θ) около K^SR(X,X|θ,A) в предельной функции журнала правдоподобия создает свои приближения SR:

logPSR(y|X,β,θ,σ2,A)=12(yHβ)T[K^SR(X,X|θ,A)+σ2In]1(yHβ)N2log2π12log|K^SR(X,X|θ,A)+σ2In|

Как и в точном методе, программное обеспечение оценивает параметры путем первых вычислений β^(θ,σ2), оптимальная оценка β, заданный θ и σ2. Тогда это оценивает θ, и σ2 использование β-профилированная маргинальная вероятность журнала. Оценка SR для β для данного θ, и σ2 является:

β^SR(θ,σ2,A)=[HT[K^SR(X,X|θ,A)+σ2In]1H*]1HT[K^SR(X,X|θ,A)+σ2In]1y**,

где

[K^SR(X,X|θ,A)+σ2In]1=INσ2K(X,XA|θ)σ2AA1K(XA,X|θ)σ2,AA=K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2,*=HTHσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)Hσ2,**=HTyσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)yσ2.

И приближение SR к β-профилированная маргинальная вероятность журнала:

logPSR(y|X,β^SR(θ,σ2,A),θ,σ2,A)=12(yHβ^SR(θ,σ2,A))T[K^SR(X,X|θ,A)+σ2In]1(yHβ^SR(θ,σ2,A))N2log2π12log|K^SR(X,X|θ,A)+σ2In|.

Предсказание

SR приближения с распределением ynew данный y, X, xnew является

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μSR,σnew2+ΣSR),

где μSR и ΣSR являются ли приближения SR, μ и Σ показан в предсказании с использованием точного метода GPR.

μSR и ΣSR получаются заменой k(x,xr|θ) по его SR приближения k^SR(x,xr|θ,A) в μ и Σ, соответственно.

То есть,

μSR=K^SR(xnewT,X|θ,A)(1)(K^SR(X,X|θ,A)+σ2 IN)1(2)(yHβ).

С тех пор

(1)=K(xnewT,XA|θ) K(XA,XA|θ)1K(XA,X|θ),

(2)=INσ2K(X,XA|θ)σ2[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ)σ2]1K(XA,X|θ)σ2, 

и от того, что IN B( A+ B)1= A( A+ B)1, μSR может быть написано как

μSR= K(xnewT,XA|θ)[K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2]1K(XA,X|θ)σ2(yHβ).

Точно так же, ΣSR получают следующим образом:

ΣSR=k^SR(xnew,xnew|θ,A)*K^SR(xnewT,X|θ,A)**(K^SR(X,X|θ,A)+σ2IN)1***K^SR(X,xnewT|θ,A)****.

Поскольку

* = K(xnewT,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

**=K(xnewT,XA|θ)K(XA,XA|θ)1K(XA,X|θ),***=(2) в  уравнении  μSR,

**** = K(X,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

ΣSR найдено следующим образом:

SR=K(xnewT,XA|θ)[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ))σ2]1K(XA, xnewT|θ).

Задача прогнозирующего отклонения

Одним из недостатков метода SR является то, что он может давать неоправданно маленькие прогнозирующие отклонения при выполнении предсказаний в области, удаленной от выбранного активного множества AN={1,2,...,n}. Рассмотрите создание предсказания в новой точке xnew что далеко от набора обучающих данных X. Другими словами, предположим, что K(xnewT,X|θ)0.

Для точного GPR, апостериорное распределение fnew данный y, X и xnew был бы Нормальным со средним μ=0 и отклонение Σ=k(xnew,xnew|θ). Это значение верно в том смысле, что, если xnew далеко от X, затем данные (X,y) не предоставляет никакой новой информации о fnew и поэтому апостериорное распределение fnew данный y, X, и xnew должно уменьшиться до предыдущего распределения fnew данный xnew, которое является Нормальным распределением со средним 0 и отклонение k(xnew,xnew|θ).

Для приближения SR, если xnew далеко от X (и, следовательно, также далеко от XA), затем μSR=0 и ΣSR=0. Таким образом, в этом крайнем случае, μSR соглашается с μ от точного GPR, но ΣSR необоснованно мало по сравнению с Σ из точного GPR.

Полностью независимый метод условного приближения может помочь избежать этой проблемы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы для машинного обучения. MIT Press. Кембридж, Массачусетс, 2006.

[2] Смола, А. Й. и Б. Шёкопф. Разреженное жадное матричное приближение для машинного обучения. В работе семнадцатой Международной конференции по машинному обучению, 2000 год.

См. также

|

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте