Подмножество приближения регрессоров для моделей GPR

Подмножество регрессоров (SR) метод приближения состоит из замены функции ядра k(x,xr|θ) в точном методе GPR его приближением k^SR(x,xr|θ,A), учитывая активный набор AN={1,2,...,n}. Можно задать метод SR для оценки параметра при помощи 'FitMethod','sr' аргумент пары "имя-значение" в вызове fitrgp. Для прогноза с помощью SR можно использовать 'PredictMethod','sr' аргумент пары "имя-значение" в вызове fitrgp.

Аппроксимация функции ядра

Для точной модели GPR ожидаемый прогноз в GPR зависит на съемочной площадке N функции SN={k(x,xi|θ),i=1,2,,n}, где N={1,2,...,n} набор индексов всех наблюдений, и n является общим количеством наблюдений. Идея состоит в том, чтобы аппроксимировать промежуток этих функций меньшим набором функций, SA, где AN={1,2,...,n} подмножество индексов точек, выбранных, чтобы быть в активном наборе. Рассмотреть SA={k(x,xj|θ),jA}. Цель состоит в том, чтобы аппроксимировать элементы SN как линейные комбинации элементов SA.

Предположим приближение к k(x,xr|θ) использование функций в SA следующие:

k^(x,xr|θ)=jAcjrk(x,xj|θ),

где cjr коэффициенты линейной комбинации для аппроксимации k(x,xr|θ). Предположим C матрица, которая содержит все коэффициенты cjrзатем, Cisa |A|×n матрицируйте таким образом что C(j,r)=cjr. Программное обеспечение находит наилучшее приближение к элементам SN использование активного набора AN={1,2,...,n} путем минимизации функции ошибок

E(A,C)=r=1nk(x,xr|θ)k^(x,xr|θ)2,

где Репродуцирование ядра пробелы Гильберта (RKHS), сопоставленное с функцией ядра k [1], [2].

Матрица коэффициентов, которая минимизирует E(A,C)

C^A= K(XA,XA|θ)1K(XA,X|θ),

и приближение к функции ядра использование элементов в активном наборе AN={1,2,...,n}

k^(x,xr|θ)=jAcjrk(x,xj|θ)= K(xT,XA|θ)C(:,r).

Приближение SR к функции ядра использование активного набора AN={1,2,...,n} задан как:

k^SR(x,xr|θ,A)= K(xT,XA|θ)C^A(:,r)=K(xT,XA|θ)K(XA,XA|θ)1K(XA,xrT|θ)

и приближение SR к K(X,X|θ) :

K^SR(X,X|θ,A)=  K(X,XA|θ) K(XA,XA|θ)1 K(XA,X|θ).

Оценка параметра

Заменяя K(X,X|θ) K^SR(X,X|θ,A) в крайнем журнале функция правдоподобия производит свое приближение SR:

журналPSR(y|X,β,θ,σ2,A)=12(yHβ)T[K^SR(X,X|θ,A)+σ2In]1(yHβ)N2журнал2π12журнал|K^SR(X,X|θ,A)+σ2In|

Как в точном методе, программное обеспечение оценивает параметры первым вычислением β^(θ,σ2), оптимальная оценка β, данный θ и σ2. Затем это оценивает θ, и σ2 использование β- профилируемая крайняя логарифмическая вероятность. Оценка SR к β для данного θ, и σ2 :

β^SR(θ,σ2,A)=[HT[K^SR(X,X|θ,A)+σ2In]1H*]1HT[K^SR(X,X|θ,A)+σ2In]1y**,

где

[K^SR(X,X|θ,A)+σ2In]1=INσ2K(X,XA|θ)σ2AA1K(XA,X|θ)σ2,AA=K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2,*=HTHσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)Hσ2,**=HTyσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)yσ2.

И приближение SR к β- профилируемая крайняя логарифмическая вероятность:

журналPSR(y|X,β^SR(θ,σ2,A),θ,σ2,A)=12(yHβ^SR(θ,σ2,A))T[K^SR(X,X|θ,A)+σ2In]1(yHβ^SR(θ,σ2,A))N2журнал2π12журнал|K^SR(X,X|θ,A)+σ2In|.

Предсказание

Приближение SR к распределению ynew данный y, X, xnew

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μSR,σnew2+ΣSR),

где μSR и ΣSR приближения SR к μ и Σ показанный в прогнозе с помощью точного метода GPR.

μSR и ΣSR получены, заменив k(x,xr|θ) его приближением SR k^SR(x,xr|θ,A) \in μ и Σ, соответственно.

Таким образом,

μSR=K^SR(xnewT,X|θ,A)(1)(K^SR(X,X|θ,A)+σ2 IN)1(2)(yHβ).

С тех пор

(1)=K(xnewT,XA|θ) K(XA,XA|θ)1K(XA,X|θ),

(2)=INσ2K(X,XA|θ)σ2[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ)σ2]1K(XA,X|θ)σ2, 

и от факта это IN B( A+ B)1= A( A+ B)1, μSR может быть записан как

μSR= K(xnewT,XA|θ)[K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2]1K(XA,X|θ)σ2(yHβ).

Точно так же ΣSR выведен можно следующим образом:

ΣSR=k^SR(xnew,xnew|θ,A)*K^SR(xnewT,X|θ,A)**(K^SR(X,X|θ,A)+σ2IN)1***K^SR(X,xnewT|θ,A)****.

Поскольку

* = K(xnewT,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

**=K(xnewT,XA|θ)K(XA,XA|θ)1K(XA,X|θ),***=(2) в  уравнении  μSR,

**** = K(X,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

ΣSR найден можно следующим образом:

SR=K(xnewT,XA|θ)[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ))σ2]1K(XA, xnewT|θ).

Прогнозирующая проблема отклонения

Один из недостатков метода SR - то, что он может дать необоснованно небольшие прогнозирующие отклонения при создании прогнозов в области далеко от выбранного активного набора AN={1,2,...,n}. Рассмотрите создание прогноза в новой точке xnew это далеко от набора обучающих данных X. Другими словами, примите это K(xnewT,X|θ)0.

Для точного GPR, апостериорного распределения fnew данный y, X и xnew было бы Нормально со средним значением μ=0 и отклонение Σ=k(xnew,xnew|θ). Это значение правильно в том смысле, что, если xnew далеко от X, затем данные (X,y) не предоставляет новой информации о fnew и так апостериорное распределение fnew данный y, X, и xnew должен уменьшать до предшествующего распределения fnew данный xnew, который является Нормальным распределением со средним значением 0 и отклонение k(xnew,xnew|θ).

Для приближения SR, если xnew далеко от X (и следовательно также далеко от XAзатем μSR=0 и ΣSR=0. Таким образом в этом крайнем случае, μSR соглашается с μ от точного GPR, но ΣSR необоснованно мал по сравнению с Σ от точного GPR.

Полностью независимый условный метод приближения может помочь избежать этой проблемы.

Ссылки

[1] Расмуссен, C. E. и К. К. Ай. Уильямс. Гауссовы процессы для машинного обучения. Нажатие MIT. Кембридж, Массачусетс, 2006.

[2] Смола, A. J. и Б. Шекопф. Разреженное жадное матричное приближение для машинного обучения. В Продолжениях Семнадцатой Международной конференции по вопросам Машинного обучения, 2000.

Смотрите также

|

Похожие темы