exponenta event banner

Поднабор аппроксимации регрессоров для моделей GPR

Подмножество регрессоров (SR) метод приближения состоит из замены ядерной функции k (x, xr ) в точном методе GPR его приближением k^SR (x, xr , A), учитывая активный набор A⊂N = {1,2..., n}. Можно указать метод SR для оценки параметров с помощью 'FitMethod','sr' аргумент пары имя-значение в вызове fitrgp. Для прогнозирования с использованием SR можно использовать 'PredictMethod','sr' аргумент пары имя-значение в вызове fitrgp.

Аппроксимация функции ядра

Для точной модели GPR ожидаемое предсказание в GPR зависит от набора N функций SN = {k (x, xi 'start), i = 1,2,..., n}, где N = {1,2,..., n} - набор индексов всех наблюдений, а n - общее число наблюдений. Идея заключается в аппроксимации диапазона этих функций меньшим набором функций, SA, где A⊂N={1,2,..., n} - подмножество индексов точек, выбранных для нахождения в активном множестве. Рассмотрим SA = {k (x, xj 'start), j∈A}. Целью является аппроксимация элементов SN в виде линейных комбинаций элементов SA.

Предположим, что аппроксимация k (x, xr 'start) с использованием функций в SA выглядит следующим образом:

k^ (x, xr ) = ∑j∈Acjrk (x, xj 'θ),

где cjr∈ℝ - коэффициенты линейной комбинации для аппроксимации k (x, xr ' Предположим, что C является матрицей, которая содержит все коэффициенты cjr. Затем C представляет собой | A | × n матрицу, такую, что C (j, r) = cjr. Программа находит наилучшее приближение к элементам SN с помощью активного набора A⊂N={1,2,..., n} путём минимизации функции ошибки

E (A, C) = ∑r=1n‖k (x, xr ) −k^ (x, xr )  2,

где - воспроизводящее ядро гильбертовых пространств (RKHS), связанное с функцией ядра k [1], [2].

Матрица коэффициентов, которая минимизирует E (A, C),

C^A = K (XA, XA ) −1K (XA, X 'θ),

и аппроксимация функции ядра с использованием элементов в активном наборе A⊂N={1,2,..., n} равно

k^ (x, xr ) = ∑j∈Acjrk (x, xj  'θ) = K (xT, XA ) C (: r).

Аппроксимация SR к функции ядра с использованием активного набора A⊂N={1,2,..., n} определяется как:

k^SR (x, xr , A) = K (xT, XA ) C^A (: r) =K (xT, XA ) K (XA, XA ) −1K (XA, xrT 'θ)

и SR аппроксимация до K (X, X '

K^SR (X, X , A)  = K (X, XA  'θ) K (XA, XA  ) −1 K (XA, X 'θ).

Оценка параметров

Заменение K (X, X ) K^SR (X, X , A) в крайней функции вероятности регистрации производит свое приближение SR:

logPSR (y 'X, β, start2, A) = 12 (y ) T [K ^ SR (X, X' start, A) +

Как и в точном методе, программное обеспечение оценивает параметры, предварительно вычисляя β ^ (start, start2), оптимальную оценку β, заданную startи start2. Затем он оценивает start, и start2 с помощью β-профилированного маргинального логарифмического правдоподобия. Оценка SR до β для данного start, и start2 является:

β^SR (θ,σ2, A) = [HT [K^SR (X, X , A) + σ2In] −1H *]−1HT [K^SR (X, X , A) + σ2In] −1y ︸ **,

где

[K^SR (X, X , A) + σ2In] −1=INσ2−K (X, XA ) σ2AA−1K (XA, X ) σ2, AA=K (XA, XA ) +K (XA, X ) K (X, XA ) σ2, * =HTHσ2−HTK (X, XA ) σ2AA−1K (XA, X ) Hσ2, ** =HTyσ2−HTK (X, XA ) σ2AA−1K (XA, X 'θ) yσ2.

И SR аппроксимация к β-профилированному предельному логарифмическому правдоподобию:

logPSR (y'X, β^SR (θ,σ2, A), θ,σ2, A) = −12 (y−Hβ^SR (θ,σ2, A)) T [K^SR (X, X , A) + σ2In] −1 (y−Hβ^SR (θ,σ2, A)) −N2log2π−12log'K^SR (X, X 'θ, A) + σ2In |.

Прогноз

Аппроксимация SR для распределения ynew, заданного y, X, xnew, равна

P (ynew 'y, X, xnew) = N (ynew' h (xnew) + мкSR,

где мкSR и StartSR - аппроксимации SR, которые показаны в прогнозе с использованием точного метода GPR.

мкSR и StartSR получают заменой k (x, xr '

То есть

μSR=K^SR (xnewT, X , A) (1) (K^SR (X, X , A) + σ2 В) −1 (2) (y−Hβ).

С тех пор

(1) = K (xnewT,  XA '

(2) =INσ2−K (X, XA ) σ2 [K (XA, XA ) +K ( XA, X ) K (X, XA ) σ2] −1K ( XA, X 'θ) σ2,

а из того, что IN  − B (A + B)  − 1 =  A (A + B) − 1, мкSR можно записать как

μSR = K (xnewT, XA ) [K (XA, XA ) +K (XA, X ) K (X, XA ) σ2] −1K (XA, X ) σ2 (y−Hβ).

Точно так же StartSR получают следующим образом:

ΣSR=k^SR (xnew, xnew , A) *−K^SR (xnewT, X , A) ** (K^SR (X, X , A) + σ2IN) −1 *** K^SR (X, xnewT 'θ, A) ︸ ****.

Поскольку

 * = K (xnewT, XA ) K (XA, XA ) −1K (XA, xnewT 'θ),

** =K (xnewT, XA ) K (XA, XA ) −1K (XA, X ),  *** = (2) в  уравнении μSR,

**** = K (X, XA ) K (XA, XA ) −1K (XA, xnewT 'θ),

StartSR обнаруживается следующим образом:

∑SR=K (xnewT, XA ) [K (XA, XA ) +K (XA , X ) K (X, XA )) σ2] −1K (XA, xnewT 'θ).

Проблема предиктивной дисперсии

Один из недостатков метода SR заключается в том, что он может давать неоправданно малые предиктивные дисперсии при выполнении предсказаний в области, далёкой от выбранного активного множества A⊂N={1,2,..., n}. Подумайте о том, чтобы сделать прогноз в новой точке xnew, которая находится далеко от обучающего набора X. Другими словами, предположим, что K (xnewT, X 'start) ≈0.

Для точного GPR задним распределением fnew, заданного y, X и xnew, будет Normal со средним λ = 0 и дисперсией Λ = k (xnew, xnew 'start). Это значение является правильным в том смысле, что если xnew находится далеко от X, то данные (X, y) не предоставляют никакой новой информации о fnew, и поэтому апостериорное распределение fnew, данное y, X и xnew, должно быть уменьшено до предыдущего распределения fnew, заданного xnew, которое является нормальным распределением со средним значением 0 и дисперсией k (xnew, xnew 'start).

Для приближения SR, если xnew далеко от X (и следовательно также далеко от XA), то μSR=0 и ΣSR=0. Таким образом, в этом крайнем случае, мкSR согласуется с λ из точного GPR, но StartSR необоснованно мал по сравнению с Λ из точного GPR.

Полностью независимый метод условного приближения может помочь избежать этой проблемы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы машинного обучения. Пресс MIT. Кембридж, Массачусетс, 2006.

[2] Смола, А. Дж. и Б. Шёкопф. «Скудное жадное матричное приближение для машинного обучения». В материалах семнадцатой Международной конференции по машинному обучению, 2000 год.

См. также

|

Связанные темы