Поднабор аппроксимации регрессоров для моделей GPR

Подмножество регрессоров (SR) метод приближения состоит из замены ядерной функции $k (x,_{} xr'θ$ ) в точном методе GPR его приближением ${\overset{}{}}_{} k^SR (x_{,} xr'θ,$ A), учитывая активный $набор A\subsetN = {1,2 ...,$ n}. Можно указать метод SR для оценки параметров с помощью 'FitMethod','sr' аргумент пары имя-значение в вызове fitrgp. Для прогнозирования с использованием SR можно использовать 'PredictMethod','sr' аргумент пары имя-значение в вызове fitrgp.

Аппроксимация функции ядра

Для точной модели GPR ожидаемое предсказание в GPR зависит от набора $N$ функций $_{SN} = {k (_{x}, xi 'start), i =$ 1,2,..., $n}, где N =$ {1,2,..., n} - набор индексов всех наблюдений, а n - общее число наблюдений. Идея заключается в аппроксимации диапазона этих функций меньшим набором $_{}$ функций $, SA, где$ A⊂N={1,2,..., n} - подмножество индексов точек, выбранных для нахождения в активном $_{} множестве ._{} Рассмотрим SA =$ {k (x, xj 'start), j∈A}. Целью является $_{аппроксимация}$ элементов SN в виде линейных комбинаций $_{}$ элементов SA.

Предположим, что аппроксимация k $(x,_{}$ xr 'start) с использованием функций $в_{}$ SA выглядит следующим образом:

$\overset{k^}{} (x,_{} xr'θ) \underset{=}{}_{} ∑j∈Acjrk (_{x}, xj$ 'θ),

где $_{} cjr∈ℝ$ - коэффициенты линейной комбинации для аппроксимации $k (x,_{}$ xr ' $Предположим$ , что C является матрицей, которая содержит все ${коэффициенты}_{}$ cjr. Затем C представляет собой $| A$ | × n матрицу, такую, $что C_{(j}$ , r) = cjr. Программа находит наилучшее приближение к $_{}$ элементам SN с помощью $активного набора$ A⊂N={1,2,..., n} путём минимизации функции ошибки

$E (A, C)_{=}^{} {∑r=1n‖k (_{x}, xr \overset{)}{'θ} {−k^}_{} (x,}_{xr}^{}'θ$ ) 2,

где $ℋ$ - воспроизводящее ядро гильбертовых пространств (RKHS), связанное с функцией ядра k [1], [2].

Матрица коэффициентов, которая минимизирует $E (A,$ C),

${\overset{}{}}_{C^A} = K {(_{} XA,_{} XA'θ}^{)} {−1K}_{} (XA, X$ 'θ),

и аппроксимация функции ядра с использованием элементов в активном наборе $A⊂N={1,2, ..., n$ } равно

$\overset{k^}{} (x,_{} xr'θ) \underset{=}{}_{} ∑j∈Acjrk (_{x}, xj'θ) =^{} K_{(} xT, XA'θ) C$ (: r).

Аппроксимация SR к функции ядра с использованием активного набора $A⊂N={1,2, ..., n$ } определяется как:

${\overset{}{}}_{k^SR} (x,_{} xr'θ, A) = K^{} (_{xT}, XA {\overset{'θ}{}}_{)} C^A (:^{r)}_{=K} (xT {,_{XA} {'θ}_{)} K}^{(} XA,_{XA} {'θ}_{)}^{} -1K$ (XA, xrT 'θ)

и SR аппроксимация до $K (X,$ X '

${\overset{}{}}_{K^SR} (X, X'θ, A) = K (X_{,} XA'θ) {K_{} (_{XA}, XA}^{'θ}) {−1}_{} K (XA,$ X 'θ).

Оценка параметров

Заменение $K (X, X'θ$ ) ${\overset{}{}}_{} K^SR (X, X'θ,$ A) в крайней функции вероятности регистрации производит свое приближение SR:

$\begin{array}{l} _{logPSR} (y 'X, β,^{start2}, & \frac{}{A} {) = -}^{} {12 {\overset{(}{}}_{y} - Hβ) T [K^{^}_{} SR}^{(} X, X' start \\ , \frac{}{A}) + \frac{}{} {\overset{}{}}_{}^{}_{} \end{array}$

Как и в точном методе, программное обеспечение оценивает параметры, предварительно вычисляя $\overset{}{β}^({start}^{,}$ start2), оптимальную оценку β, заданную startи $^{}$ start2. Затем он оценивает start, $^{и}$ start2 с помощью β-профилированного маргинального логарифмического правдоподобия. Оценка SR до β для данного start, $^{и}$ start2 является:

${\overset{}{}}_{β^SR} (θ^{},σ2, A) {\underset{}{\underset{]}{=^{[} {\overset{[}{HT}}_{} K^SR (X, X'θ, A^{)}_{+}^{} σ2In}}}^{-1H ︸} \underset{σ2In]}{\underset{}{*^{} {\overset{}{}}_{]−1HT [} K^SR (X, X {'θ}^{,} A_{)}^{+}}}$ −1y ︸ **,

где

$\begin{array}{l} {[{\overset{}{}}_{K^SR} (X, X'θ, A)^{+}_{}}^{σ2In]} \frac{_{}}{^{}} \frac{−1=INσ2−K (_{X}, XA}{^{'θ}})_{}^{} \frac{_{} σ2AA-1K (XA}{,^{X}} \\ {'θ}_{)} σ2,_{}_{AA=K} (XA \frac{, {XA}_{}'θ) +K (XA,_{X}'θ)}{^{K}} \\ (X \frac{,^{} XA}{^{'θ}}) \frac{^{} σ2, *_{}}{^{}}_{=HTHσ2−HTK}^{(} \frac{X,_{XA}'θ)}{^{}} \\ σ2AA-1K \frac{(^{} XA}{,^{X}} \frac{{'θ}^{)} Hσ2,_{} **}{^{}}_{}^{} \frac{=HTyσ2-HTK_{(} X, XA'θ}{)^{}} \end{array}$ σ2AA−1K (XA, X 'θ) yσ2.

И SR аппроксимация к β-профилированному предельному логарифмическому правдоподобию:

$\begin{array}{l} _{logPSR} (y'X {\overset{}{,}}_{} β^SR (θ^{},σ2, A), θ^{},σ2, \\ \begin{array}{l} A) \frac{}{=} {-12 {\overset{}{(}}_{} {y−Hβ^SR}^{} (θ}^{,σ2} {, {\overset{)}{A}}_{)} T [K^SR (X, X^{} {'θ}_{,} A}^{)} + {\overset{]}{σ2In}}_{−1} (^{} y-Hβ^SR \\ \frac{(}{θ},σ2, A) \frac{)}{} {\overset{}{}}_{} {−N2log2π−12log'K^SR}^{} (_{X}, X \end{array} \end{array}$ 'θ, A) + σ2In |.

Прогноз

Аппроксимация SR для распределения $_{ynew}$ , заданного $y$ , $X$ , $_{xnew}$ , равна

$P (_{} ynew 'y, X_{,} xnew)_{= N} ({_{} ynew' h}^{} (_{xnew})_{Tβ}^{+}_{мкSR}$ ,

где $_{мкSR}$ и $_{StartSR}$ - аппроксимации SR, которые показаны в прогнозе с использованием точного метода GPR.

$_{мкSR}$ и $_{StartSR}$ получают заменой $k (x,_{}$ xr ${\overset{}{}}_{}_{}$ '

То есть

$_{} \underset{︸}{\underset{)}{{\overset{}{}}_{μSR=K^SR} (_{}^{} xnewT, X'θ, A}} \underset{В)}{\underset{}{{{\overset{(1)}{}}_{(} K^SR (X, X {'θ}^{,} A)_{} +}^{σ2}}} -1 ︸$ (2) (y−Hβ).

С тех пор

$\begin{array}{l} (1) = K_{(}^{}_{xnewT}, {XA_{}_{}}^{}_{} \end{array}$ '

$(2) \frac{_{}}{^{}} \frac{=INσ2−K (_{X}, XA}{^{'θ}} {) σ2 [_{} K_{(} XA, \frac{XA {'θ}_{)} +K (XA, X {'θ}_{)} K}{(^{X}},}^{XA} \frac{'θ)_{} σ2]}{{−1K}^{}} ($ XA, X 'θ) σ2,

а из того, что $_{IN} − {B (A +}^{B)} − {1 = A (}^{A}$ + $B_{)}$ − 1, мкSR можно записать как

$\begin{array}{l} _{μSR} & = K (_{}^{} xnewT,_{} XA'θ {) [K_{} (_{XA}, XA \frac{'θ)_{} +K (XA, X'θ)_{} K (}{X^{,}}}^{XA} \frac{'θ)_{} σ2] -1K}{^{(}} XA, X'θ \end{array})$ σ2 (y−Hβ).

Точно так же $_{StartSR}$ получают следующим образом:

$_{} \underset{}{\underset{)}{{\overset{}{}}_{ΣSR=k^SR} (_{} xnew,_{} xnew'θ, A}} ︸ \underset{A)}{\underset{,}{{\overset{}{}}_{} {*−K^SR}_{(}^{} xnewT, X'θ}} \underset{σ2IN}{\underset{}{{{\overset{}{︸}}_{**} (K^SR (X, X^{'θ},_{A})}^{+}}} \underset{}{\underset{}{{\overset{}{)}}_{−1} ︸ {***}_{}^{K^SR} (X,}} xnewT 'θ$ , A) ︸ ****.

Поскольку

$* = K (_{}^{} xnewT,_{} XA'θ) {K_{} (_{XA}, XA}^{'θ})_{} -1K (_{XA,}^{}$ xnewT 'θ),

$\begin{array}{l} ** =K (_{}^{} xnewT,_{} XA'θ) {K_{} (_{XA}, XA}^{'θ})_{} -1K (XA, \\ X'θ), *** = (2) в_{уравнении} \end{array}$ μSR,

$**** = K (X,_{} XA'θ) {K_{} (_{XA}, XA}^{'θ})_{} -1K (_{XA,}^{}$ xnewT 'θ),

$_{StartSR}$ обнаруживается следующим образом:

$_{} ∑SR=K (_{}^{} xnewT,_{} XA'θ {) [K_{} (_{XA}, XA \frac{'θ)_{} +K (XA, X'θ)_{K} (X,}{^{XA}}}^{'θ}))_{σ2}]_{−1K (}^{} XA,$ xnewT 'θ).

Проблема предиктивной дисперсии

Один из недостатков метода SR заключается в том, что он может давать неоправданно малые предиктивные дисперсии при выполнении предсказаний в области, далёкой от выбранного активного множества $A⊂N={1,2, ..., n$ }. Подумайте о том, чтобы сделать прогноз в новой точке $_{}$ xnew, которая находится далеко от обучающего набора X. Другими словами, предположим, что $K_{(}^{} xnewT, X 'start$ ) ≈0.

Для точного GPR задним распределением $_{fnew}$ , заданного $y$ , $X$ и $_{xnew}$ , будет Normal со средним $λ =$ 0 и $дисперсией Λ =_{k} (_{xnew},$ xnew 'start). Это значение является правильным в том смысле, ${что}_{}$ если xnew находится далеко от X, то $данные$ (X, y) не предоставляют никакой новой информации $_{}$ о fnew, и поэтому апостериорное $_{распределение}$ fnew, данное y, $X_{}$ и xnew, должно быть уменьшено до предыдущего $_{}$ распределения fnew, $_{}$ заданного xnew, которое является нормальным распределением $со$ средним значением 0 и $_{дисперсией} k_{(} xnew$ , xnew 'start).

Для приближения SR, если $_{xnew}$ далеко от $X$ (и следовательно также далеко от $_{XA}$ ), то $_{} μSR=0$ и $_{} ΣSR=0$ . Таким образом, в этом крайнем случае, $_{мкSR}$ согласуется с $λ$ из точного GPR, но $_{StartSR}$ необоснованно мал по сравнению с $Λ$ из точного GPR.

Полностью независимый метод условного приближения может помочь избежать этой проблемы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы машинного обучения. Пресс MIT. Кембридж, Массачусетс, 2006.

[2] Смола, А. Дж. и Б. Шёкопф. «Скудное жадное матричное приближение для машинного обучения». В материалах семнадцатой Международной конференции по машинному обучению, 2000 год.

См. также

fitrgp | predict

Документация