Подмножество приближения регрессоров для моделей GPR

Подмножество регрессоров (SR) метод приближения состоит из замены функции ядра $k (x, x_{r} | θ)$ в точном методе GPR его приближением ${\hat{k}}_{S R} (x, x_{r} | θ, A)$ , учитывая активный набор $A \subset N = {1, 2, ..., n}$ . Можно задать метод SR для оценки параметра при помощи 'FitMethod','sr' аргумент пары "имя-значение" в вызове fitrgp. Для предсказания с помощью SR можно использовать 'PredictMethod','sr' аргумент пары "имя-значение" в вызове fitrgp.

Аппроксимация функции ядра

Для точной модели GPR ожидаемое предсказание в GPR зависит на съемочной площадке $N$ функции $S_{N} = {k (x, x_{i} | θ), i = 1, 2, \dots, n}$ , где $N = {1, 2, ..., n}$ набор индексов всех наблюдений, и n является общим количеством наблюдений. Идея состоит в том, чтобы аппроксимировать промежуток этих функций меньшим набором функций, $S_{A}$ , где $A \subset N = {1, 2, ..., n}$ подмножество индексов точек, выбранных, чтобы быть в активном наборе. Рассмотреть $S_{A} = {k (x, x_{j} | θ), j \in A}$ . Цель состоит в том, чтобы аппроксимировать элементы $S_{N}$ как линейные комбинации элементов $S_{A}$ .

Предположим приближение к $k (x, x_{r} | θ)$ использование функций в $S_{A}$ следующие:

$\hat{k} (x, x_{r} | θ) = \sum_{j \in A} c_{j r} k (x, x_{j} | θ),$

где $c_{j r} \in ℝ$ коэффициенты линейной комбинации для аппроксимации $k (x, x_{r} | θ)$ . Предположим $C$ матрица, которая содержит все коэффициенты $c_{j r}$ то, $C$ isa $| A | \times n$ матрицируйте таким образом что $C (j, r) = c_{j r}$ . Программное обеспечение находит наилучшее приближение к элементам $S_{N}$ использование активного набора $A \subset N = {1, 2, ..., n}$ путем минимизации функции ошибок

$E (A, C) = \sum_{r = 1}^{n} {‖ k (x, x_{r} | θ) - \hat{k} (x, x_{r} | θ) ‖}_{ℋ}^{2},$

где $ℋ$ Репродуцирование ядра пробелы Гильберта (RKHS), сопоставленное с функцией ядра k [1], [2].

Матрица коэффициентов, которая минимизирует $E (A, C)$

${\hat{C}}_{A} = K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, X | θ),$

и приближение к функции ядра использование элементов в активном наборе $A \subset N = {1, 2, ..., n}$

$\hat{k} (x, x_{r} | θ) = \sum_{j \in A} c_{j r} k (x, x_{j} | θ) = K (x^{T}, X_{A} | θ) C (:, r) .$

Приближение SR к функции ядра использование активного набора $A \subset N = {1, 2, ..., n}$ задан как:

${\hat{k}}_{S R} (x, x_{r} | θ, A) = K (x^{T}, X_{A} | θ) {\hat{C}}_{A} (:, r) = K (x^{T}, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, x_{r}^{T} | θ)$

и приближение SR к $K (X, X | θ)$ :

${\hat{K}}_{S R} (X, X | θ, A) = K (X, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, X | θ) .$

Оценка параметра

Заменяя $K (X, X | θ)$ ${\hat{K}}_{S R} (X, X | θ, A)$ в крайнем журнале функция правдоподобия производит свое приближение SR:

$\begin{array}{l} \log P_{S R} (y | X, β, θ, σ^{2}, A) = & - \frac{1}{2} {(y - H β)}^{T} {[{\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n}]}^{- 1} (y - H β) \\ - \frac{N}{2} \log 2 π - \frac{1}{2} \log | {\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n} | \end{array}$

Как в точном методе, программное обеспечение оценивает параметры первым вычислением $\hat{β} (θ, σ^{2})$ , оптимальная оценка $β$ , данный $θ$ и $σ^{2}$ . Затем это оценивает $θ$ , и $σ^{2}$ использование $β$ - профилируемая крайняя логарифмическая вероятность. Оценка SR к $β$ для данного $θ$ , и $σ^{2}$ :

${\hat{β}}_{S R} (θ, σ^{2}, A) = {[\underset{*}{\underset{︸}{H^{T} {[{\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n}]}^{- 1} H}}]}^{- 1} \underset{* *}{\underset{︸}{H^{T} {[{\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n}]}^{- 1} y}},$

где

$\begin{array}{l} {[{\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n}]}^{- 1} = \frac{I_{N}}{σ^{2}} - \frac{K (X, X_{A} | θ)}{σ^{2}} A_{A}^{- 1} \frac{K (X_{A}, X | θ)}{σ^{2}}, \\ A_{A} = K (X_{A}, X_{A} | θ) + \frac{K (X_{A}, X | θ) K (X, X_{A} | θ)}{σ^{2}}, \\ * = \frac{H^{T} H}{σ^{2}} - \frac{H^{T} K (X, X_{A} | θ)}{σ^{2}} A_{A}^{- 1} \frac{K (X_{A}, X | θ) H}{σ^{2}}, \\ * * = \frac{H^{T} y}{σ^{2}} - \frac{H^{T} K (X, X_{A} | θ)}{σ^{2}} A_{A}^{- 1} \frac{K (X_{A}, X | θ) y}{σ^{2}} . \end{array}$

И приближение SR к $β$ - профилируемая крайняя логарифмическая вероятность:

$\begin{array}{l} \log P_{S R} (y | X, {\hat{β}}_{S R} (θ, σ^{2}, A), θ, σ^{2}, A) = \\ \begin{array}{l} - \frac{1}{2} {(y - H {\hat{β}}_{S R} (θ, σ^{2}, A))}^{T} {[{\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n}]}^{- 1} (y - H {\hat{β}}_{S R} (θ, σ^{2}, A)) \\ - \frac{N}{2} \log 2 π - \frac{1}{2} \log | {\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{n} | . \end{array} \end{array}$

Предсказание

Приближение SR к распределению $y_{n e w}$ данный $y$ , $X$ , $x_{n e w}$

$P (y_{n e w} | y, X, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + μ_{S R}, σ_{n e w}^{2} + Σ_{S R}),$

где $μ_{S R}$ и $Σ_{S R}$ приближения SR к $μ$ и $Σ$ показанный в предсказании с помощью точного метода GPR.

$μ_{S R}$ и $Σ_{S R}$ получены, заменив $k (x, x_{r} | θ)$ его приближением SR ${\hat{k}}_{S R} (x, x_{r} | θ, A)$ \in $μ$ и $Σ$ , соответственно.

Таким образом,

$μ_{S R} = \underset{(1)}{\underset{︸}{{\hat{K}}_{S R} (x_{n e w}^{T}, X | θ, A)}} \underset{(2)}{\underset{︸}{{({\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{N})}^{- 1}}} (y - H β) .$

С тех пор

$\begin{array}{l} (1) = K (x_{n e w}^{T}, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, X | θ) \end{array},$

$(2) = \frac{I_{N}}{σ^{2}} - \frac{K (X, X_{A} | θ)}{σ^{2}} {[K (X_{A}, X_{A} | θ) + \frac{K (X_{A}, X | θ) K (X, X_{A} | θ)}{σ^{2}}]}^{- 1} \frac{K (X_{A}, X | θ)}{σ^{2}},$

и от факта это $I_{N} - B {(A + B)}^{- 1} = A {(A + B)}^{- 1}$ , $μ_{S R}$ может быть записан как

$\begin{array}{l} μ_{S R} & = K (x_{n e w}^{T}, X_{A} | θ) {[K (X_{A}, X_{A} | θ) + \frac{K (X_{A}, X | θ) K (X, X_{A} | θ)}{σ^{2}}]}^{- 1} \frac{K (X_{A}, X | θ)}{σ^{2}} (y - H β) \end{array} .$

Точно так же $Σ_{S R}$ выведен можно следующим образом:

$Σ_{S R} = \underset{*}{\underset{︸}{{\hat{k}}_{S R} (x_{n e w}, x_{n e w} | θ, A)}} - \underset{* *}{\underset{︸}{{\hat{K}}_{S R} (x_{n e w}^{T}, X | θ, A)}} \underset{* * *}{\underset{︸}{{({\hat{K}}_{S R} (X, X | θ, A) + σ^{2} I_{N})}^{- 1}}} \underset{* * * *}{\underset{︸}{{\hat{K}}_{S R} (X, x_{n e w}^{T} | θ, A)}} .$

Поскольку

$* = K (x_{n e w}^{T}, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, x_{n e w}^{T} | θ),$

$\begin{array}{l} * * = K (x_{n e w}^{T}, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, X | θ), \\ * * * = (2) в уравнении μ_{S R}, \end{array}$

$* * * * = K (X, X_{A} | θ) K {(X_{A}, X_{A} | θ)}^{- 1} K (X_{A}, x_{n e w}^{T} | θ),$

$Σ_{S R}$ найден можно следующим образом:

$\sum_{S R} = K (x_{n e w}^{T}, X_{A} | θ) {[K (X_{A}, X_{A} | θ) + \frac{K (X_{A}, X | θ) K (X, X_{A} | θ))}{σ^{2}}]}^{- 1} K (X_{A}, x_{n e w}^{T} | θ) .$

Прогнозирующая проблема отклонения

Один из недостатков метода SR - то, что он может дать необоснованно небольшие прогнозирующие отклонения при создании предсказаний в области далеко от выбранного активного набора $A \subset N = {1, 2, ..., n}$ . Рассмотрите создание предсказания в новой точке $x_{n e w}$ это далеко от набора обучающих данных $X$ . Другими словами, примите это $K (x_{n e w}^{T}, X | θ) \approx 0$ .

Для точного GPR, апостериорного распределения $f_{n e w}$ данный $y$ , $X$ и $x_{n e w}$ было бы Нормально со средним значением $μ = 0$ и отклонение $Σ = k (x_{n e w}, x_{n e w} | θ)$ . Это значение правильно в том смысле, что, если $x_{n e w}$ далеко от $X$ , затем данные $(X, y)$ не предоставляет новой информации о $f_{n e w}$ и так апостериорное распределение $f_{n e w}$ данный $y$ , $X$ , и $x_{n e w}$ должен уменьшать до предшествующего распределения $f_{n e w}$ данный $x_{n e w}$ , который является Нормальным распределением со средним значением $0$ и отклонение $k (x_{n e w}, x_{n e w} | θ)$ .

Для приближения SR, если $x_{n e w}$ далеко от $X$ (и следовательно также далеко от $X_{A}$ то $μ_{S R} = 0$ и $Σ_{S R} = 0$ . Таким образом в этом крайнем случае, $μ_{S R}$ соглашается с $μ$ от точного GPR, но $Σ_{S R}$ необоснованно мал по сравнению с $Σ$ от точного GPR.

Полностью независимый условный метод приближения может помочь избежать этой проблемы.

Ссылки

[1] Расмуссен, C. E. и К. К. Ай. Уильямс. Гауссовы процессы для машинного обучения. Нажатие MIT. Кембридж, Массачусетс, 2006.

[2] Смола, A. J. и Б. Шекопф. Разреженное жадное матричное приближение для машинного обучения. В Продолжениях Семнадцатой Международной конференции по вопросам Машинного обучения, 2000.

Смотрите также

fitrgp | predict

Документация