Точный метод GPR

Экземпляр ответа y из модели регрессии гауссова процесса (GPR) может быть смоделирован как

$P (_{} yi 'f_{(} xi)_{,} xi) ~_{} N {(_{}}^{yi' h} (xi)_{} Tβ^{+}$ f (xi), start2)

Следовательно, составление прогнозов для новых данных из модели GPR требует:

Знание вектора коэффициентов, $β$ , фиксированных базисных функций
Способность оценивать ковариационную функцию $k (^{} x,x'|θ$ ) для произвольных x и $^{x}$ ′, учитывая параметры ядра или гиперпараметры,
Знание дисперсии шума, $^{которая}$ появляется в плотности $P (_{} yi 'f_{(} xi)_{,}$ xi)

То есть, сначала нужно оценить $β$ , $startи$ $^{start2}$ по данным $(X, y$ ).

Оценка параметров

Один из подходов для оценки параметров $β$ , $start$ , и $^{start2}$ модели GPR заключается в максимизации вероятности $P (y 'X$ ) как функции β, start, и $^{}$ start2 [1]. То есть, $\overset{}{если}$ β $\overset{,}{^}$ start^, ${\overset{}{}}^{и}$ λ ^ 2 являются оценками β, start $,^{}$ и start2 соответственно, то:

$\overset{}{} \overset{}{} {\overset{}{}}^{} \underset{^{}}{} β^,θ^,σ^2=arg maxβ,θ,σ2logP (y'X, β,θ^{},σ2$ ).

Поскольку

$P (y 'X) = P (y' X,^{β}^{}_{}$ ,

функция предельного логарифмического правдоподобия выглядит следующим образом:

$\begin{array}{l} logP (y 'X, β,^{start2)} & \frac{}{} {= -}^{12} {(y - Hβ) T^{} [_{K}}^{(X}, X \\ \frac{}{} \frac{}{}^{}_{} \end{array}$ '

где $H$ - вектор явных базисных функций, а $K (X,$ X 'start) - матрица ковариационных функций (для получения дополнительной информации см. Модели регрессии гауссова процесса).

Для оценки параметров программное обеспечение сначала вычисляет $\overset{}{β}^({start}^{,}$ start2), что максимизирует логарифмическую функцию правдоподобия по отношению к β для заданных $^{}$ Затем он использует эту оценку для вычисления вероятности β-профилирования:

$\log {P (\overset{,}{y 'X} β^^{}^{}$ (

Оценка $β$ для данного $^{}$

$\overset{}{β}^({start}^{,} {start2)^{=} {[HT [K (X,^{}_{} X 'start}^{)} +}^{}^{} {^{}_{}}^{}$

Затем β-профилированное логарифмическое правдоподобие задается

$\begin{array}{l} logP (y'X \overset{}{,} β^(θ^{},σ2), θ^{},σ2 & ) \frac{}{=} {-12 \overset{}{(} {y−Hβ^}^{} (θ}^{} {,σ2)) T [K (X^{,} X_{}'θ}^{)} + \overset{]}{σ2In} −1 (^{} \\ \frac{y−Hβ^}{} (θ,σ2) \frac{)}{}^{} {−n2log2π−12log'K}_{} ( \end{array}$ X, X 'θ) + σ2In |

Затем программное обеспечение максимизирует β-профилированное логарифмическое правдоподобие над $^{}$

Прогноз

Выполнение вероятностных прогнозов из модели GPR с известными параметрами требует плотности $P (_{} ynew 'y, X_{,}$ xnew). Используя определение условных вероятностей, можно записать:

$P (_{} ynew 'y, X_{,} \frac{xnew)_{= P} ({ynew}_{,}}{y' X, {xnew}_{) P}} ($ y 'X, xnew).

Чтобы найти плотность соединения в числителе, необходимо ввести скрытые переменные $_{fnew}$ и $f$ , соответствующие $_{ynew}$ и $y$ соответственно. Затем можно использовать совместное распределение для $_{ynew}$ , $y$ , $_{fnew}$ и $f$ для вычисления $P (_{} ynew, {y 'X}_{,}$ xnew):

$\begin{array}{l} \begin{array}{l} P (_{} ynew, {y 'X}_{,} & xnew)_{=∫∫P} (_{ynew,} y,_{fnew,} f' X,_{} \\ xnew)_{}_{dfdfnew=∫∫P (} ynew,_{} y 'fnew,_{f,} X,_{xnew)} P (_{fnew}, \end{array} \\ f' X, xnew \end{array}$ ) dfdfnew.

Модели гауссовых процессов предполагают, что каждый отклик $_{yi}$ зависит только от соответствующей скрытой переменной $_{fi}$ и вектора признаков $_{}$ xi. Запись $P (_{} ynew,_{} y 'fnew, f,_{X,}$ xnew) как произведение условных плотностей и на основе этого предположения производит:

$\begin{array}{l} P (_{} ynew,_{} y 'fnew, f,_{X,} {xnew}_{) =} P_{(}_{}_{ynew' fnew,}^{} {xnew}_{)}_{} \prodi=1nP_{(} \end{array}$ yi 'f (xi), xi).

После интегрирования относительно $_{ynew}$ результат зависит только от $f$ и $X$ :

$\begin{array}{l} P (y 'f, X)_{}^{}_{=∏i=1nP} (_{}_{} yi' fi,_{xi)}^{}_{} {=\prodi=1nN_{(}}^{} yi 'h_{(} {xi}^{)} \end{array}$ Tβ + fi, start2).

Следовательно,

$P (_{} ynew,_{} y 'fnew, f, X,_{} xnew) =_{P (}_{}_{ynew' fnew,} xnew) P ($ y 'f, X).

Снова используя определение условных вероятностей,

$P (_{} fnew, {f 'X}_{,} xnew)_{= P} (_{fnew' f,} X, xnew)_{*} P$ (f 'X, xnew),

можно записать $P (_{} ynew, {y 'X}_{,}$ xnew) следующим образом:

$P (_{} ynew, {y 'X}_{,} xnew)_{=∫∫P} (_{}_{ynew' fnew,} xnew) P (_{y 'f,} X) P (_{} fnew' f, X,_{} xnew) P_{(} f 'X$ , xnew) dfdfnew.

Используя факты, которые

$P (f 'X,_{} xnew) = P$ (f' X)

$P (y 'f, X) P (f' X) = P (y, f 'X) = P ($ f' y, X) P (y 'X),

можно переписать $P (_{} ynew, {y 'X}_{,}$ xnew) следующим образом:

$P (_{} ynew, {y 'X}_{,} xnew) = P ({y' X}_{)} {∫∫P}_{(}_{} ynew 'fnew, xnew) P_{(} f' y, X)_{P (}_{fnew 'f,} X$ , xnew) dfdfnew.

Также можно показать, что

$P (y 'X,_{} xnew) = P ($ y' X).

Следовательно, требуемая плотность $P (_{} ynew 'y, X_{,}$ xnew) равна:

$\begin{array}{l} P (_{} ynew'y, X,_{} xnew & ) \frac{{=P}_{(} ynew,_{y'X,}}{xnew) P (_{y'X},} \frac{{xnew}_{)} =P (_{ynew,}}{y'X, xnew} \\ ) P \underset{ynew'fnew}{\underset{}{_{(y'X)} =_{∫∫ P} (_{}}} \underset{}{\underset{︸}{, xnew)}} \underset{P}{\underset{(2)}{(1) P_{(} f'y, X)_{︸}}} (_{fnew'f}, \end{array}$ X, xnew) ︸ (3) dfdfnew.

Можно показать, что

$(1) P (_{}_{} ynew 'fnew,_{} xnew) =_{N} ({_{ynew' h}}^{(}_{xnew)} {Tβ}_{+}^{}$ fnew,

$(2) P (f'y, X) =N \frac{}{(^{}} {\frac{_{}}{{f|1σ2}^{}} ({Inσ2+K}^{(} X}^{, X}) −1) {-1 \frac{_{}}{^{}} {(y-Hβ), (}^{}}^{Inσ2+K}$ (X, X) −1) −1)

$\begin{array}{l} (3) \begin{array}{l} P (_{} fnew 'f, X_{,} xnew)_{= N} (_{}^{fnew' K} ({xnewT,}^{X)} K ( \end{array} X \\ , X) − 1f, Δ)_{,}_{где} Δ = k_{(}^{} xnew, {xnew)}^{-} K (_{xnewT}^{,} X \end{array}$ ) K (X, X) − 1K (X

После интегрирования и требуемой алгебры плотность нового ответа $_{ynew}$ в новой точке $_{xnew}$ , учитывая $y$ , $X$ , обнаруживается как

$P (_{} ynew 'y, X_{,} xnew)_{= N} ({_{} ynew' h}^{} ({xnew}_{)}^{Tβ} +$

где

$λ = K_{(}^{} xnewT \underset{}{\underset{)}{{, X) (K (^{X},_{} X}^{)} + start2In}}$ − 1 (y − Hβ) ︸ α

$Λ = k_{(}_{xnew,} xnew)_{-}^{K} ({xnewT, X)^{(} K_{} (}^{X,} X) +_{}^{} start2In)$ − 1K (X, xnewT).

Ожидаемое значение предсказания $_{ynew}$ в новой точке $_{xnew}$ , заданной $y$ , $X$ и параметрами $β,$ $^{}$

$\begin{array}{l} E (_{} ynew'y, X,_{} xnew, β,θ^{},σ2 & ) = {h_{}}^{} (xnew) Tβ +_{K}^{(} xnewT, \\ X'θ {)_{α =} h}^{}_{(xnew)}^{}_{Tβ} + \sum_{}_{i=1nαik} ( \end{array}$ xnew, xi 'θ),

где

$α {= (K (X,^{X 'start})_{} +}^{} σ2In) -$ 1 (y − Hβ).

Вычислительная сложность точной оценки и прогнозирования параметров

Обучение модели GPR точному методу (когда FitMethod является 'Exact') требует инверсии матрицы $K (X,$ X) ядра n-на-n. Требования к памяти для этого шага масштабируются как O (n2), $поскольку K ($ X, X) должны храниться в памяти. Одна $оценка logP$ (y 'X) шкала ^как O (n3). Следовательно, вычислительная сложность ^равна O (kn3), где k - количество оценок функций, необходимых для максимизации, а n - количество наблюдений.

Составление прогнозов по новым данным включает в себя вычисление $\overset{}{α}$ ^. Если интервалы прогнозирования желательны, этот этап может также включать вычисление и сохранение коэффициента Холески $(K (X, X^{)}_{+}$ σ2In) для последующего использования. Вычислительная сложность этого шага с использованием прямого $\overset{}{вычисления}$ α ^ ^равна O (n3), а потребность в памяти равна O (n2).

Следовательно, для больших n оценка параметров или вычислительные прогнозы могут быть очень дорогостоящими. Способы аппроксимации обычно включают в себя перегруппировку вычислений так, чтобы избежать инверсии матрицы n-на-n. Доступные методы аппроксимации см. в соответствующих ссылках в нижней части страницы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы машинного обучения. Пресс MIT. Кембридж, Массачусетс, 2006.

См. также

fitrgp | predict

Документация