Точный метод GPR

Образец y отклика из модели регрессии Гауссова процесса (GPR) может быть смоделирован как

P(yi|f(xi),xi) ~N(yi|h(xi)Tβ+f(xi),σ2)

Следовательно, для предсказаний новых данных из модели GPR требуется:

  • Знание вектора коэффициентов, β, функций фиксированного базиса

  • Способность оценивать ковариационную функцию k(x,x|θ) для произвольных x и x, учитывая параметры ядра или гиперпараметры, θ.

  • Знание отклонения шума σ2 который появляется в плотности P(yi|f(xi),xi)

То есть сначала нужно оценить β, θ, и σ2 из данных (X,y).

Оценка параметра

Один из подходов к оценке параметров β, θ, и σ2 модели GPR является путем максимизации вероятности P(y|X) как функцию β, θ, и σ2[1]. То есть, если β^, θ^, и σ^2 являются оценками β, θ, и σ2, соответственно, затем:

β^,θ^,σ^2=arg maxβ,θ,σ2logP(y|X,β,θ,σ2).

Поскольку

P(y|X)=P(y|X,β,θ,σ2)=N(y|Hβ,K(X,X|θ)+σ2In),

предельная функция журнала правдоподобия следующая:

logP(y|X,β,θ,σ2)=12(yHβ)T[K(X,X|θ)+σ2In]1(yHβ)n2log2π12log|K(X,X|θ)+σ2In|.

где H является вектором явных базисных функций, и K(X,X|θ) - ковариация функций (для получения дополнительной информации см. «Регрессионые модели Гауссова процесса»).

Чтобы оценить параметры, программное обеспечение сначала вычисляет β^(θ,σ2), который максимизирует журнал функцию правдоподобия относительно β для данного θ и σ2. Затем он использует эту оценку, чтобы вычислить β-профилированная вероятность:

log{P(y|X,β^(θ,σ2),θ,σ2)}.

Смета β для данного θ, и σ2 является

β^(θ,σ2)=[ HT[K(X,X|θ)+σ2In]1 H]1HT[K(X,X|θ)+σ2In]1 y.

Затем, β-профинированная вероятность журнала определяется

logP(y|X,β^(θ,σ2),θ,σ2)=12(yHβ^(θ,σ2))T[K(X,X|θ)+σ2In]1(yHβ^(θ,σ2))n2log2π12log|K(X,X|θ)+σ2In|

Затем программное обеспечение максимизирует β-профилед логарифмической правдоподобности над θ, и σ2 чтобы найти их оценки.

Предсказание

Для выполнения вероятностных предсказаний из модели GPR с известными параметрами требуется плотность P(ynew|y,X,xnew). Используя определение условных вероятностей, можно записать:

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew).

Чтобы найти плотность соединений в числителе, необходимо ввести латентные переменные fnew и f соответствующий ynew, и y, соответственно. Тогда можно использовать распределение соединений для ynew, y, fnew, и f вычислить P(ynew,y|X,xnew):

P(ynew,y|X,xnew)=P(ynew,y,fnew,f|X,xnew)dfdfnew=P(ynew,y|fnew,f,X,xnew)P(fnew,f|X,xnew)dfdfnew.

Гауссовы модели процесса предполагают, что каждый ответ yi зависит только от соответствующей скрытой переменной fi и вектор функции xi. Написание P(ynew,y|fnew,f,X,xnew) как продукт условных плотностей и на основе этого предположения дает:

P(ynew,y|fnew,f,X,xnew)=P(ynew|fnew,xnew)i=1nP(yi|f(xi),xi).

После интегрирования относительно ynew, результат зависит только от f и X:

P(y|f,X)=i=1nP(yi|fi,xi)=i=1nN(yi|h(xi)Tβ+fi,σ2).

Следовательно,

P(ynew, y|fnew, f, X, xnew)=P(ynew|fnew, xnew)P(y|f,X).

Снова используя определение условных вероятностей,

P(fnew,f|X,xnew)=P(fnew|f,X,xnew)*P(f|X,xnew),

есть возможность написать P(ynew,y|X,xnew) следующим образом:

P(ynew,y|X,xnew)=P(ynew|fnew, xnew)P(y|f,X)P(fnew|f,X,xnew)P(f|X,xnew)dfdfnew.

Используя факты, которые

P(f|X,xnew)=P(f|X)

и

P(y|f,X)P(f|X)=P(y,f|X)=P(f|y,X)P(y|X),

можно переписать P(ynew,y|X,xnew) следующим образом:

P(ynew,y|X,xnew)=P(y|X)P(ynew|fnew, xnew)P(f|y,X)P(fnew|f,X,xnew)dfdfnew.

Также возможно показать, что

P(y|X,xnew)=P(y|X).

Следовательно, необходимая плотность P(ynew|y,X,xnew) является:

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew)=P(ynew,y|X,xnew)P(y|X)=P(ynew|fnew, xnew)(1)P(f|y,X)(2)P(fnew|f,X,xnew)(3)dfdfnew.

Можно показать, что

(1)P(ynew|fnew,xnew)=N(ynew|h(xnew)Tβ+fnew,σnew2)

(2)P(f|y,X)=N(f|1σ2(Inσ2+K(X,X)1)1(yHβ),(Inσ2+K(X,X)1)1)

(3)P(fnew|f,X,xnew)=N(fnew|K(xnewT,X)K(X,X)1f,Δ),гдеΔ=k(xnew,xnew)K(xnewT,X) K(X,X)1K(X,xnewT).

После интегрирования и необходимой алгебры, плотность нового отклика ynew в новой точке xnew, заданный y, X найдено как

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μ,σnew2+Σ),

где

μ=K(xnewT,X)(K(X,X)+σ2In)1(yHβ)α

и

Σ=k(xnew,xnew)K(xnewT,X)(K(X,X)+σ2In)1K(X,xnewT).

Ожидаемое значение предсказания ynew в новой точке xnew данный y, X, и параметры β, θ, и σ2 является

E(ynew|y, X,xnew,β,θ,σ2)= h(xnew)Tβ+ K(xnewT,X|θ)α= h(xnew)Tβ+i=1nαik(xnew,xi|θ),

где

α=(K(X,X|θ)+σ2In)1(yHβ).

Вычислительная сложность точной оценки и предсказания параметра

Настройка модели GPR с помощью точного метода (когда FitMethod является 'Exact') требует инверсии n -by n матрицы ядра K(X,X). Требование к памяти для этого шага масштабируется как O (n2) с K(X,X) должна храниться в памяти. Одна оценка logP(y|X) масштабируется как O (n3). Поэтому вычислительная сложность является O (k n3), где k количество вычислений функции, необходимых для максимизации, и n количество наблюдений.

Создание предсказаний по новым данным включает в себя расчет α^. Если желательны интервалы предсказания, этот шаг может также включать расчет и хранение фактора Холецкого (K(X,X)+σ2In) для дальнейшего использования. Вычислительная сложность этого шага с помощью прямого расчета α^ есть O (n3) и требованием памяти является O (n2).

Следовательно, для больших n оценка параметров или вычислительные предсказания могут быть очень дорогими. Методы приближения обычно включают реорганизацию расчета так, чтобы избежать инверсии матрицы n -by n. Для получения информации о доступных методах приближения см. соответствующие ссылки в нижней части страницы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы для машинного обучения. MIT Press. Кембридж, Массачусетс, 2006.

См. также

|

Похожие темы