Точный метод GPR

Экземпляр ответа y из модели Gaussian process regression (GPR) может быть смоделирован как

P(yi|f(xi),xi) ~N(yi|h(xi)Tβ+f(xi),σ2)

Следовательно, создание предсказаний для новых данных из модели GPR требует:

  • Знание вектора коэффициентов, β, из фиксированных основных функций

  • Способность выполнить функцию ковариации k(x,x|θ) для произвольного x и x, учитывая параметры ядра или гиперпараметры, θ.

  • Знание шумового отклонения σ2 это появляется в плотности P(yi|f(xi),xi)

Таким образом, каждый должен сначала оценить β, θ, и σ2 из данных (X,y).

Оценка параметра

Один подход для оценки параметров β, θ, и σ2 из GPR модель путем максимизации вероятности P(y|X) как функция β, θ, и σ2[1]. Таким образом, если β^, θ^, и σ^2 оценки β, θ, и σ2, соответственно, затем:

β^,θ^,σ^2=аргумент макс.β,θ,σ2logP(y|X,β,θ,σ2).

Поскольку

P(y|X)=P(y|X,β,θ,σ2)=N(y|Hβ,K(X,X|θ)+σ2In),

крайняя логарифмическая функция правдоподобия следующие:

logP(y|X,β,θ,σ2)=12(yHβ)T[K(X,X|θ)+σ2In]1(yHβ)n2log2π12log|K(X,X|θ)+σ2In|.

где H вектор из явных основных функций, и K(X,X|θ) матрица функции ковариации (для получения дополнительной информации, см. Гауссовы Модели Регрессии Процесса).

Чтобы оценить параметры, программное обеспечение сначала вычисляет β^(θ,σ2), который максимизирует логарифмическую функцию правдоподобия относительно β для данного θ и σ2. Это затем использует эту оценку, чтобы вычислить β- профилируемая вероятность:

log{P(y|X,β^(θ,σ2),θ,σ2)}.

Оценка β для данного θ, и σ2

β^(θ,σ2)=[ HT[K(X,X|θ)+σ2In]1 H]1HT[K(X,X|θ)+σ2In]1 y.

Затем β- профилируемой логарифмической вероятностью дают

logP(y|X,β^(θ,σ2),θ,σ2)=12(yHβ^(θ,σ2))T[K(X,X|θ)+σ2In]1(yHβ^(θ,σ2))n2log2π12log|K(X,X|θ)+σ2In|

Программное обеспечение затем максимизирует β- профилируемая логарифмическая правдоподобность θ, и σ2 найти их оценки.

Предсказание

Создание вероятностных предсказаний из модели GPR известными параметрами требует плотности P(ynew|y,X,xnew). Используя определение условных вероятностей, можно записать:

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew).

Чтобы найти объединенную плотность в числителе, необходимо ввести скрытые переменные fnew и f соответствие ynew, и y, соответственно. Затем возможно использовать совместное распределение для ynew, y, fnew, и f вычислить P(ynew,y|X,xnew):

P(ynew,y|X,xnew)=P(ynew,y,fnew,f|X,xnew)dfdfnew=P(ynew,y|fnew,f,X,xnew)P(fnew,f|X,xnew)dfdfnew.

Гауссовы модели процессов принимают что каждый ответ yi только зависит от соответствующей скрытой переменной fi и характеристический вектор xi. Запись P(ynew,y|fnew,f,X,xnew) когда продукт условной плотности и на основе этого предположения производит:

P(ynew,y|fnew,f,X,xnew)=P(ynew|fnew,xnew)i=1nP(yi|f(xi),xi).

После интеграции относительно ynew, результат только зависит от f и X:

P(y|f,X)=i=1nP(yi|fi,xi)=i=1nN(yi|h(xi)Tβ+fi,σ2).

Следовательно,

P(ynew, y|fnew, f, X, xnew)=P(ynew|fnew, xnew)P(y|f,X).

Снова с помощью определения условных вероятностей,

P(fnew,f|X,xnew)=P(fnew|f,X,xnew)*P(f|X,xnew),

возможно записать P(ynew,y|X,xnew) можно следующим образом:

P(ynew,y|X,xnew)=P(ynew|fnew, xnew)P(y|f,X)P(fnew|f,X,xnew)P(f|X,xnew)dfdfnew.

Используя факты это

P(f|X,xnew)=P(f|X)

и

P(y|f,X)P(f|X)=P(y,f|X)=P(f|y,X)P(y|X),

можно переписать P(ynew,y|X,xnew) можно следующим образом:

P(ynew,y|X,xnew)=P(y|X)P(ynew|fnew, xnew)P(f|y,X)P(fnew|f,X,xnew)dfdfnew.

Также возможно показать это

P(y|X,xnew)=P(y|X).

Следовательно, необходимая плотность P(ynew|y,X,xnew) :

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew)=P(ynew,y|X,xnew)P(y|X)=P(ynew|fnew, xnew)(1)P(f|y,X)(2)P(fnew|f,X,xnew)(3)dfdfnew.

Этому можно показать это

(1)P(ynew|fnew,xnew)=N(ynew|h(xnew)Tβ+fnew,σnew2)

(2)P(f|y,X)=N(f|1σ2(Inσ2+K(X,X)1)1(yHβ),(Inσ2+K(X,X)1)1)

(3)P(fnew|f,X,xnew)=N(fnew|K(xnewT,X)K(X,X)1f,Δ),гдеΔ=k(xnew,xnew)K(xnewT,X) K(X,X)1K(X,xnewT).

После интегрирования и требуемой алгебры, плотности нового ответа ynew в новой точке xnew, данный y, X найден как

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μ,σnew2+Σ),

где

μ=K(xnewT,X)(K(X,X)+σ2In)1(yHβ)α

и

Σ=k(xnew,xnew)K(xnewT,X)(K(X,X)+σ2In)1K(X,xnewT).

Ожидаемое значение предсказания ynew в новой точке xnew данный y, X, и параметры β, θ, и σ2

E(ynew|y, X,xnew,β,θ,σ2)= h(xnew)Tβ+ K(xnewT,X|θ)α= h(xnew)Tβ+i=1nαik(xnew,xi|θ),

где

α=(K(X,X|θ)+σ2In)1(yHβ).

Вычислительная сложность точной оценки параметра и предсказания

Обучение модель GPR с точным методом (когда FitMethod 'Exact') требует инверсии n-by-n матрица ядра K(X,X). Требования к памяти для этого масштабные шкалы как O (n ^2) с тех пор K(X,X) должен храниться в памяти. Одна оценка logP(y|X) шкалы как O (n ^3). Поэтому вычислительная сложность является O (k *n^3), где k является количеством вычислений функции, необходимых для максимизации, и n является количеством наблюдений.

Создание предсказаний на новых данных включает расчет α^. Если интервалы предсказания желаемы, этот шаг мог бы также включить расчет и устройство хранения данных Фактора Холесского (K(X,X)+σ2In) для дальнейшего использования. Вычислительная сложность этого шага с помощью прямого расчета α^ O (n ^3), и требования к памяти являются O (n ^2).

Следовательно, для большого n, оценка параметров или вычислительных предсказаний может быть очень дорогой. Методы приближения обычно включают реорганизацию расчета, чтобы избежать инверсии n-by-n матрица. Для доступных методов приближения смотрите ссылки по теме внизу страницы.

Ссылки

[1] Расмуссен, C. E. и К. К. Ай. Уильямс. Гауссовы процессы для машинного обучения. Нажатие MIT. Кембридж, Массачусетс, 2006.

Смотрите также

|

Похожие темы