exponenta event banner

Точный метод GPR

Экземпляр ответа y из модели регрессии гауссова процесса (GPR) может быть смоделирован как

P (yi 'f (xi),  xi) ~ N (yi' h (xi) + f (xi), start2)

Следовательно, составление прогнозов для новых данных из модели GPR требует:

  • Знание вектора коэффициентов, β, фиксированных базисных функций

  • Способность оценивать ковариационную функцию k (x,x′|θ) для произвольных x и x ′, учитывая параметры ядра или гиперпараметры,

  • Знание дисперсии шума, которая появляется в плотности P (yi 'f (xi), xi)

То есть, сначала нужно оценить β, startи start2 по данным (X, y).

Оценка параметров

Один из подходов для оценки параметров β, start, и start2 модели GPR заключается в максимизации вероятности P (y 'X) как функции β, start, и start2 [1]. То есть, если β ^, start^, и λ ^ 2 являются оценками β, start, и start2 соответственно, то:

 β^,θ^,σ^2=arg maxβ,θ,σ2logP (y'X, β,σ2).

Поскольку

P (y 'X) = P (y' X, β,

функция предельного логарифмического правдоподобия выглядит следующим образом:

logP (y 'X, β, start2) = 12 (y ) T [K (X, X'

где H - вектор явных базисных функций, а K (X, X 'start) - матрица ковариационных функций (для получения дополнительной информации см. Модели регрессии гауссова процесса).

Для оценки параметров программное обеспечение сначала вычисляет β ^ (start, start2), что максимизирует логарифмическую функцию правдоподобия по отношению к β для заданных Затем он использует эту оценку для вычисления вероятности β-профилирования:

log {P (y 'X, β ^ (

Оценка β для данного

β ^ (start, start2 ) = [HT [K (X, X 'start)  + 

Затем β-профилированное логарифмическое правдоподобие задается

logP (y'X, β^ (θ,σ2), θ,σ2) = −12 (y−Hβ^ (θ,σ2)) T [K (X, X ) + σ2In] −1 (y−Hβ^ ,σ2)) −n2log2π−12log'K (X, X 'θ) + σ2In |

Затем программное обеспечение максимизирует β-профилированное логарифмическое правдоподобие над

Прогноз

Выполнение вероятностных прогнозов из модели GPR с известными параметрами требует плотности P (ynew 'y, X, xnew). Используя определение условных вероятностей, можно записать:

P (ynew 'y, X, xnew) = P (ynew, y' X, xnew) P (y 'X, xnew).

Чтобы найти плотность соединения в числителе, необходимо ввести скрытые переменные fnew и f, соответствующие ynew и y соответственно. Затем можно использовать совместное распределение для ynew, y, fnew и f для вычисления P (ynew, y 'X, xnew):

P (ynew, y 'X, xnew) =∫∫P (ynew, y, fnew, f' X, xnew) dfdfnew=∫∫P (ynew, y 'fnew, f, X, xnew) P (fnew, f' X, xnew) dfdfnew.

Модели гауссовых процессов предполагают, что каждый отклик yi зависит только от соответствующей скрытой переменной fi и вектора признаков xi. Запись P (ynew, y 'fnew, f, X, xnew) как произведение условных плотностей и на основе этого предположения производит:

P (ynew, y 'fnew, f, X, xnew) = P (ynew' fnew, xnew) ∏i=1nP (yi 'f (xi), xi).

После интегрирования относительно ynew результат зависит только от f и X:

P (y 'f, X) =∏i=1nP (yi' fi, xi) =∏i=1nN (yi 'h (xi) Tβ + fi, start2).

Следовательно,

P (ynew , y 'fnew , f , X , xnew) = P ( ynew' fnew, xnew) P (y 'f, X).

Снова используя определение условных вероятностей,

P (fnew, f 'X, xnew) = P (fnew' f, X, xnew) * P (f 'X, xnew),

можно записать P (ynew, y 'X, xnew) следующим образом:

P (ynew, y 'X, xnew) =∫∫P ( ynew' fnew, xnew) P (y 'f, X) P (fnew' f, X, xnew) P (f 'X, xnew) dfdfnew.

Используя факты, которые

P (f 'X, xnew) = P (f' X)

и

P (y 'f, X) P (f' X) = P (y, f 'X) = P (f' y, X) P (y 'X),

можно переписать P (ynew, y 'X, xnew) следующим образом:

P (ynew, y 'X, xnew) = P (y' X) ∫∫P ( ynew 'fnew, xnew) P (f' y, X) P (fnew 'f, X, xnew) dfdfnew.

Также можно показать, что

P (y 'X, xnew) = P (y' X).

Следовательно, требуемая плотность P (ynew 'y, X, xnew) равна:

P (ynew'y, X, xnew) =P (ynew, y'X, xnew) P (y'X, xnew) =P (ynew, y'X, xnew) P (y'X) = ∫∫ P  (ynew'fnew, xnew) (1) P (f'y, X) (2) P (fnew'f, X, xnew) ︸ (3) dfdfnew.

Можно показать, что

(1) P (ynew 'fnew, xnew) = N (ynew' h (xnew) + fnew,

(2) P (f'y, X) =N (f|1σ2 (Inσ2+K (X, X) −1) −1 (y−Hβ), (Inσ2+K (X, X) −1) −1)

(3) P (fnew 'f, X, xnew) = N (fnew' K (xnewT, X) K (X, X) − 1f, Δ), где Δ = k (xnew, xnew) K (xnewT, X) K (X, X) − 1K (X

После интегрирования и требуемой алгебры плотность нового ответа ynew в новой точке xnew, учитывая y, X, обнаруживается как

P (ynew 'y, X, xnew) = N (ynew' h (xnew) +

где

λ = K (xnewT, X) (K (X, X) + start2In) − 1 (y − Hβ) ︸ α

и

Λ = k (xnew, xnew) K (xnewT, X) (K (X, X) + start2In) − 1K (X, xnewT).

Ожидаемое значение предсказания ynew в новой точке xnew, заданной y, X и параметрами β,

E (ynew'y , X, xnew, β,σ2) = h (xnew) + K (xnewT, X ) α = h (xnew) + i=1nαik (xnew, xi 'θ),

где

α = (K (X, X 'start) + σ2In) 1 (y − Hβ).

Вычислительная сложность точной оценки и прогнозирования параметров

Обучение модели GPR точному методу (когда FitMethod является 'Exact') требует инверсии матрицы K (X, X) ядра n-на-n. Требования к памяти для этого шага масштабируются как O (n2), поскольку K (X, X) должны храниться в памяти. Одна оценка logP (y 'X) шкала как O (n3). Следовательно, вычислительная сложность равна O (kn3), где k - количество оценок функций, необходимых для максимизации, а n - количество наблюдений.

Составление прогнозов по новым данным включает в себя вычисление α ^. Если интервалы прогнозирования желательны, этот этап может также включать вычисление и сохранение коэффициента Холески (K (X, X) + σ2In) для последующего использования. Вычислительная сложность этого шага с использованием прямого вычисления α ^ равна O (n3), а потребность в памяти равна O (n2).

Следовательно, для больших n оценка параметров или вычислительные прогнозы могут быть очень дорогостоящими. Способы аппроксимации обычно включают в себя перегруппировку вычислений так, чтобы избежать инверсии матрицы n-на-n. Доступные методы аппроксимации см. в соответствующих ссылках в нижней части страницы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы машинного обучения. Пресс MIT. Кембридж, Массачусетс, 2006.

См. также

|

Связанные темы