Точный метод GPR

Экземпляр ответа y из модели Gaussian process regression (GPR) может быть смоделирован как

$P (y_{i} | f (x_{i}), x_{i}) ~ N (y_{i} | h {(x_{i})}^{T} β + f (x_{i}), σ^{2})$

Следовательно, создание предсказаний для новых данных из модели GPR требует:

Знание вектора коэффициентов, $β$ , из фиксированных основных функций
Способность выполнить функцию ковариации $k (x, x^{'} | θ)$ для произвольного $x$ и $x^{'}$ , учитывая параметры ядра или гиперпараметры, $θ$ .
Знание шумового отклонения $σ^{2}$ это появляется в плотности $P (y_{i} | f (x_{i}), x_{i})$

Таким образом, каждый должен сначала оценить $β$ , $θ$ , и $σ^{2}$ из данных $(X, y)$ .

Оценка параметра

Один подход для оценки параметров $β$ , $θ$ , и $σ^{2}$ из GPR модель путем максимизации вероятности $P (y | X)$ в зависимости от $β$ , $θ$ , и $σ^{2}$ [1]. Таким образом, если $\hat{β}$ , $\hat{θ}$ , и ${\hat{σ}}^{2}$ оценки $β$ , $θ$ , и $σ^{2}$ , соответственно, затем:

$\hat{β}, \hat{θ}, {\hat{σ}}^{2} = \underset{β, θ, σ^{2}}{аргумент макс.} \log P (y | X, β, θ, σ^{2}) .$

Поскольку

$P (y | X) = P (y | X, β, θ, σ^{2}) = N (y | H β, K (X, X | θ) + σ^{2} I_{n}),$

крайняя логарифмическая функция правдоподобия следующие:

$\begin{array}{l} \log P (y | X, β, θ, σ^{2}) = & - \frac{1}{2} {(y - H β)}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H β) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | . \end{array}$

где $H$ вектор из явных основных функций, и $K (X, X | θ)$ матрица функции ковариации (для получения дополнительной информации, см. Гауссовы Модели Регрессии Процесса).

Чтобы оценить параметры, программное обеспечение сначала вычисляет $\hat{β} (θ, σ^{2})$ , который максимизирует логарифмическую функцию правдоподобия относительно $β$ для данного $θ$ и $σ^{2}$ . Это затем использует эту оценку, чтобы вычислить $β$ - профилируемая вероятность:

$\log {P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2})} .$

Оценка $β$ для данного $θ$ , и $σ^{2}$

$\hat{β} (θ, σ^{2}) = {[H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} H]}^{- 1} H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} y .$

Затем $β$ - профилируемой логарифмической вероятностью дают

$\begin{array}{l} \log P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2}) = & - \frac{1}{2} {(y - H \hat{β} (θ, σ^{2}))}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H \hat{β} (θ, σ^{2})) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | \end{array}$

Программное обеспечение затем максимизирует $β$ - профилируемая логарифмическая правдоподобность $θ$ , и $σ^{2}$ найти их оценки.

Предсказание

Создание вероятностных предсказаний из модели GPR известными параметрами требует плотности $P (y_{n e w} | y, X, x_{n e w})$ . Используя определение условных вероятностей, можно записать:

$P (y_{n e w} | y, X, x_{n e w}) = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} .$

Чтобы найти объединенную плотность в числителе, необходимо ввести скрытые переменные $f_{n e w}$ и $f$ соответствие $y_{n e w}$ , и $y$ , соответственно. Затем возможно использовать совместное распределение для $y_{n e w}$ , $y$ , $f_{n e w}$ , и $f$ вычислить $P (y_{n e w}, y | X, x_{n e w})$ :

$\begin{array}{l} \begin{array}{l} P (y_{n e w}, y | X, x_{n e w}) & = \int \int P (y_{n e w}, y, f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} \\ = \int \int P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) P (f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} . \end{array} \end{array}$

Гауссовы модели процессов принимают что каждый ответ $y_{i}$ только зависит от соответствующей скрытой переменной $f_{i}$ и характеристический вектор $x_{i}$ . Запись $P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w})$ когда продукт условной плотности и на основе этого предположения производит:

$\begin{array}{l} P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) \prod_{i = 1}^{n} P (y_{i} | f (x_{i}), x_{i}) \end{array} .$

После интеграции относительно $y_{n e w}$ , результат только зависит от $f$ и $X$ :

$\begin{array}{l} P (y | f, X) = \prod_{i = 1}^{n} P (y_{i} | f_{i}, x_{i}) = \prod_{i = 1}^{n} N (y_{i} {| h (x_{i})}^{T} β + f_{i}, σ^{2}) \end{array} .$

Следовательно,

$P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) .$

Снова с помощью определения условных вероятностей,

$P (f_{n e w}, f | X, x_{n e w}) = P (f_{n e w} | f, X, x_{n e w}) * P (f | X, x_{n e w}),$

возможно записать $P (y_{n e w}, y | X, x_{n e w})$ можно следующим образом:

$P (y_{n e w}, y | X, x_{n e w}) = \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) P (f_{n e w} | f, X, x_{n e w}) P (f | X, x_{n e w}) d f d f_{n e w} .$

Используя факты это

$P (f | X, x_{n e w}) = P (f | X)$

$P (y | f, X) P (f | X) = P (y, f | X) = P (f | y, X) P (y | X),$

можно переписать $P (y_{n e w}, y | X, x_{n e w})$ можно следующим образом:

$P (y_{n e w}, y | X, x_{n e w}) = P (y | X) \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (f | y, X) P (f_{n e w} | f, X, x_{n e w}) d f d f_{n e w} .$

Также возможно показать это

$P (y | X, x_{n e w}) = P (y | X) .$

Следовательно, необходимая плотность $P (y_{n e w} | y, X, x_{n e w})$ :

$\begin{array}{l} P (y_{n e w} | y, X, x_{n e w}) & = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X)} \\ = \int \int \underset{(1)}{\underset{︸}{P (y_{n e w} | f_{n e w}, x_{n e w})}} \underset{(2)}{\underset{︸}{P (f | y, X)}} \underset{(3)}{\underset{︸}{P (f_{n e w} | f, X, x_{n e w})}} d f d f_{n e w} . \end{array}$

Этому можно показать это

$(1) P (y_{n e w} | f_{n e w}, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + f_{n e w}, σ_{n e w}^{2})$

$(2) P (f | y, X) = N (f | \frac{1}{σ^{2}} {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1} (y - H β), {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1})$

$\begin{array}{l} (3) \begin{array}{l} P (f_{n e w} | f, X, x_{n e w}) = N (f_{n e w} | K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} f, Δ) \end{array}, \\ где Δ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} K (X, x_{n e w}^{T}) . \end{array}$

После интегрирования и требуемой алгебры, плотности нового ответа $y_{n e w}$ в новой точке $x_{n e w}$ , данный $y$ , $X$ найден как

$P (y_{n e w} | y, X, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + μ, σ_{n e w}^{2} + Σ),$

где

$μ = K (x_{n e w}^{T}, X) \underset{α}{\underset{︸}{{(K (X, X) + σ^{2} I_{n})}^{- 1} (y - H β)}}$

$Σ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) {(K (X, X) + σ^{2} I_{n})}^{- 1} K (X, x_{n e w}^{T}) .$

Ожидаемое значение предсказания $y_{n e w}$ в новой точке $x_{n e w}$ данный $y$ , $X$ , и параметры $β$ , $θ$ , и $σ^{2}$

$\begin{array}{l} E (y_{n e w} | y, X, x_{n e w}, β, θ, σ^{2}) & = h {(x_{n e w})}^{T} β + K (x_{n e w}^{T}, X | θ) α \\ = h {(x_{n e w})}^{T} β + \sum_{i = 1}^{n} α_{i} k (x_{n e w}, x_{i} | θ), \end{array}$

где

$α = {(K (X, X | θ) + σ^{2} I_{n})}^{- 1} (y - H β) .$

Вычислительная сложность точной оценки параметра и предсказания

Обучение модель GPR с точным методом (когда FitMethod 'Exact') требует инверсии n-by-n матрица ядра $K (X, X)$ . Требования к памяти для этого масштабные шкалы как O (n²) с тех пор $K (X, X)$ должен храниться в памяти. Одна оценка $\log P (y | X)$ шкалы как O (n³). Поэтому вычислительная сложность является O (k n³), где k является количеством вычислений функции, необходимых для максимизации, и n является количеством наблюдений.

Создание предсказаний на новых данных включает расчет $\hat{α}$ . Если интервалы предсказания желаемы, этот шаг мог бы также включить расчет и устройство хранения данных Фактора Холецкого $(K (X, X) + σ^{2} I_{n})$ для дальнейшего использования. Вычислительная сложность этого шага с помощью прямого расчета $\hat{α}$ O (n³) и требования к памяти являются O (n²).

Следовательно, для большого n, оценка параметров или вычислительных предсказаний может быть очень дорогой. Методы приближения обычно включают реорганизацию расчета, чтобы избежать инверсии n-by-n матрица. Для доступных методов приближения смотрите ссылки по теме внизу страницы.

Ссылки

[1] Расмуссен, C. E. и К. К. Ай. Уильямс. Гауссовы процессы для машинного обучения. Нажатие MIT. Кембридж, Массачусетс, 2006.

Смотрите также

fitrgp | predict

Документация