Точный метод GPR

Образец y отклика из модели регрессии Гауссова процесса (GPR) может быть смоделирован как

$P (y_{i} | f (x_{i}), x_{i}) ~ N (y_{i} | h {(x_{i})}^{T} β + f (x_{i}), σ^{2})$

Следовательно, для предсказаний новых данных из модели GPR требуется:

Знание вектора коэффициентов, $β$ , функций фиксированного базиса
Способность оценивать ковариационную функцию $k (x, x^{'} | θ)$ для произвольных $x$ и $x^{'}$ , учитывая параметры ядра или гиперпараметры, $θ$ .
Знание отклонения шума $σ^{2}$ который появляется в плотности $P (y_{i} | f (x_{i}), x_{i})$

То есть сначала нужно оценить $β$ , $θ$ , и $σ^{2}$ из данных $(X, y)$ .

Оценка параметра

Один из подходов к оценке параметров $β$ , $θ$ , и $σ^{2}$ модели GPR является путем максимизации вероятности $P (y | X)$ как функцию $β$ , $θ$ , и $σ^{2}$ [1]. То есть, если $\hat{β}$ , $\hat{θ}$ , и ${\hat{σ}}^{2}$ являются оценками $β$ , $θ$ , и $σ^{2}$ , соответственно, затем:

$\hat{β}, \hat{θ}, {\hat{σ}}^{2} = \underset{β, θ, σ^{2}}{arg max} \log P (y | X, β, θ, σ^{2}) .$

Поскольку

$P (y | X) = P (y | X, β, θ, σ^{2}) = N (y | H β, K (X, X | θ) + σ^{2} I_{n}),$

предельная функция журнала правдоподобия следующая:

$\begin{array}{l} \log P (y | X, β, θ, σ^{2}) = & - \frac{1}{2} {(y - H β)}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H β) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | . \end{array}$

где $H$ является вектором явных базисных функций, и $K (X, X | θ)$ - ковариация функций (для получения дополнительной информации см. «Регрессионые модели Гауссова процесса»).

Чтобы оценить параметры, программное обеспечение сначала вычисляет $\hat{β} (θ, σ^{2})$ , который максимизирует журнал функцию правдоподобия относительно $β$ для данного $θ$ и $σ^{2}$ . Затем он использует эту оценку, чтобы вычислить $β$ -профилированная вероятность:

$\log {P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2})} .$

Смета $β$ для данного $θ$ , и $σ^{2}$ является

$\hat{β} (θ, σ^{2}) = {[H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} H]}^{- 1} H^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} y .$

Затем, $β$ -профинированная вероятность журнала определяется

$\begin{array}{l} \log P (y | X, \hat{β} (θ, σ^{2}), θ, σ^{2}) = & - \frac{1}{2} {(y - H \hat{β} (θ, σ^{2}))}^{T} {[K (X, X | θ) + σ^{2} I_{n}]}^{- 1} (y - H \hat{β} (θ, σ^{2})) \\ - \frac{n}{2} \log 2 π - \frac{1}{2} \log | K (X, X | θ) + σ^{2} I_{n} | \end{array}$

Затем программное обеспечение максимизирует $β$ -профилед логарифмической правдоподобности над $θ$ , и $σ^{2}$ чтобы найти их оценки.

Предсказание

Для выполнения вероятностных предсказаний из модели GPR с известными параметрами требуется плотность $P (y_{n e w} | y, X, x_{n e w})$ . Используя определение условных вероятностей, можно записать:

$P (y_{n e w} | y, X, x_{n e w}) = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} .$

Чтобы найти плотность соединений в числителе, необходимо ввести латентные переменные $f_{n e w}$ и $f$ соответствующий $y_{n e w}$ , и $y$ , соответственно. Тогда можно использовать распределение соединений для $y_{n e w}$ , $y$ , $f_{n e w}$ , и $f$ вычислить $P (y_{n e w}, y | X, x_{n e w})$ :

$\begin{array}{l} \begin{array}{l} P (y_{n e w}, y | X, x_{n e w}) & = \int \int P (y_{n e w}, y, f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} \\ = \int \int P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) P (f_{n e w}, f | X, x_{n e w}) d f d f_{n e w} . \end{array} \end{array}$

Гауссовы модели процесса предполагают, что каждый ответ $y_{i}$ зависит только от соответствующей скрытой переменной $f_{i}$ и вектор функции $x_{i}$ . Написание $P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w})$ как продукт условных плотностей и на основе этого предположения дает:

$\begin{array}{l} P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) \prod_{i = 1}^{n} P (y_{i} | f (x_{i}), x_{i}) \end{array} .$

После интегрирования относительно $y_{n e w}$ , результат зависит только от $f$ и $X$ :

$\begin{array}{l} P (y | f, X) = \prod_{i = 1}^{n} P (y_{i} | f_{i}, x_{i}) = \prod_{i = 1}^{n} N (y_{i} {| h (x_{i})}^{T} β + f_{i}, σ^{2}) \end{array} .$

Следовательно,

$P (y_{n e w}, y | f_{n e w}, f, X, x_{n e w}) = P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) .$

Снова используя определение условных вероятностей,

$P (f_{n e w}, f | X, x_{n e w}) = P (f_{n e w} | f, X, x_{n e w}) * P (f | X, x_{n e w}),$

есть возможность написать $P (y_{n e w}, y | X, x_{n e w})$ следующим образом:

$P (y_{n e w}, y | X, x_{n e w}) = \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (y | f, X) P (f_{n e w} | f, X, x_{n e w}) P (f | X, x_{n e w}) d f d f_{n e w} .$

Используя факты, которые

$P (f | X, x_{n e w}) = P (f | X)$

$P (y | f, X) P (f | X) = P (y, f | X) = P (f | y, X) P (y | X),$

можно переписать $P (y_{n e w}, y | X, x_{n e w})$ следующим образом:

$P (y_{n e w}, y | X, x_{n e w}) = P (y | X) \int \int P (y_{n e w} | f_{n e w}, x_{n e w}) P (f | y, X) P (f_{n e w} | f, X, x_{n e w}) d f d f_{n e w} .$

Также возможно показать, что

$P (y | X, x_{n e w}) = P (y | X) .$

Следовательно, необходимая плотность $P (y_{n e w} | y, X, x_{n e w})$ является:

$\begin{array}{l} P (y_{n e w} | y, X, x_{n e w}) & = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X, x_{n e w})} = \frac{P (y_{n e w}, y | X, x_{n e w})}{P (y | X)} \\ = \int \int \underset{(1)}{\underset{︸}{P (y_{n e w} | f_{n e w}, x_{n e w})}} \underset{(2)}{\underset{︸}{P (f | y, X)}} \underset{(3)}{\underset{︸}{P (f_{n e w} | f, X, x_{n e w})}} d f d f_{n e w} . \end{array}$

Можно показать, что

$(1) P (y_{n e w} | f_{n e w}, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + f_{n e w}, σ_{n e w}^{2})$

$(2) P (f | y, X) = N (f | \frac{1}{σ^{2}} {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1} (y - H β), {(\frac{I_{n}}{σ^{2}} + K {(X, X)}^{- 1})}^{- 1})$

$\begin{array}{l} (3) \begin{array}{l} P (f_{n e w} | f, X, x_{n e w}) = N (f_{n e w} | K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} f, Δ) \end{array}, \\ где Δ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) K {(X, X)}^{- 1} K (X, x_{n e w}^{T}) . \end{array}$

После интегрирования и необходимой алгебры, плотность нового отклика $y_{n e w}$ в новой точке $x_{n e w}$ , заданный $y$ , $X$ найдено как

$P (y_{n e w} | y, X, x_{n e w}) = N (y_{n e w} | h {(x_{n e w})}^{T} β + μ, σ_{n e w}^{2} + Σ),$

где

$μ = K (x_{n e w}^{T}, X) \underset{α}{\underset{︸}{{(K (X, X) + σ^{2} I_{n})}^{- 1} (y - H β)}}$

$Σ = k (x_{n e w}, x_{n e w}) - K (x_{n e w}^{T}, X) {(K (X, X) + σ^{2} I_{n})}^{- 1} K (X, x_{n e w}^{T}) .$

Ожидаемое значение предсказания $y_{n e w}$ в новой точке $x_{n e w}$ данный $y$ , $X$ , и параметры $β$ , $θ$ , и $σ^{2}$ является

$\begin{array}{l} E (y_{n e w} | y, X, x_{n e w}, β, θ, σ^{2}) & = h {(x_{n e w})}^{T} β + K (x_{n e w}^{T}, X | θ) α \\ = h {(x_{n e w})}^{T} β + \sum_{i = 1}^{n} α_{i} k (x_{n e w}, x_{i} | θ), \end{array}$

где

$α = {(K (X, X | θ) + σ^{2} I_{n})}^{- 1} (y - H β) .$

Вычислительная сложность точной оценки и предсказания параметра

Настройка модели GPR с помощью точного метода (когда FitMethod является 'Exact') требует инверсии n -by n матрицы ядра $K (X, X)$ . Требование к памяти для этого шага масштабируется как O (n²) с $K (X, X)$ должна храниться в памяти. Одна оценка $\log P (y | X)$ масштабируется как O (n³). Поэтому вычислительная сложность является O (k n³), где k количество вычислений функции, необходимых для максимизации, и n количество наблюдений.

Создание предсказаний по новым данным включает в себя расчет $\hat{α}$ . Если желательны интервалы предсказания, этот шаг может также включать расчет и хранение фактора Холецкого $(K (X, X) + σ^{2} I_{n})$ для дальнейшего использования. Вычислительная сложность этого шага с помощью прямого расчета $\hat{α}$ есть O (n³) и требованием памяти является O (n²).

Следовательно, для больших n оценка параметров или вычислительные предсказания могут быть очень дорогими. Методы приближения обычно включают реорганизацию расчета так, чтобы избежать инверсии матрицы n -by n. Для получения информации о доступных методах приближения см. соответствующие ссылки в нижней части страницы.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы для машинного обучения. MIT Press. Кембридж, Массачусетс, 2006.

См. также

fitrgp | predict

Statistics and Machine Learning Toolbox документация

Поддержка

Сообщество Экспонента

Документация