Модели регрессии Гауссова процесса

Модели регрессии Гауссова процесса (GPR) являются непараметрическими основанными на ядре вероятностными моделями. Можно обучить модель GPR, используя fitrgp функция.

Рассмотрим набор обучающих данных ${(x_{i}, y_{i}); i = 1, 2, ..., n}$ , где $x_{i} \in ℝ^{d}$ и $y_{i} \in ℝ$ , полученный из неизвестного распределения. Модель GPR решает вопрос предсказания значения переменной отклика $y_{n e w}$ , учитывая новый входной вектор $x_{n e w}$ , и обучающих данных. Линейная регрессионая модель имеет вид

$y = x^{T} β + ε,$

где $ε \sim N (0, σ^{2})$ . Ошибка отклонения σ² и коэффициенты, β оцениваются из данных. Модель GPR объясняет ответ введением скрытых переменных, $f (x_{i}), i = 1, 2, ..., n$ , из Гауссова процесса (GP) и явных базисных функций, h. Ковариационная функция латентных переменных захватывает плавность отклика и базисные функции проецируют входы $x$ в p -мерное пространство функций.

GP является множеством случайных переменных, таких что любое конечное число из них имеет совместное Гауссово распределение. Если ${f (x), x \in ℝ^{d}}$ является GP, затем задается n наблюдения $x_{1}, x_{2}, ..., x_{n}$ , совместное распределение случайных переменных $f (x_{1}), f (x_{2}), ..., f (x_{n})$ Гауссов. GP определяется своей средней функцией $m (x)$ и ковариационную функцию, $k (x, x^{'})$ . То есть, если ${f (x), x \in ℝ^{d}}$ является Гауссовым процессом, тогда $E (f (x)) = m (x)$ и $C o v [f (x), f (x^{'})] = E [{f (x) - m (x)} {f (x^{'}) - m (x^{'})}] = k (x, x^{'}) .$

Теперь рассмотрим следующую модель.

$h {(x)}^{T} β + f (x),$

где $f (x) ~ G P (0, k (x, x^{'}))$ , то есть f (x) от нуля среднего GP с ковариацией функцией, $k (x, x^{'})$ . h (x) являются набором базисных функций, которые преобразуют исходный вектор признака, x в R^d в вектор новой возможности h (x) в R^p. β является вектором p -by-1 коэффициентов базиса функций. Эта модель представляет модель GPR. Образец y отклика может быть смоделирован как

$P (y_{i} | f (x_{i}), x_{i}) ~ N (y_{i} | h {(x_{i})}^{T} β + f (x_{i}), σ^{2})$

Следовательно, модель GPR является вероятностной моделью. Для каждого наблюдения введена латентная переменная f (_xi) $x_{i}$ , что делает модель GPR непараметрической. В векторной форме эта модель эквивалентна

$P (y | f, X) ~ N (y | H β + f, σ^{2} I),$

где

$X = (\begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ ⋮ \\ x_{n}^{T} \end{matrix}), y = (\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}), H = (\begin{matrix} h (x_{1}^{T}) \\ h (x_{2}^{T}) \\ ⋮ \\ h (x_{n}^{T}) \end{matrix}), f = (\begin{matrix} f (x_{1}) \\ f (x_{2}) \\ ⋮ \\ f (x_{n}) \end{matrix}) .$

Совместное распределение латентных переменных $f (x_{1}), f (x_{2}), ..., f (x_{n})$ в модели GPR представлено следующее:

$P (f | X) ~ N (f | 0, K (X, X)),$

близко к линейной регрессионной модели, где $K (X, X)$ выглядит следующим образом:

$K (X, X) = (\begin{matrix} k (x_{1}, x_{1}) & k (x_{1}, x_{2}) & \dots & k (x_{1}, x_{n}) \\ k (x_{2}, x_{1}) & k (x_{2}, x_{2}) & \dots & k (x_{2}, x_{n}) \\ ⋮ & ⋮ & ⋮ & ⋮ \\ k (x_{n}, x_{1}) & k (x_{n}, x_{2}) & \dots & k (x_{n}, x_{n}) \end{matrix}) .$

Ковариационная функция $k (x, x^{'})$ обычно параметризируется набором параметров ядра или гиперпараметров, $θ$ . Часто $k (x, x^{'})$ записывается как $k (x, x^{'} | θ)$ для явного указания зависимости от $θ$ .

fitrgp оценивает коэффициенты базиса функций, $β$ , отклонение шума, $σ^{2}$ и гиперпараметры, $θ$ , функции ядра из данных во время настройки модели GPR. Можно задать базисную функцию, ядерную (ковариационную) функцию и начальные значения для параметров.

Поскольку модель GPR является вероятностной, можно вычислить интервалы предсказания с помощью обученной модели (см predict и resubPredict).

Можно также вычислить ошибку регрессии, используя обученную модель GPR (см loss и resubLoss).

Сравнение интервалов предсказания моделей GPR

Попробовать в MATLAB

Этот пример подходит для моделей GPR с набором данных без шума и набором зашумленных данных. Пример сравнивает предсказанные отклики и интервалы предсказания двух подобранных моделей GPR.

Сгенерируйте два набора данных о наблюдении из функции $g (x) = x \cdot \sin (x)$ .

rng('default') % For reproducibility
x_observed = linspace(0,10,21)';
y_observed1 = x_observed.*sin(x_observed);
y_observed2 = y_observed1 + 0.5*randn(size(x_observed));

Значения в y_observed1 не содержат шума и значений в y_observed2 включите некоторый случайный шум.

Подгонка моделей GPR к наблюдаемым наборам данных.

gprMdl1 = fitrgp(x_observed,y_observed1);
gprMdl2 = fitrgp(x_observed,y_observed2);

Вычислите предсказанные отклики и 95% интервалов предсказания с помощью подобранных моделей.

x = linspace(0,10)';
[ypred1,~,yint1] = predict(gprMdl1,x);
[ypred2,~,yint2] = predict(gprMdl2,x);

Измените размер рисунка, чтобы отобразить два графика на одном рисунке.

fig = figure;
fig.Position(3) = fig.Position(3)*2;

Создайте мозаичный график размещения 1 на 2.

tiledlayout(1,2,'TileSpacing','compact')

Для каждой плитки нарисуйте график поля точек наблюдаемых точек данных и графика функций из $x \cdot \sin (x)$ . Затем добавьте график предсказанных GP ответов и закрашенную фигуру интервалов предсказания.

nexttile
hold on
scatter(x_observed,y_observed1,'r') % Observed data points
fplot(@(x) x.*sin(x),[0,10],'--r')  % Function plot of x*sin(x)
plot(x,ypred1,'g')                  % GPR predictions
patch([x;flipud(x)],[yint1(:,1);flipud(yint1(:,2))],'k','FaceAlpha',0.1); % Prediction intervals
hold off
title('GPR Fit of Noise-Free Observations')
legend({'Noise-free observations','g(x) = x*sin(x)','GPR predictions','95% prediction intervals'},'Location','best')

nexttile
hold on
scatter(x_observed,y_observed2,'xr') % Observed data points
fplot(@(x) x.*sin(x),[0,10],'--r')   % Function plot of x*sin(x)
plot(x,ypred2,'g')                   % GPR predictions
patch([x;flipud(x)],[yint2(:,1);flipud(yint2(:,2))],'k','FaceAlpha',0.1); % Prediction intervals
hold off
title('GPR Fit of Noisy Observations')
legend({'Noisy observations','g(x) = x*sin(x)','GPR predictions','95% prediction intervals'},'Location','best')

Когда наблюдения свободны от шума, предсказанные отклики GPR подгонки пересекать наблюдения. Стандартное отклонение предсказанной характеристики почти равняется нулю. Поэтому интервалы предсказания очень узки. Когда наблюдения включают шум, предсказанные отклики не пересекают наблюдения, и интервалы предсказания становятся широкими.

Ссылки

[1] Расмуссен, К. Э. и К. К. И. Уильямс. Гауссовы процессы для машинного обучения. MIT Press. Кембридж, Массачусетс, 2006.

См. также

fitrgp | predict | RegressionGP

Statistics and Machine Learning Toolbox документация

Поддержка

Сообщество Экспонента

Документация