loss

Потеря регрессии для Гауссовой модели регрессии ядра

Синтаксис

L = loss(Mdl,X,Y)

L = loss(Mdl,X,Y,Name,Value)

Описание

L = loss(Mdl,X,Y) возвращает среднеквадратическую ошибку (MSE) для Гауссовой модели Mdl регрессии ядра использование данных о предикторе в X и соответствующие ответы в Y.

пример

L = loss(Mdl,X,Y,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, можно задать функцию потерь регрессии и веса наблюдения. Затем loss возвращает взвешенную потерю регрессии с помощью заданной функции потерь.

Примеры

свернуть все

Вычислите демонстрационную потерю для гауссовой модели регрессии ядра

Скрипт Open Live Script

Обучите Гауссову модель регрессии ядра длинному массиву, затем вычислите среднеквадратическую ошибку перезамены и нечувствительную к эпсилону ошибку.

Когда вы выполняете вычисления на длинных массивах, MATLAB® использует любого параллельный пул (значение по умолчанию, если у вас есть Parallel Computing Toolbox™), или локальный сеанс работы с MATLAB. Если вы хотите запустить пример с помощью локального сеанса работы с MATLAB, когда у вас есть Parallel Computing Toolbox, можно изменить глобальную среду выполнения при помощи mapreducer функция.

Создайте datastore, который ссылается на местоположение папки с данными. Данные могут содержаться в одном файле, наборе файлов или целой папке. Обработайте 'NA' значения как недостающие данные так, чтобы datastore заменяет их на NaN значения. Выберите подмножество переменных, чтобы использовать. Составьте длинную таблицу сверху datastore.

varnames = {'ArrTime','DepTime','ActualElapsedTime'};
ds = datastore('airlinesmall.csv','TreatAsMissing','NA',...
    'SelectedVariableNames',varnames);
t = tall(ds);

Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 12).

Задайте DepTime и ArrTime как переменные предикторы (X) и ActualElapsedTime как переменная отклика (Y). Выберите наблюдения для который ArrTime позже, чем DepTime.

daytime = t.ArrTime>t.DepTime;
Y = t.ActualElapsedTime(daytime);     % Response data
X = t{daytime,{'DepTime' 'ArrTime'}}; % Predictor data

Стандартизируйте переменные предикторы.

Z = zscore(X); % Standardize the data

Обучите Гауссову модель регрессии ядра по умолчанию со стандартизированными предикторами. Установите 'Verbose',0 подавить диагностические сообщения.

[Mdl,FitInfo] = fitrkernel(Z,Y,'Verbose',0)

Mdl = 
  RegressionKernel
            PredictorNames: {'x1'  'x2'}
              ResponseName: 'Y'
                   Learner: 'svm'
    NumExpansionDimensions: 64
               KernelScale: 1
                    Lambda: 8.5385e-06
             BoxConstraint: 1
                   Epsilon: 5.9303


  Properties, Methods

FitInfo = struct with fields:
                  Solver: 'LBFGS-tall'
            LossFunction: 'epsiloninsensitive'
                  Lambda: 8.5385e-06
           BetaTolerance: 1.0000e-03
       GradientTolerance: 1.0000e-05
          ObjectiveValue: 30.7814
       GradientMagnitude: 0.0191
    RelativeChangeInBeta: 0.0228
                 FitTime: 107.7641
                 History: []

Mdl обученный RegressionKernel модель и массив структур FitInfo содержит детали оптимизации.

Определите, как хорошо обученная модель делает вывод к новым значениям предиктора путем оценки среднеквадратической ошибки перезамены и нечувствительной к эпсилону ошибки.

lossMSE = loss(Mdl,Z,Y) % Resubstitution mean squared error

lossMSE =

  MxNx... tall array

    ?    ?    ?    ...
    ?    ?    ?    ...
    ?    ?    ?    ...
    :    :    :
    :    :    :

lossEI = loss(Mdl,Z,Y,'LossFun','epsiloninsensitive') % Resubstitution epsilon-insensitive error

lossEI =

  MxNx... tall array

    ?    ?    ?    ...
    ?    ?    ?    ...
    ?    ?    ?    ...
    :    :    :
    :    :    :

Оцените длинные массивы и загрузите результаты в память при помощи gather.

[lossMSE,lossEI] = gather(lossMSE,lossEI)

Evaluating tall expression using the Parallel Pool 'local':
- Pass 1 of 1: Completed in 2.1 sec
Evaluation completed in 3.1 sec

lossMSE = 2.8851e+03

lossEI = 28.0050

Задайте пользовательскую потерю регрессии

Скрипт Open Live Script

Задайте пользовательскую потерю регрессии (утрата Хубера) для Гауссовой модели регрессии ядра.

Загрузите carbig набор данных.

load carbig

Задайте переменные предикторы (X) и переменная отклика (Y).

X = [Weight,Cylinders,Horsepower,Model_Year];
Y = MPG;

Удалите строки X и Y где любой массив имеет NaN значения. Удаление строк с NaN значения перед передающими данными к fitrkernel может ускорить обучение и уменьшать использование памяти.

R = rmmissing([X Y]); 
X = R(:,1:4); 
Y = R(:,end);

Зарезервируйте 10% наблюдений как выборка затяжки. Извлеките обучение и протестируйте индексы из определения раздела.

rng(10)  % For reproducibility
N = length(Y);
cvp = cvpartition(N,'Holdout',0.1);
idxTrn = training(cvp); % Training set indices
idxTest = test(cvp);    % Test set indices

Стандартизируйте обучающие данные и обучите модель ядра регрессии.

Xtrain = X(idxTrn,:);
Ytrain = Y(idxTrn);
[Ztrain,tr_mu,tr_sigma] = zscore(Xtrain); % Standardize the training data
tr_sigma(tr_sigma==0) = 1;
Mdl = fitrkernel(Ztrain,Ytrain)

Mdl = 
  RegressionKernel
              ResponseName: 'Y'
                   Learner: 'svm'
    NumExpansionDimensions: 128
               KernelScale: 1
                    Lambda: 0.0028
             BoxConstraint: 1
                   Epsilon: 0.8617


  Properties, Methods

Mdl RegressionKernel модель.

Создайте анонимную функцию, которая измеряет утрату Хубера $(δ = 1)$ , то есть,

$L = \frac{1}{\sum w_{j}} \sum_{j = 1}^{n} w_{j} ℓ_{j},$

где

$\begin{array}{l} ℓ_{j} = {\begin{array}{cccccccccccccccccccc} 0.5 {e_{j}}_{}^{ˆ}^{2}; \\ | {e_{j}}_{}^{ˆ} | - 0.5; \end{array} \begin{array}{cccccccccccccccccccc} | {e_{j}}_{}^{ˆ} | \leq 1 \\ | {e_{j}}_{}^{ˆ} | > 1 \end{array} . \end{array}$

${e_{j}}_{}^{ˆ}$ невязка для наблюдения j. Пользовательские функции потерь должны быть написаны в конкретной форме. Для правил о записи пользовательской функции потерь смотрите 'LossFun' аргумент пары "имя-значение".

huberloss = @(Y,Yhat,W)sum(W.*((0.5*(abs(Y-Yhat)<=1).*(Y-Yhat).^2) + ...
    ((abs(Y-Yhat)>1).*abs(Y-Yhat)-0.5)))/sum(W);

Оцените потерю регрессии набора обучающих данных с помощью функции потерь Хубера.

eTrain = loss(Mdl,Ztrain,Ytrain,'LossFun',huberloss)

eTrain = 1.7210

Стандартизируйте тестовые данные с помощью того же среднего и стандартного отклонения столбцов обучающих данных. Оцените потерю регрессии набора тестов с помощью функции потерь Хубера.

Xtest = X(idxTest,:);
Ztest = (Xtest-tr_mu)./tr_sigma; % Standardize the test data
Ytest = Y(idxTest);

eTest = loss(Mdl,Ztest,Ytest,'LossFun',huberloss)

eTest = 1.3062

Входные параметры

свернуть все

`Mdl` — Модель регрессии ядра
`RegressionKernel` объект модели

Модель регрессии ядра в виде RegressionKernel объект модели. Можно создать RegressionKernel объект модели с помощью fitrkernel.

`X` — Данные о предикторе
n-by-p числовая матрица

Данные о предикторе в виде n-by-p числовая матрица, где n является количеством наблюдений и p, являются количеством предикторов. p должен быть равен количеству предикторов, используемых, чтобы обучить Mdl.

Типы данных: single | double

`Y` — Данные об ответе
числовой вектор

Данные об ответе в виде n - размерный числовой вектор. Длина Y и количество наблюдений в X должно быть равным.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: L = loss(Mdl,X,Y,'LossFun','epsiloninsensitive','Weights',weights) возвращает взвешенную потерю регрессии с помощью нечувствительной к эпсилону функции потерь.

`'LossFun'` — Функция потерь
`'mse'` (значение по умолчанию) | `'epsiloninsensitive'` | указатель на функцию

Функция потерь в виде разделенной запятой пары, состоящей из 'LossFun' и встроенное имя функции потерь или указатель на функцию.

В следующей таблице перечислены доступные функции потерь. Задайте тот с помощью его соответствующего вектора символов или строкового скаляра. Кроме того, в таблице, $f (x) = T (x) β + b .$
- x является наблюдением (вектор-строка) от переменных предикторов p.
- $T (\cdot)$ преобразование наблюдения (вектор-строка) для расширения функции. T (x) сопоставляет x в $ℝ^{p}$ к высокому мерному пространству ( $ℝ^{m}$ ).
- β является вектором коэффициентов m.
- b является скалярным смещением.
Значение Описание
'epsiloninsensitive' Нечувствительная к эпсилону потеря: $ℓ [y, f (x)] = \max [0, | y - f (x) | - ε]$
'mse' MSE: $ℓ [y, f (x)] = {[y - f (x)]}^{2}$
'epsiloninsensitive' подходит для учеников SVM только.
Задайте свою собственную функцию при помощи обозначения указателя на функцию.
Позвольте n будьте количеством наблюдений в X. Ваша функция должна иметь эту подпись:
```
lossvalue = lossfun(Y,Yhat,W)
```
- Выходной аргумент lossvalue скаляр.
- Вы выбираете имя функции (lossfun).
- Y n - размерный вектор наблюдаемых ответов. loss передает входной параметр Y в для Y.
- Yhat n - размерный вектор предсказанных ответов, который похож на выход predict.
- W n- 1 числовой вектор весов наблюдения.
Задайте свое использование функции 'LossFun', @lossfun.

Значение	Описание
`'epsiloninsensitive'`	Нечувствительная к эпсилону потеря: $ℓ [y, f (x)] = \max [0, \| y - f (x) \| - ε]$
`'mse'`	MSE: $ℓ [y, f (x)] = {[y - f (x)]}^{2}$

Типы данных: char | string | function_handle

`'Weights'` — Веса наблюдения
`ones(n,1)/n` (значение по умолчанию) | числовой вектор положительных значений

Веса наблюдения в виде разделенной запятой пары, состоящей из 'Weights' и числовой вектор положительных значений. loss взвешивает наблюдения в X с соответствующими значениями в Weights. Размер Weights должен равняться n, количеству наблюдений (строки в X). Если вы предоставляете веса наблюдения, loss вычисляет взвешенную потерю регрессии, то есть, Квадратичную невязку Взвешенного среднего или Нечувствительную к эпсилону Функцию потерь.

loss нормирует Weights суммировать к 1.

Типы данных: double | single

Выходные аргументы

свернуть все

`L` — Потеря регрессии
числовой скаляр

Потеря регрессии, возвращенная в виде числа. Интерпретация L зависит от Weights и LossFun. Например, если вы используете веса наблюдения по умолчанию и задаете 'epsiloninsensitive' как функция потерь, затем L нечувствительная к эпсилону потеря.

Больше о

свернуть все

Квадратичная невязка взвешенного среднего

Квадратичная невязка взвешенного среднего вычисляется можно следующим образом:

$mse = \frac{\sum_{j = 1}^{n} w_{j} {(f (x_{j}) - y_{j})}^{2}}{\sum_{j = 1}^{n} w_{j}},$

где:

n является количеством наблюдений.
_xj является j th наблюдение (строка данных о предикторе).
_yj является наблюдаемым ответом на _xj.
f (_xj) является предсказанием ответа Гауссовой модели Mdl регрессии ядра к _xj.
w является вектором весов наблюдения.

Каждый вес наблюдения в w равен ones(n,1)/n по умолчанию. Можно задать различные значения для весов наблюдения при помощи 'Weights' аргумент пары "имя-значение". loss нормирует Weights суммировать к 1.

Нечувствительная к эпсилону функция потерь

Нечувствительная к эпсилону функция потерь игнорирует ошибки, которые являются в эпсилоне расстояния (ε) значения функции. Функция официально описана как:

$L o s s_{ε} = {\begin{matrix} 0, i f | y - f (x) | \leq ε \\ | y - f (x) | - ε, o t h e r w i s e . \end{matrix}$

Средняя нечувствительная к эпсилону потеря вычисляется можно следующим образом:

$L o s s = \frac{\sum_{j = 1}^{n} w_{j} \max (0, | y_{j} - f (x_{j}) | - ε)}{\sum_{j = 1}^{n} w_{j}},$

где:

n является количеством наблюдений.
_xj является j th наблюдение (строка данных о предикторе).
_yj является наблюдаемым ответом на _xj.
f (_xj) является предсказанием ответа Гауссовой модели Mdl регрессии ядра к _xj.
w является вектором весов наблюдения.

Расширенные возможности

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Эта функция полностью поддерживает "высокие" массивы. Можно использовать модели, обученные или на или на высоких данных в оперативной памяти с этой функцией.

Для получения дополнительной информации смотрите Длинные массивы (MATLAB).

Документация

loss

Синтаксис

Описание

Примеры

Вычислите демонстрационную потерю для гауссовой модели регрессии ядра

Задайте пользовательскую потерю регрессии

Входные параметры

`Mdl` — Модель регрессии ядра
`RegressionKernel` объект модели

`X` — Данные о предикторе
n-by-p числовая матрица

`Y` — Данные об ответе
числовой вектор

Аргументы в виде пар имя-значение

`'LossFun'` — Функция потерь
`'mse'` (значение по умолчанию) | `'epsiloninsensitive'` | указатель на функцию

`'Weights'` — Веса наблюдения
`ones(n,1)/n` (значение по умолчанию) | числовой вектор положительных значений

Выходные аргументы

`L` — Потеря регрессии
числовой скаляр

Больше о

Квадратичная невязка взвешенного среднего

Нечувствительная к эпсилону функция потерь

Расширенные возможности

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Смотрите также

Введенный в R2018a

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

loss

Синтаксис

Описание

Примеры

Вычислите демонстрационную потерю для гауссовой модели регрессии ядра

Задайте пользовательскую потерю регрессии

Входные параметры

Mdl — Модель регрессии ядра RegressionKernel объект модели

X — Данные о предикторе n-by-p числовая матрица

Y — Данные об ответе числовой вектор

Аргументы в виде пар имя-значение

'LossFun' — Функция потерь 'mse' (значение по умолчанию) | 'epsiloninsensitive' | указатель на функцию

'Weights' — Веса наблюдения ones(n,1)/n (значение по умолчанию) | числовой вектор положительных значений

Выходные аргументы

L — Потеря регрессии числовой скаляр

Больше о

Квадратичная невязка взвешенного среднего

Нечувствительная к эпсилону функция потерь

Расширенные возможности

"Высокие" массивы Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Смотрите также

Введенный в R2018a

Документация Statistics and Machine Learning Toolbox

Поддержка

`Mdl` — Модель регрессии ядра
`RegressionKernel` объект модели

`X` — Данные о предикторе
n-by-p числовая матрица

`Y` — Данные об ответе
числовой вектор

`'LossFun'` — Функция потерь
`'mse'` (значение по умолчанию) | `'epsiloninsensitive'` | указатель на функцию

`'Weights'` — Веса наблюдения
`ones(n,1)/n` (значение по умолчанию) | числовой вектор положительных значений

`L` — Потеря регрессии
числовой скаляр

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.