потеря

Классификационные потери для обобщенной аддитивной модели (GAM)

Синтаксис

L = потеря (Mdl, Tbl, ResponseVarName)

L = потери (Mdl, Tbl, Y)

L = потери (Mdl, X, Y)

L = потеря (___, имя, значение)

Описание

L = loss(Mdl,Tbl,ResponseVarName) возвращает потери классификации (L), скаляр, представляющий, насколько хорошо обобщенная аддитивная модель Mdl классифицирует данные предиктора в Tbl по сравнению с метками истинного класса в Tbl.ResponseVarName.

Толкование L зависит от функции потери ('LossFun') и схему взвешивания ('Weights'). В целом, лучшие классификаторы дают меньшие значения потерь классификации. Дефолт 'LossFun' значение равно 'classiferror' (коэффициент неправильной классификации в десятичной).

L = loss(Mdl,Tbl,Y) использует данные предиктора в таблице Tbl и метки истинного класса в Y.

пример

L = loss(Mdl,X,Y) использует данные предиктора в матрице X и метки истинного класса в Y.

пример

L = loss(___,Name,Value) указывает параметры, использующие один или несколько аргументов «имя-значение» в дополнение к любой из комбинаций входных аргументов в предыдущих синтаксисах. Например, 'LossFun','mincost' устанавливает функцию потерь в минимально ожидаемую функцию затрат на неправильную классификацию.

Примеры

свернуть все

Определение потерь при классификации тестовых проб

Открыть сценарий в реальном времени

Определение ошибки (потери) классификации тестового образца обобщенной аддитивной модели. При сравнении одного и того же типа потерь между многими моделями меньшие потери указывают на лучшую прогностическую модель.

Загрузить ionosphere набор данных. Этот набор данных имеет 34 предиктора и 351 двоичный отклик для радарных возвращений, либо плохой ('b') или хорошо ('g').

load ionosphere

Случайное разделение наблюдений на обучающий набор и тестовый набор со стратификацией с использованием информации о классе в Y. Укажите 30% образец хранения для тестирования.

rng('default') % For reproducibility
cv = cvpartition(Y,'HoldOut',0.30);

Извлеките показатели обучения и тестирования.

trainInds = training(cv);
testInds = test(cv);

Укажите наборы данных обучения и тестирования.

XTrain = X(trainInds,:);
YTrain = Y(trainInds);
XTest = X(testInds,:);
YTest = Y(testInds);

Обучение GAM с использованием предикторов XTrain и метки классов YTrain. Рекомендуется указывать имена классов.

Mdl = fitcgam(XTrain,YTrain,'ClassNames',{'b','g'});

Mdl является ClassificationGAM объект модели.

Определите, насколько хорошо алгоритм обобщается, оценив ошибку классификации тестового образца. По умолчанию loss функция ClassificationGAM оценивает ошибку классификации с помощью 'classiferror' потери (коэффициент неправильной классификации в десятичном выражении).

L = loss(Mdl,XTest,YTest)

L = 0.1052

Обученный классификатор неправильно классифицирует приблизительно 11% тестового образца.

Сравнение GAM с помощью анализа потерь классификации

Открыть сценарий в реальном времени

Обучить обобщенную аддитивную модель (GAM), которая содержит как линейные, так и условия взаимодействия для предикторов, и оценить потерю классификации с и без условий взаимодействия. Укажите, следует ли включать условия взаимодействия при оценке потери классификации для данных обучения и тестирования.

load ionosphere

Разбейте набор данных на два набора: один содержит обучающие данные, а другой - новые ненаблюдаемые тестовые данные. Зарезервировать 50 наблюдений для нового набора тестовых данных.

rng('default') % For reproducibility
n = size(X,1);
newInds = randsample(n,50);
inds = ~ismember(1:n,newInds);
XNew = X(newInds,:);
YNew = Y(newInds);

Обучение GAM с использованием предикторов X и метки классов Y. Рекомендуется указывать имена классов. Укажите, чтобы включить 10 наиболее важных терминов взаимодействия.

Mdl = fitcgam(X(inds,:),Y(inds),'ClassNames',{'b','g'},'Interactions',10)

Mdl = 
  ClassificationGAM
             ResponseName: 'Y'
    CategoricalPredictors: []
               ClassNames: {'b'  'g'}
           ScoreTransform: 'logit'
                Intercept: 2.0026
             Interactions: [10x2 double]
          NumObservations: 301


  Properties, Methods

Mdl является ClassificationGAM объект модели.

Вычислите потерю классификации повторного замещения как с, так и без условий взаимодействия в Mdl. Чтобы исключить термины взаимодействия, укажите 'IncludeInteractions',false.

resubl = resubLoss(Mdl)

resubl = 0

resubl_nointeraction = resubLoss(Mdl,'IncludeInteractions',false)

resubl_nointeraction = 0

Оцените классификационные потери как с, так и без условий взаимодействия в Mdl.

l = loss(Mdl,XNew,YNew)

l = 0.0615

l_nointeraction = loss(Mdl,XNew,YNew,'IncludeInteractions',false)

l_nointeraction = 0.0615

Включение условий взаимодействия не изменяет потерю классификации для Mdl. Обученная модель правильно классифицирует все обучающие образцы и неправильно классифицирует примерно 6% тестовых образцов.

Входные аргументы

свернуть все

`Mdl` - Обобщенная аддитивная модель
`ClassificationGAM` объект модели | `CompactClassificationGAM` объект модели

Обобщенная аддитивная модель, указанная как ClassificationGAM или CompactClassificationGAM объект модели.

Если вы тренировались Mdl используя образцы данных, содержащиеся в таблице, затем входные данные для loss также должен находиться в таблице (Tbl).
Если вы тренировались Mdl используя данные выборки, содержащиеся в матрице, затем входные данные для loss также должен быть в матрице (X).

`Tbl` - Образцы данных
стол

Образец данных, указанный как таблица. Каждая строка Tbl соответствует одному наблюдению, и каждый столбец соответствует одной прогнозирующей переменной. Многозначные переменные и массивы ячеек, отличные от массивов ячеек символьных векторов, не допускаются.

Tbl должен содержать все предикторы, используемые для обучения Mdl. Дополнительно, Tbl может содержать столбец для переменной ответа и столбец для весов наблюдения.

Переменная ответа должна иметь тот же тип данных, что и Mdl.Y. (Программа рассматривает строковые массивы как массивы ячеек символьных векторов.) Если переменная ответа в Tbl имеет то же имя, что и переменная ответа, используемая для обучения Mdl, то указывать не нужно ResponseVarName.
Весовые значения должны быть числовым вектором. Необходимо указать веса наблюдения в Tbl с помощью 'Weights'.

Если вы тренировались Mdl используя образцы данных, содержащиеся в таблице, затем входные данные для loss также должен находиться в таблице.

Типы данных: table

`ResponseVarName` - Имя переменной ответа
имя переменной в `Tbl`

Имя ответной переменной, указанное как вектор символов или строковый скаляр, содержащий имя ответной переменной в Tbl. Например, если переменная ответа Y хранится в Tbl.Y, затем укажите его как 'Y'.

Типы данных: char | string

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

Метки класса, указанные как категориальный, символьный или строковый массив, логический или числовой вектор или массив ячеек символьных векторов. Каждая строка Y представляет классификацию соответствующей строки X или Tbl.

Y должен иметь тот же тип данных, что и Mdl.Y. (Программа рассматривает строковые массивы как массивы ячеек символьных векторов.)

`X` - Данные предиктора
числовая матрица

Данные предиктора, заданные как числовая матрица. Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одной прогнозирующей переменной.

Если вы тренировались Mdl используя данные выборки, содержащиеся в матрице, затем входные данные для loss также должен быть в матрице.

Типы данных: single | double

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'IncludeInteractions',false,'Weights',w определяет исключение терминов взаимодействия из модели и использование весов наблюдения w.

`'IncludeInteractions'` - Флаг для включения терминов взаимодействия
`true` | `false`

Флаг для включения условий взаимодействия модели, указанный как true или false.

Дефолт 'IncludeInteractions' значение равно true если Mdl содержит термины взаимодействия. Значение должно быть false если модель не содержит терминов взаимодействия.

Пример: 'IncludeInteractions',false

Типы данных: logical

`'LossFun'` - Функция потерь
`'classiferror'` (по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | дескриптор функции

Функция потери, заданная как имя встроенной функции потери или дескриптор функции.

В этой таблице перечислены доступные функции потерь. Укажите его с помощью соответствующего вектора символа или скаляра строки.

Стоимость	Описание
`'binodeviance'`	Биномиальное отклонение
`'classiferror'`	Неверно классифицированная скорость в десятичной
`'exponential'`	Экспоненциальные потери
`'hinge'`	Потеря шарнира
`'logit'`	Логистические потери
`'mincost'`	Минимальная ожидаемая стоимость неправильной классификации (для классификационных оценок, которые являются задними вероятностями)
`'quadratic'`	Квадратичные потери

Дополнительные сведения о функциях потерь см. в разделе Классификационные потери.

Чтобы указать пользовательскую функцию потери, используйте функцию дескриптора нотации. Функция должна иметь следующую форму:
```
lossvalue = lossfun(C,S,W,Cost)
```
- Выходной аргумент lossvalue является скаляром.
- Указывается имя функции (lossfun).
- C является nоколо-K логическая матрица со строками, указывающими класс, которому принадлежит соответствующее наблюдение. n - количество наблюдений в Tbl или X, и K - количество различных классов (numel(Mdl.ClassNames). Порядок столбцов соответствует порядку классов в Mdl.ClassNames. Создать C путем установки C(p,q) = 1, если наблюдение p находится в классе q, для каждой строки. Установка всех остальных элементов строки p кому 0.
- S является nоколо-K числовая матрица классификационных баллов. Порядок столбцов соответствует порядку классов в Mdl.ClassNames. S - матрица классификационных баллов, аналогичная выходному результату predict.
- W является n-по-1 числовой вектор весов наблюдения.
- Cost является Kоколо-K числовая матрица затрат на неправильную классификацию. Например, Cost = ones(K) – eye(K) указывает стоимость 0 для правильной классификации и 1 для неправильной классификации.

Пример: 'LossFun','binodeviance'

Типы данных: char | string | function_handle

`'Weights'` - Наблюдательные веса
`ones(size(X,1),1)` (по умолчанию) | вектор скалярных значений | имя переменной в `Tbl`

Веса наблюдения, заданные как вектор скалярных значений или имя переменной в Tbl. Программа взвешивает наблюдения в каждой строке X или Tbl с соответствующим значением в Weights. Размер Weights должно равняться количеству строк в X или Tbl.

Если входные данные указаны как таблица Tbl, то Weights может быть именем переменной в Tbl содержит числовой вектор. В этом случае необходимо указать Weights в виде вектора символов или строкового скаляра. Например, если вектор весов W хранится в Tbl.W, затем укажите его как 'W'.

loss нормализует веса в каждом классе для суммирования со значением предшествующей вероятности соответствующего класса.

Типы данных: single | double | char | string

Подробнее

свернуть все

Классификационные потери

Функции потери классификации измеряют прогностическую неточность классификационных моделей. При сравнении одного и того же типа потерь между многими моделями меньшие потери указывают на лучшую прогностическую модель.

Предположим, что:

L - средневзвешенная потеря классификации.
n - размер выборки.
_yj - наблюдаемая метка класса. Программное обеспечение кодирует его как -1 или 1, указывая отрицательный или положительный класс (или первый или второй класс в ClassNames свойство), соответственно.
f (_Xj) - показатель классификации положительного класса для наблюдения (строки) j данных прогнозирования X.
_mj = _yjf (_Xj) - показатель классификации для классификации наблюдения j в класс, соответствующий _yj. Положительные значения _mj указывают на правильную классификацию и не вносят большого вклада в средние потери. Отрицательные значения _mj указывают на неправильную классификацию и вносят значительный вклад в средний убыток.
Вес для наблюдения j равен _wj. Программное обеспечение нормализует весовые коэффициенты наблюдения таким образом, что они суммируются с соответствующей вероятностью предыдущего класса. Программное обеспечение также нормализует предыдущие вероятности так, чтобы они равнялись 1. Поэтому

$_{}^{}_{} ∑j=1nwj=1.$

В этой таблице описаны поддерживаемые функции потерь, которые можно указать с помощью 'LossFun' аргумент «имя-значение».

Функция потерь	Значение `LossFun`	Уравнение
Биномиальное отклонение	`'binodeviance'`	$_{}^{}_{}_{L=∑j=1nwjlog{1+exp[−2mj}]}.$
Экспоненциальные потери	`'exponential'`	$_{}^{}_{} L=∑j=1nwjexp (-_{} мдж$ ).
Неверно классифицированная скорость в десятичной	`'classiferror'`	$_{}^{}_{} {\overset{}{}}_{}_{L=∑j=1nwjI{y^j≠yj}}.$ ${\overset{}{y}}_{^}$ j - метка класса, соответствующая классу с максимальным баллом. I {·} - функция индикатора.
Потеря шарнира	`'hinge'`	$_{}^{}_{}_{L=∑j=1nwjmax{0,1−mj}}.$
Потеря журнала	`'logit'`	$_{}^{}_{} L=∑j=1nwjlog (1 + \exp_{} (-$ mj)).
Минимальная ожидаемая стоимость классификации ошибок	`'mincost'`	`'mincost'` подходит только в том случае, если классификационные оценки являются задними вероятностями. Программное обеспечение вычисляет взвешенную минимальную ожидаемую стоимость классификации, используя эту процедуру для наблюдений j = 1,..., n. Оценить ожидаемую стоимость неправильной классификации для классификации наблюдения _Xj в класс k: $_{γ jk} {= {(f_{} (}^{} Xj)}_{}'$ C) k. f (_Xj) - вектор-столбец апостериорных вероятностей класса для двоичной и мультиклассовой классификации для наблюдения _Xj. C - матрица затрат, сохраненная в `Cost` свойство модели. Для наблюдения j предсказать метку класса, соответствующую минимальной ожидаемой стоимости неправильной классификации: ${\overset{}{y}}_{^} \underset{аргминк = 1}{j =},_{. .} .$ , Kγ jk. Используя C, определите затраты, понесенные (_cj) для составления прогноза. Средневзвешенное минимальное ожидаемое снижение затрат на неправильную классификацию $_{}^{}_{}_{L=∑j=1nwjcj} .$ Если используется матрица затрат по умолчанию (значение элемента которой равно 0 для правильной классификации и 1 для неправильной классификации), то `'mincost'` убыток эквивалентен `'classiferror'` потери.
Квадратичные потери	`'quadratic'`	$_{}^{}_{L=∑j=1nwj} {(1_{-}}^{} mj$ ) 2.

На этом рисунке сравниваются функции потерь (за исключением 'mincost') над баллом м для одного наблюдения. Некоторые функции нормализуются для прохождения через точку (0,1).

См. также

edge | margin | predict | resubLoss

Темы

Обобщенная аддитивная модель поезда для двоичной классификации

Представлен в R2021a

Документация

потеря

Синтаксис

Описание

Примеры

Определение потерь при классификации тестовых проб

Сравнение GAM с помощью анализа потерь классификации

Входные аргументы

`Mdl` - Обобщенная аддитивная модель
`ClassificationGAM` объект модели | `CompactClassificationGAM` объект модели

`Tbl` - Образцы данных
стол

`ResponseVarName` - Имя переменной ответа
имя переменной в `Tbl`

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

`X` - Данные предиктора
числовая матрица

Аргументы пары «имя-значение»

`'IncludeInteractions'` - Флаг для включения терминов взаимодействия
`true` | `false`

`'LossFun'` - Функция потерь
`'classiferror'` (по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | дескриптор функции

`'Weights'` - Наблюдательные веса
`ones(size(X,1),1)` (по умолчанию) | вектор скалярных значений | имя переменной в `Tbl`

Подробнее

Классификационные потери

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

потеря

Синтаксис

Описание

Примеры

Определение потерь при классификации тестовых проб

Сравнение GAM с помощью анализа потерь классификации

Входные аргументы

Mdl - Обобщенная аддитивная модель ClassificationGAM объект модели | CompactClassificationGAM объект модели

Tbl - Образцы данных стол

ResponseVarName - Имя переменной ответа имя переменной в Tbl

Y - Этикетки классов категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

X - Данные предиктора числовая матрица

Аргументы пары «имя-значение»

'IncludeInteractions' - Флаг для включения терминов взаимодействия true | false

'LossFun' - Функция потерь 'classiferror' (по умолчанию) | 'binodeviance' | 'exponential' | 'hinge' | 'logit' | 'mincost' | 'quadratic' | дескриптор функции

'Weights' - Наблюдательные веса ones(size(X,1),1) (по умолчанию) | вектор скалярных значений | имя переменной в Tbl

Подробнее

Классификационные потери

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`Mdl` - Обобщенная аддитивная модель
`ClassificationGAM` объект модели | `CompactClassificationGAM` объект модели

`Tbl` - Образцы данных
стол

`ResponseVarName` - Имя переменной ответа
имя переменной в `Tbl`

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

`X` - Данные предиктора
числовая матрица

`'IncludeInteractions'` - Флаг для включения терминов взаимодействия
`true` | `false`

`'LossFun'` - Функция потерь
`'classiferror'` (по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | дескриптор функции

`'Weights'` - Наблюдательные веса
`ones(size(X,1),1)` (по умолчанию) | вектор скалярных значений | имя переменной в `Tbl`