kfoldLoss

Классификационные потери для наблюдений, не используемых для обучения

Синтаксис

L = kfoldLoss(ens) L = kfoldLoss(ens,Name,Value)

Описание

L = kfoldLoss(ens) возвращает потери, полученные с помощью перекрестно проверенной модели классификации ens. Для каждого раза этот метод вычисляет потери классификации для кратных наблюдений с использованием модели, обученной на внеоборотных наблюдениях.

L = kfoldLoss(ens,Name,Value) вычисляет потери с дополнительными опциями, указанными одним или несколькими Name,Value аргументы пары. Можно указать несколько аргументов пары имя-значение в любом порядке как Name1,Value1,…,NameN,ValueN.

Входные аргументы

ens

Объект класса ClassificationPartitionedEnsemble. Создать ens с fitcensemble вместе с одним из вариантов перекрестной проверки: 'crossval', 'kfold', 'holdout', 'leaveout', или 'cvpartition'. Кроме того, можно создать ens из классификационного ансамбля с crossval.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

'folds'

Индексы складок в диапазоне от 1 кому ens.KFold. Используйте только эти складки для прогнозов.

По умолчанию: 1:ens.KFold

'lossfun'

Функция потерь, заданная как разделенная запятыми пара, состоящая из 'LossFun' и встроенный дескриптор функции или имени функции потери.

В следующей таблице перечислены доступные функции потерь. Укажите его с помощью соответствующего вектора символа или скаляра строки.

Стоимость	Описание
`'binodeviance'`	Биномиальное отклонение
`'classiferror'`	Неверно классифицированная скорость в десятичной
`'exponential'`	Экспоненциальные потери
`'hinge'`	Потеря шарнира
`'logit'`	Логистические потери
`'mincost'`	Минимальная ожидаемая стоимость неправильной классификации (для классификационных оценок, которые являются задними вероятностями)
`'quadratic'`	Квадратичные потери

'mincost' подходит для классификационных оценок, которые являются задними вероятностями.

Пакетированные и подпространственные ансамбли возвращают задние вероятности по умолчанию (ens.Method является 'Bag' или 'Subspace').
Если метод ансамбля 'AdaBoostM1', 'AdaBoostM2', GentleBoost, или 'LogitBoost', затем, чтобы использовать апостериорные вероятности в качестве классификационных баллов, необходимо указать двойное преобразование баллов путем ввода
```
ens.ScoreTransform = 'doublelogit';
```
Для всех других методов ансамбля программное обеспечение не поддерживает апостериорные вероятности как оценки классификации.

Укажите собственную функцию с помощью нотации дескриптора функции.
Предположим, что n быть числом наблюдений в X и K быть числом различных классов (numel(ens.ClassNames), ens - входная модель). Ваша функция должна иметь эту подпись
```
lossvalue = lossfun(C,S,W,Cost)
```
где:
- Выходной аргумент lossvalue является скаляром.
- Выберите имя функции (lossfun).
- C является nоколо-K логическая матрица со строками, указывающими, какому классу принадлежит соответствующее наблюдение. Порядок столбцов соответствует порядку классов в ens.ClassNames.
  Конструкция C путем установки C(p,q) = 1 если наблюдение p находится в классе q, для каждой строки. Установка всех остальных элементов строки p кому 0.
- S является nоколо-K числовая матрица классификационных баллов. Порядок столбцов соответствует порядку классов в ens.ClassNames. S - матрица классификационных баллов, аналогичная выходному результату predict.
- W является n-по-1 числовой вектор весов наблюдения. Если вы проходите W, программное обеспечение нормализует их для суммирования 1.
- Cost является K-by-K числовая матрица затрат на неправильную классификацию. Например, Cost = ones(K) - eye(K) указывает стоимость 0 для правильной классификации, и 1 для неправильной классификации.
Укажите свою функцию с помощью 'LossFun',@lossfun.

Дополнительные сведения о функциях потерь см. в разделе Классификационные потери.

По умолчанию: 'classiferror'

'mode'

Вектор символов или строковый скаляр для определения выхода kfoldLoss:

'average' — L является скаляром, потери усреднены по всем складкам.
'individual' — L - вектор длины ens.KFold, где каждая запись является потерей для сворачивания.
'cumulative' — L - вектор, в котором находится элемент J получается с помощью обучающихся 1:J из входного списка обучающихся.

По умолчанию: 'average'

Выходные аргументы

`L`	Потеря, по умолчанию доля неправильно классифицированных данных. `L` может быть вектором и может означать различные вещи, в зависимости от настроек пары имя-значение.

Примеры

развернуть все

Оценка кросс-проверенной ошибки классификации

Открыть сценарий в реальном времени

Загрузить ionosphere набор данных.

load ionosphere

Обучение классификационного ансамбля из 100 деревьев решений с использованием AdaBoostM1. Укажите пни дерева в качестве слабых учеников.

t = templateTree('MaxNumSplits',1);
ens = fitcensemble(X,Y,'Method','AdaBoostM1','Learners',t);

Перекрестная проверка ансамбля с использованием 10-кратной перекрестной проверки.

cvens = crossval(ens);

Оценка кросс-проверенной ошибки классификации.

L = kfoldLoss(cvens)

L = 0.0655

Подробнее

развернуть все

Классификационные потери

Функции потери классификации измеряют прогностическую неточность классификационных моделей. При сравнении одного и того же типа потерь между многими моделями меньшие потери указывают на лучшую прогностическую модель.

Рассмотрим следующий сценарий.

L - средневзвешенная потеря классификации.
n - размер выборки.
Для двоичной классификации:
- _yj - наблюдаемая метка класса. Программное обеспечение кодирует его как -1 или 1, указывая отрицательный или положительный класс (или первый или второй класс в ClassNames свойство), соответственно.
- f (_Xj) - показатель классификации положительного класса для наблюдения (строки) j данных прогнозирования X.
- _mj = _yjf (_Xj) - показатель классификации для классификации наблюдения j в класс, соответствующий _yj. Положительные значения _mj указывают на правильную классификацию и не вносят большого вклада в средние потери. Отрицательные значения _mj указывают на неправильную классификацию и вносят значительный вклад в средний убыток.
Для алгоритмов, поддерживающих мультиклассовую классификацию (то есть K ≥ 3):
- _yj * - вектор из K - 1 нулей, с 1 в положении, соответствующем истинному наблюдаемому классу _yj. Например, если истинным классом второго наблюдения является третий класс и K = 4, то _y2 * = [0 0 1 0] ′. Порядок классов соответствует порядку в ClassNames свойства входной модели.
- f (_Xj) - вектор длины K оценок класса для наблюдения j данных предсказателя X. Порядок оценок соответствует порядку классов в ClassNames свойства входной модели.
- _mj = _yj * ′ _f (Xj). _{Поэтому} mj - это скалярная оценка классификации, которую модель прогнозирует для истинного наблюдаемого класса.
Вес для наблюдения j равен _wj. Программное обеспечение нормализует весовые коэффициенты наблюдения таким образом, что они суммируются с соответствующей вероятностью предыдущего класса. Программное обеспечение также нормализует предыдущие вероятности, так что они составляют 1. Поэтому

$_{}^{}_{} ∑j=1nwj=1.$

С учетом этого сценария в следующей таблице описаны поддерживаемые функции потерь, которые можно указать с помощью 'LossFun' аргумент пары имя-значение.

Функция потерь	Значение `LossFun`	Уравнение
Биномиальное отклонение	`'binodeviance'`	$_{}^{}_{}_{L=∑j=1nwjlog{1+exp[−2mj}]}.$
Неверно классифицированная скорость в десятичной	`'classiferror'`	$_{}^{}_{} {\overset{}{}}_{}_{L=∑j=1nwjI{y^j≠yj}}.$ ${\overset{}{y}}_{^}$ j - метка класса, соответствующая классу с максимальным баллом. I {·} - функция индикатора.
Потери перекрестной энтропии	`'crossentropy'`	`'crossentropy'` подходит только для моделей нейронных сетей. Взвешенная потеря перекрестной энтропии равна $_{}^{} \frac{{\overset{}{}}_{} L=−∑j=1nw˜jlog (_{} mj}{)}$ Kn, где веса ${\overset{}{}}_{w˜j}$ нормализуются для суммирования в n вместо 1.
Экспоненциальные потери	`'exponential'`	$_{}^{}_{} L=∑j=1nwjexp (-_{} мдж$ ).
Потеря шарнира	`'hinge'`	$_{}^{}_{}_{L=∑j=1nwjmax{0,1−mj}}.$
Потеря журнала	`'logit'`	$_{}^{}_{} L=∑j=1nwjlog (1 + \exp_{} (-$ mj)).
Минимальная ожидаемая стоимость классификации ошибок	`'mincost'`	`'mincost'` подходит только в том случае, если классификационные оценки являются задними вероятностями. Программное обеспечение вычисляет взвешенную минимальную ожидаемую стоимость классификации, используя эту процедуру для наблюдений j = 1,..., n. Оценить ожидаемую стоимость неправильной классификации для классификации наблюдения _Xj в класс k: $_{γ jk} {= {(f_{} (}^{} Xj)}_{}'$ C) k. f (_Xj) - вектор-столбец апостериорных вероятностей класса для двоичной и мультиклассовой классификации для наблюдения _Xj. C - матрица затрат, сохраненная в `Cost` свойство модели. Для наблюдения j предсказать метку класса, соответствующую минимальной ожидаемой стоимости неправильной классификации: ${\overset{}{y}}_{^} \underset{аргминк = 1}{j =},_{. .} .$ , Kγ jk. Используя C, определите затраты, понесенные (_cj) для составления прогноза. Средневзвешенное минимальное ожидаемое снижение затрат на неправильную классификацию $_{}^{}_{}_{L=∑j=1nwjcj} .$ Если используется матрица затрат по умолчанию (значение элемента которой равно 0 для правильной классификации и 1 для неправильной классификации), то `'mincost'` убыток эквивалентен `'classiferror'` потери.
Квадратичные потери	`'quadratic'`	$_{}^{}_{L=∑j=1nwj} {(1_{-}}^{} mj$ ) 2.

На этом рисунке сравниваются функции потерь (за исключением 'crossentropy' и 'mincost') над баллом м для одного наблюдения. Некоторые функции нормализуются для прохождения через точку (0,1).

См. также

crossval | kfoldEdge | kfoldfun | kfoldMargin | kfoldPredict

Документация