resubLoss

Ошибка классификации перезаменой

Синтаксис

L = resubLoss(tree) L = resubLoss(tree,Name,Value) L = resubLoss(tree,'Subtrees',subtreevector) [L,se] = resubLoss(tree,'Subtrees',subtreevector) [L,se,NLeaf] = resubLoss(tree,'Subtrees',subtreevector) [L,se,NLeaf,bestlevel] = resubLoss(tree,'Subtrees',subtreevector) [L,...] = resubLoss(tree,'Subtrees',subtreevector,Name,Value)

Описание

L = resubLoss(tree) возвращает потерю перезамены, означая потерю, вычисленную для данных это fitctree используемый, чтобы создать tree.

L = resubLoss(tree,Name,Value) возвращает потерю с дополнительными опциями, заданными одним или несколькими Name,Value парные аргументы. Можно задать несколько аргументов пары "имя-значение" в любом порядке как Name1,Value1,…,NameN,ValueN.

L = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор из ошибок классификации для деревьев в последовательности сокращения subtreevector.

[L,se] = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор из стандартных погрешностей ошибок классификации.

[L,se,NLeaf] = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор из количеств вершин в деревьях последовательности сокращения.

[L,se,NLeaf,bestlevel] = resubLoss(tree,'Subtrees',subtreevector) возвращает лучший уровень сокращения, как задано в TreeSize пара "имя-значение". По умолчанию, bestlevel уровень сокращения, который дает потерю в одном стандартном отклонении минимальной потери.

[L,...] = resubLoss(tree,'Subtrees',subtreevector,Name,Value) возвращает статистику потерь с дополнительными опциями, заданными одним или несколькими Name,Value парные аргументы. Можно задать несколько аргументов пары "имя-значение" в любом порядке как Name1,Value1,…,NameN,ValueN.

Входные параметры

развернуть все

tree

Дерево классификации, созданное fitctree.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

`'LossFun'` — Функция потерь
`'mincost'` (значение по умолчанию) | `'binodeviance'` | `'classiferror'` | `'exponential'` | `'hinge'` | `'logit'` | `'quadratic'` | указатель на функцию

Функция потерь в виде разделенной запятой пары, состоящей из 'LossFun' и встроенное имя функции потерь или указатель на функцию.

В следующей таблице перечислены доступные функции потерь. Задайте тот с помощью его соответствующего вектора символов или строкового скаляра.

Значение	Описание
`'binodeviance'`	Биномиальное отклонение
`'classiferror'`	Неправильно классифицированный уровень в десятичном числе
`'exponential'`	Экспоненциальная потеря
`'hinge'`	Потеря стержня
`'logit'`	Логистическая потеря
`'mincost'`	Минимальный ожидал стоимость misclassification (для классификационных оценок, которые являются апостериорными вероятностями),
`'quadratic'`	Квадратичная потеря

'mincost' подходит для классификационных оценок, которые являются апостериорными вероятностями. Деревья классификации возвращают апостериорные вероятности как классификационные оценки по умолчанию (см. predict).

Задайте свою собственную функцию с помощью обозначения указателя на функцию.
Предположим тот n будьте количеством наблюдений в X и K будьте количеством отличных классов (numel(tree.ClassNames)). Ваша функция должна иметь эту подпись
```
lossvalue = lossfun(C,S,W,Cost)
```
где:
- Выходной аргумент lossvalue скаляр.
- Вы выбираете имя функции (lossfun).
- C n- K логическая матрица со строками, указывающими, которые классифицируют соответствующее наблюдение, принадлежит. Порядок следования столбцов соответствует порядку класса в tree.ClassNames.
  Создайте C установкой C(p,q) = 1 если наблюдение p находится в классе q, для каждой строки. Установите все другие элементы строки p к 0.
- S n- K числовая матрица классификационных оценок. Порядок следования столбцов соответствует порядку класса в tree.ClassNamesS матрица классификационных оценок, похожих на выход predict.
- W n- 1 числовой вектор из весов наблюдения. Если вы передаете W, программное обеспечение нормирует их, чтобы суммировать к 1.
- Cost K-by-K числовая матрица затрат misclassification. Например, Cost = ones(K) - eye(K) задает стоимость 0 для правильной классификации и 1 для misclassification.
Задайте свое использование функции 'LossFun', @lossfun.

Для получения дополнительной информации о функциях потерь смотрите Потерю Классификации.

Типы данных: char | string | function_handle

Name,Value аргументы сопоставили с сокращением поддеревьев:

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор из неотрицательных целых чисел | `'all'`

Сокращение уровня в виде разделенной запятой пары, состоящей из 'Subtrees' и вектор из неотрицательных целых чисел в порядке возрастания или 'all'.

Если вы задаете вектор, то всеми элементами должен быть, по крайней мере, 0 и в большей части max(tree.PruneList). 0 указывает на полное, несокращенное дерево и max(tree.PruneList) указывает на полностью сокращенное дерево (i.e., только корневой узел).

Если вы задаете 'all'то resubLoss работает со всеми поддеревьями (т.е. целая последовательность сокращения). Эта спецификация эквивалентна использованию 0:max(tree.PruneList).

resubLoss чернослив tree к каждому уровню, обозначенному в Subtrees, и затем оценивает соответствующие выходные аргументы. Размер Subtrees определяет размер некоторых выходных аргументов.

Вызвать Subtrees, свойства PruneList и PruneAlpha из tree mustBeNonempty. Другими словами, вырастите tree установкой 'Prune','on', или путем сокращения tree использование prune.

Пример: 'Subtrees','all'

Типы данных: single | double | char | string

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`

Древовидный размер в виде разделенной запятой пары, состоящей из 'TreeSize' и одно из следующих значений:

'se' — loss возвращает самый высокий уровень сокращения с потерей в одном стандартном отклонении минимума (L+se, где L и se относитесь к наименьшему значению в Subtrees).
'min' — loss возвращает элемент Subtrees с самой маленькой потерей, обычно самый маленький элемент Subtrees.

Выходные аргументы

`L`	Потеря классификации, вектор длина `Subtrees`. Значение ошибки зависит от значений в `Weights` и `LossFun`.
`se`	Стандартная погрешность потери, вектор длина `Subtrees`.
`NLeaf`	Количество листов (терминальные узлы) в сокращенных поддеревьях, вектор длина `Subtrees`.
`bestlevel`	Скаляр, значение которого зависит от `TreeSize`: `TreeSize` = `'se'` — `loss` возвращает самый высокий уровень сокращения с потерей в одном стандартном отклонении минимума (`L`+`se`, где `L` и `se` относитесь к наименьшему значению в `Subtrees`). `TreeSize` = `'min'` — `loss` возвращает элемент `Subtrees` с самой маленькой потерей, обычно самый маленький элемент `Subtrees`.

Примеры

развернуть все

Вычислите ошибку классификации в выборке

Скрипт Open Live Script

Вычислите ошибку классификации перезамены для ionosphere данные.

load ionosphere
tree = fitctree(X,Y);
L = resubLoss(tree)

L = 0.0114

Исследуйте ошибку классификации на каждое поддерево

Скрипт Open Live Script

Несокращенные деревья решений имеют тенденцию сверхсоответствовать. Один способ сбалансировать сложность модели и эффективность из выборки состоит в том, чтобы сократить дерево (или ограничить его рост) так, чтобы эффективность из выборки и в выборке была удовлетворительной.

Загрузите ирисовый набор данных Фишера. Разделите данные в обучение (50%) и валидацию (50%-е) наборы.

load fisheriris
n = size(meas,1);
rng(1) % For reproducibility
idxTrn = false(n,1);
idxTrn(randsample(n,round(0.5*n))) = true; % Training set logical indices 
idxVal = idxTrn == false;                  % Validation set logical indices

Вырастите дерево классификации использование набора обучающих данных.

Mdl = fitctree(meas(idxTrn,:),species(idxTrn));

Просмотрите дерево классификации.

view(Mdl,'Mode','graph');

Figure Classification tree viewer contains an axes and other objects of type uimenu, uicontrol. The axes contains 18 objects of type line, text.

Дерево классификации имеет четыре уровня сокращения. Уровень 0 является полным, несокращенным деревом (как отображено). Уровень 3 является только корневым узлом (i.e., никакие разделения).

Исследуйте ошибку классификации обучающих выборок на каждое поддерево (или уровень сокращения), исключая высший уровень.

m = max(Mdl.PruneList) - 1;
trnLoss = resubLoss(Mdl,'SubTrees',0:m)

trnLoss = 3×1

    0.0267
    0.0533
    0.3067

Полное, несокращенное дерево неправильно классифицирует приблизительно 2,7% учебных наблюдений.
Дерево, сокращенное к уровню 1, неправильно классифицирует приблизительно 5,3% учебных наблюдений.
Дерево сокращено к уровню 2 (i.e., пень), неправильно классифицирует приблизительно 30,6% учебных наблюдений.

Исследуйте ошибку классификации выборок валидации на каждом уровне, исключая высший уровень.

valLoss = loss(Mdl,meas(idxVal,:),species(idxVal),'SubTrees',0:m)

valLoss = 3×1

    0.0369
    0.0237
    0.3067

Полное, несокращенное дерево неправильно классифицирует приблизительно 3,7% наблюдений валидации.
Дерево, сокращенное к уровню 1, неправильно классифицирует приблизительно 2,4% наблюдений валидации.
Дерево сокращено к уровню 2 (i.e., пень), неправильно классифицирует приблизительно 30,7% наблюдений валидации.

Чтобы сбалансировать сложность модели и эффективность из выборки, считайте сокращение Mdl к уровню 1.

pruneMdl = prune(Mdl,'Level',1);
view(pruneMdl,'Mode','graph')

Figure Classification tree viewer contains an axes and other objects of type uimenu, uicontrol. The axes contains 12 objects of type line, text.

Больше о

развернуть все

Потеря классификации

Функции Classification loss измеряют прогнозирующую погрешность моделей классификации. Когда вы сравниваете тот же тип потери среди многих моделей, более низкая потеря указывает на лучшую прогнозную модель.

Рассмотрите следующий сценарий.

L является средневзвешенной потерей классификации.
n является объемом выборки.
Для бинарной классификации:
- _yj является наблюдаемой меткой класса. Программные коды это как –1 или 1, указывая на отрицательный или положительный класс (или первый или второй класс в ClassNames свойство), соответственно.
- f (_Xj) является классификационной оценкой положительного класса для наблюдения (строка) j данных о предикторе X.
- _mj = _yj f (_Xj) является классификационной оценкой для классификации наблюдения j в класс, соответствующий _yj. Положительные значения _mj указывают на правильную классификацию и не способствуют очень средней потере. Отрицательные величины _mj указывают на неправильную классификацию и значительно способствуют средней потере.
Для алгоритмов, которые поддерживают классификацию мультиклассов (то есть, K ≥ 3):
- _yj* является вектором из K – 1 нуль, с 1 в положении, соответствующем истинному, наблюдаемому классу _yj. Например, если истинный класс второго наблюдения является третьим классом и K = 4, то y ₂^* = [0 0 1 0] ′. Порядок классов соответствует порядку в ClassNames свойство входной модели.
- f (_Xj) является длиной вектор K из музыки класса к наблюдению j данных о предикторе X. Порядок баллов соответствует порядку классов в ClassNames свойство входной модели.
- _mj = _yj^* ′ f (_Xj). Поэтому _mj является скалярной классификационной оценкой, которую модель предсказывает для истинного, наблюдаемого класса.
Весом для наблюдения j является _wj. Программное обеспечение нормирует веса наблюдения так, чтобы они суммировали к соответствующей предшествующей вероятности класса. Программное обеспечение также нормирует априорные вероятности, таким образом, они суммируют к 1. Поэтому

$\sum_{j = 1}^{n} w_{j} = 1.$

Учитывая этот сценарий, следующая таблица описывает поддерживаемые функции потерь, которые можно задать при помощи 'LossFun' аргумент пары "имя-значение".

Функция потерь	Значение `LossFun`	Уравнение
Биномиальное отклонение	`'binodeviance'`	$L = \sum_{j = 1}^{n} w_{j} \log {1 + \exp [- 2 m_{j}]} .$
Неправильно классифицированный уровень в десятичном числе	`'classiferror'`	$L = \sum_{j = 1}^{n} w_{j} I {{\hat{y}}_{j} \neq y_{j}} .$ ${\hat{y}}_{j}$ метка класса, соответствующая классу с максимальным счетом. I {·} является функцией индикатора.
Потеря перекрестной энтропии	`'crossentropy'`	`'crossentropy'` подходит только для моделей нейронной сети. Взвешенная потеря перекрестной энтропии $L = - \sum_{j = 1}^{n} \frac{{\tilde{w}}_{j} \log (m_{j})}{K n},$ где веса ${\tilde{w}}_{j}$ нормированы, чтобы суммировать к n вместо 1.
Экспоненциальная потеря	`'exponential'`	$L = \sum_{j = 1}^{n} w_{j} \exp (- m_{j}) .$
Потеря стержня	`'hinge'`	$L = \sum_{j = 1}^{n} w_{j} \max {0, 1 - m_{j}} .$
Потеря логита	`'logit'`	$L = \sum_{j = 1}^{n} w_{j} \log (1 + \exp (- m_{j})) .$
Минимальный ожидал стоимость misclassification	`'mincost'`	`'mincost'` является соответствующим, только если классификационные оценки являются апостериорными вероятностями. Программное обеспечение вычисляет взвешенную минимальную ожидаемую стоимость классификации с помощью этой процедуры для наблюдений j = 1..., n. Оцените ожидаемую misclassification стоимость классификации наблюдения _Xj в класс k: $γ_{j k} = {(f {(X_{j})}^{'} C)}_{k} .$ f (_Xj) является вектор-столбцом апостериорных вероятностей класса для двоичного файла и классификации мультиклассов для наблюдения _Xj. C является матрицей стоимости, сохраненной в `Cost` свойство модели. Для наблюдения j предскажите, что метка класса, соответствующая минимальному, ожидала стоимость misclassification: ${\hat{y}}_{j} = \underset{k = 1, ..., K}{argmin} γ_{j k} .$ Используя C, идентифицируйте, что стоимость подверглась (_cj) для того, чтобы сделать предсказание. Взвешенное среднее минимального ожидало, что потеря стоимости misclassification $L = \sum_{j = 1}^{n} w_{j} c_{j} .$ Если вы используете матрицу стоимости по умолчанию (чье значение элемента 0 для правильной классификации и 1 для неправильной классификации), то `'mincost'` потеря эквивалентна `'classiferror'` потеря.
Квадратичная потеря	`'quadratic'`	$L = \sum_{j = 1}^{n} w_{j} {(1 - m_{j})}^{2} .$

Этот рисунок сравнивает функции потерь (кроме 'crossentropy' и 'mincost') по счету m для одного наблюдения. Некоторые функции нормированы, чтобы пройти через точку (0,1).

Истинная стоимость Misclassification

Истинная стоимость misclassification является стоимостью классификации наблюдения в неправильный класс.

Можно установить истинную стоимость misclassification в классе при помощи 'Cost' аргумент значения имени, когда вы создаете классификатор. Cost(i,j) стоимость классификации наблюдения в класс j когда его истинным классом является i. По умолчанию, Cost(i,j)=1 если i~=j, и Cost(i,j)=0 если i=j. Другими словами, стоимостью является 0 для правильной классификации и 1 для неправильной классификации.

Ожидаемая стоимость Misclassification

Ожидаемая стоимость misclassification на наблюдение является усредненной стоимостью классификации наблюдения в каждый класс.

Предположим, что у вас есть Nobs наблюдения, что вы хотите классифицировать с обученным классификатором, и у вас есть K классы. Вы помещаете наблюдения в матричный X с одним наблюдением на строку.

Ожидаемая матрица стоимости CE имеет размер Nobs- K. Каждая строка CE содержит ожидаемую (среднюю) стоимость классификации наблюдения в каждый K классы. CE(n,k)

$\sum_{i = 1}^{K} \hat{P} (i | X (n)) C (k | i),$

где:

K является количеством классов.
$\hat{P} (i | X (n))$ апостериорная вероятность класса i для наблюдения X (n).
$C (k | i)$ истинная misclassification стоимость классификации наблюдения как k, когда его истинным классом является i.

Документация

resubLoss

Синтаксис

Описание

Входные параметры

Аргументы в виде пар имя-значение

`'LossFun'` — Функция потерь
`'mincost'` (значение по умолчанию) | `'binodeviance'` | `'classiferror'` | `'exponential'` | `'hinge'` | `'logit'` | `'quadratic'` | указатель на функцию

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор из неотрицательных целых чисел | `'all'`

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`

Выходные аргументы

Примеры

Вычислите ошибку классификации в выборке

Исследуйте ошибку классификации на каждое поддерево

Больше о

Потеря классификации

Истинная стоимость Misclassification

Ожидаемая стоимость Misclassification

Смотрите также

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

resubLoss

Синтаксис

Описание

Входные параметры

Аргументы в виде пар имя-значение

'LossFun' — Функция потерь 'mincost' (значение по умолчанию) | 'binodeviance' | 'classiferror' | 'exponential' | 'hinge' | 'logit' | 'quadratic' | указатель на функцию

'Subtrees' — Сокращение уровня 0 (значений по умолчанию) | вектор из неотрицательных целых чисел | 'all'

'TreeSize' — Древовидный размер 'se' (значение по умолчанию) | 'min'

Выходные аргументы

Примеры

Вычислите ошибку классификации в выборке

Исследуйте ошибку классификации на каждое поддерево

Больше о

Потеря классификации

Истинная стоимость Misclassification

Ожидаемая стоимость Misclassification

Смотрите также

Документация Statistics and Machine Learning Toolbox

Поддержка

`'LossFun'` — Функция потерь
`'mincost'` (значение по умолчанию) | `'binodeviance'` | `'classiferror'` | `'exponential'` | `'hinge'` | `'logit'` | `'quadratic'` | указатель на функцию

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор из неотрицательных целых чисел | `'all'`

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`