resubLoss

Ошибка классификации перезаменой

Синтаксис

L = resubLoss(tree) L = resubLoss(tree,Name,Value) L = resubLoss(tree,'Subtrees',subtreevector) [L,se] = resubLoss(tree,'Subtrees',subtreevector) [L,se,NLeaf] = resubLoss(tree,'Subtrees',subtreevector) [L,se,NLeaf,bestlevel] = resubLoss(tree,'Subtrees',subtreevector) [L,...] = resubLoss(tree,'Subtrees',subtreevector,Name,Value)

Описание

L = resubLoss(tree) возвращает потерю перезамены, означая потерю, вычисленную для данных что fitctree используемый, чтобы создать tree.

L = resubLoss(tree,Name,Value) возвращает потерю с дополнительными опциями, заданными одним или несколькими Name,Value парные аргументы. Можно задать несколько аргументов пары "имя-значение" в любом порядке как Name1,Value1,…,NameN,ValueN.

L = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор ошибок классификации для деревьев в последовательности сокращения subtreevector.

[L,se] = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор стандартных погрешностей ошибок классификации.

[L,se,NLeaf] = resubLoss(tree,'Subtrees',subtreevector) возвращает вектор количеств вершин в деревьях последовательности сокращения.

[L,se,NLeaf,bestlevel] = resubLoss(tree,'Subtrees',subtreevector) возвращает лучший уровень сокращения, как задано в TreeSize пара "имя-значение". По умолчанию, bestlevel уровень сокращения, который дает потерю в одном стандартном отклонении минимальной потери.

[L,...] = resubLoss(tree,'Subtrees',subtreevector,Name,Value) возвращает статистику потерь с дополнительными опциями, заданными одним или несколькими Name,Value парные аргументы. Можно задать несколько аргументов пары "имя-значение" в любом порядке как Name1,Value1,…,NameN,ValueN.

Входные параметры

развернуть все

tree

Дерево классификации создается fitctree.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

`'LossFun'` — Функция потерь
`'classiferror'` (значение по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | указатель на функцию

Функция потерь, заданная как разделенная запятой пара, состоящая из 'LossFun' и встроенное имя функции потерь или указатель на функцию.

В следующей таблице перечислены доступные функции потерь. Задайте тот с помощью его соответствующего вектора символов или представьте скаляр в виде строки.

Значение	Описание
`'binodeviance'`	Биномиальное отклонение
`'classiferror'`	Ошибка классификации
`'exponential'`	Экспоненциал
`'hinge'`	Стержень
`'logit'`	Логистический
`'mincost'`	Минимальный ожидал стоимость misclassification (для баллов классификации, которые являются апостериорными вероятностями),
`'quadratic'`	Квадратичный

'mincost' подходит для баллов классификации, которые являются апостериорными вероятностями. Деревья классификации возвращают апостериорные вероятности как баллы классификации по умолчанию (см. predict).

Задайте свою собственную функцию с помощью обозначения указателя на функцию.
Предположим тот n будьте количеством наблюдений в X и K будьте количеством отличных классов (numel(tree.ClassNames)). Ваша функция должна иметь эту подпись
```
lossvalue = lossfun(C,S,W,Cost)
```
где:
- Выходной аргумент lossvalue скаляр.
- Вы выбираете имя функции (lossfun).
- C n- K логическая матрица со строками, указывающими, которые классифицируют соответствующее наблюдение, принадлежит. Порядок следования столбцов соответствует порядку класса в tree.ClassNames.
  Создайте C установкой C(p,q) = 1 если наблюдение p находится в классе q, для каждой строки. Установите все другие элементы строки p к 0.
- S n- K числовая матрица баллов классификации. Порядок следования столбцов соответствует порядку класса в tree.ClassNamesS матрица баллов классификации, похожих на выход predict.
- W n- 1 числовой вектор весов наблюдения. Если вы передаете W, программное обеспечение нормирует их, чтобы суммировать к 1.
- Cost K-by-K числовая матрица затрат misclassification. Например, Cost = ones(K) - eye(K) задает стоимость 0 для правильной классификации и 1 для misclassification.
Задайте свое использование функции 'LossFun', @lossfun.

Для получения дополнительной информации о функциях потерь смотрите Потерю Классификации.

Типы данных: char | string | function_handle

Name,Value аргументы сопоставили с сокращением поддеревьев:

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор неотрицательных целых чисел | `'all'`

Сокращение уровня, заданного как разделенная запятой пара, состоящая из 'Subtrees' и вектор неотрицательных целых чисел в порядке возрастания или 'all'.

Если вы задаете вектор, то всеми элементами должен быть, по крайней мере, 0 и в большей части max(tree.PruneList). 0 указывает на полное, несокращенное дерево и max(tree.PruneList) указывает на полностью сокращенное дерево (т.е. только корневой узел).

Если вы задаете 'all', затем resubLoss работает со всеми поддеревьями (т.е. целая последовательность сокращения). Эта спецификация эквивалентна использованию 0:max(tree.PruneList).

resubLoss чернослив tree к каждому уровню, обозначенному в Subtrees, и затем оценивает соответствующие выходные аргументы. Размер Subtrees определяет размер некоторых выходных аргументов.

Вызвать Subtrees, свойства PruneList и PruneAlpha из tree mustBeNonempty. Другими словами, вырастите tree установкой 'Prune','on', или путем сокращения tree использование prune.

Пример: 'Subtrees','all'

Типы данных: single | double | char | string

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`

Древовидный размер, заданный как разделенная запятой пара, состоящая из 'TreeSize' и одно из следующих значений:

'se' — loss возвращает самый высокий уровень сокращения с потерей в одном стандартном отклонении минимума (L+se, где L и se относитесь к наименьшему значению в Subtrees).
'min' — loss возвращает элемент Subtrees с самой маленькой потерей, обычно самый маленький элемент Subtrees.

Выходные аргументы

`L`	Потеря классификации, вектор длина `Subtrees`. Значение ошибки зависит от значений в `Weights` и `LossFun`.
`se`	Стандартная погрешность потери, вектор длина `Subtrees`.
`NLeaf`	Количество листов (терминальные узлы) в сокращенных поддеревьях, вектор длина `Subtrees`.
`bestlevel`	Скаляр, значение которого зависит от `TreeSize`: `TreeSize` = `'se'` — `loss` возвращает самый высокий уровень сокращения с потерей в одном стандартном отклонении минимума (`L`+`se`, где `L` и `se` относитесь к наименьшему значению в `Subtrees`). `TreeSize` = `'min'` — `loss` возвращает элемент `Subtrees` с самой маленькой потерей, обычно самый маленький элемент `Subtrees`.

Примеры

развернуть все

Вычислите ошибку классификации в выборке

Скрипт Open Live Script

Вычислите ошибку классификации перезамены для ionosphere данные.

load ionosphere
tree = fitctree(X,Y);
L = resubLoss(tree)

L = 0.0114

Исследуйте ошибку классификации на каждое поддерево

Скрипт Open Live Script

Несокращенные деревья решений имеют тенденцию сверхсоответствовать. Один способ сбалансировать сложность модели и производительность из выборки состоит в том, чтобы сократить дерево (или ограничить его рост) так, чтобы производительность из выборки и в выборке была удовлетворительной.

Загрузите ирисовый набор данных Фишера. Разделите данные в обучение (50%) и валидацию (50%-е) наборы.

load fisheriris
n = size(meas,1);
rng(1) % For reproducibility
idxTrn = false(n,1);
idxTrn(randsample(n,round(0.5*n))) = true; % Training set logical indices 
idxVal = idxTrn == false;                  % Validation set logical indices

Вырастите дерево классификации использование набора обучающих данных.

Mdl = fitctree(meas(idxTrn,:),species(idxTrn));

Просмотрите дерево классификации.

view(Mdl,'Mode','graph');

Дерево классификации имеет четыре уровня сокращения. Уровень 0 является полным, несокращенным деревом (как отображено). Уровень 3 является только корневым узлом (т.е. никакие разделения).

Исследуйте учебную демонстрационную ошибку классификации на каждое поддерево (или уровень сокращения), исключая высший уровень.

m = max(Mdl.PruneList) - 1;
trnLoss = resubLoss(Mdl,'SubTrees',0:m)

trnLoss = 3×1

    0.0267
    0.0533
    0.3067

Полное, несокращенное дерево неправильно классифицирует приблизительно 2,7% учебных наблюдений.
Дерево, сокращенное к уровню 1, неправильно классифицирует приблизительно 5,3% учебных наблюдений.
Дерево, сокращенное к уровню 2 (т.е. пень), неправильно классифицирует приблизительно 30,6% учебных наблюдений.

Исследуйте ошибку классификации выборок валидации на каждом уровне, исключая высший уровень.

valLoss = loss(Mdl,meas(idxVal,:),species(idxVal),'SubTrees',0:m)

valLoss = 3×1

    0.0369
    0.0237
    0.3067

Полное, несокращенное дерево неправильно классифицирует приблизительно 3,7% наблюдений валидации.
Дерево, сокращенное к уровню 1, неправильно классифицирует приблизительно 2,4% наблюдений валидации.
Дерево, сокращенное к уровню 2 (т.е. пень), неправильно классифицирует приблизительно 30,7% наблюдений валидации.

Чтобы сбалансировать сложность модели и производительность из выборки, считайте сокращение Mdl к уровню 1.

pruneMdl = prune(Mdl,'Level',1);
view(pruneMdl,'Mode','graph')

Больше о

развернуть все

Потеря классификации

Функции Classification loss измеряют прогнозирующую погрешность моделей классификации. Когда вы сравниваете тот же тип потери среди многих моделей, более низкая потеря указывает на лучшую прогнозную модель.

Рассмотрите следующий сценарий.

L является средневзвешенной потерей классификации.
n является объемом выборки.
Для бинарной классификации:
- _yj является наблюдаемой меткой класса. Программные коды это как –1 или 1, указывая на отрицательный или положительный класс, соответственно.
- f (_Xj) является необработанным счетом классификации к наблюдению (строка) j данных о предикторе X.
- _mj = _yj f (_Xj) является счетом классификации к классификации наблюдения j в класс, соответствующий _yj. Положительные значения _mj указывают на правильную классификацию и не способствуют очень средней потере. Отрицательные величины _mj указывают на неправильную классификацию и значительно способствуют средней потере.
Для алгоритмов, которые поддерживают классификацию мультиклассов (то есть, K ≥ 3):
- _yj* является вектором K – 1 нуль, с 1 в положении, соответствующем истинному, наблюдаемому классу _yj. Например, если истинный класс второго наблюдения является третьим классом и K = 4, то y ^*2 = [0 0 1 0] ′. Порядок классов соответствует порядку в ClassNames свойство входной модели.
- f (_Xj) является длиной вектор K музыки класса к наблюдению j данных о предикторе X. Порядок баллов соответствует порядку классов в ClassNames свойство входной модели.
- _mj = _yj^* ′ f (_Xj). Поэтому _mj является скалярным счетом классификации, который модель предсказывает для истинного, наблюдаемого класса.
Весом для наблюдения j является _wj. Программное обеспечение нормирует веса наблюдения так, чтобы они суммировали к соответствующей предшествующей вероятности класса. Программное обеспечение также нормирует априорные вероятности, таким образом, они суммируют к 1. Поэтому

$\sum_{j = 1}^{n} w_{j} = 1.$

Учитывая этот сценарий, следующая таблица описывает поддерживаемые функции потерь, которые можно задать при помощи 'LossFun' аргумент пары "имя-значение".

Функция потерь	Значение `LossFun`	Уравнение
Биномиальное отклонение	`'binodeviance'`	$L = \sum_{j = 1}^{n} w_{j} журнал {1 + \exp [- 2 m_{j}]} .$
Экспоненциальная потеря	`'exponential'`	$L = \sum_{j = 1}^{n} w_{j} \exp (- m_{j}) .$
Ошибка классификации	`'classiferror'`	$L = \sum_{j = 1}^{n} w_{j} I {{\hat{y}}_{j} \neq y_{j}} .$ Это - взвешенная часть неправильно классифицированных наблюдений где ${\hat{y}}_{j}$ метка класса, соответствующая классу с максимальной апостериорной вероятностью. I {x} является функцией индикатора.
Потеря стержня	`'hinge'`	$L = \sum_{j = 1}^{n} w_{j} \max {0, 1 - m_{j}} .$
Потеря логита	`'logit'`	$L = \sum_{j = 1}^{n} w_{j} журнал (1 + \exp (- m_{j})) .$
Минимальная стоимость	`'mincost'`	Минимальная стоимость. Программное обеспечение вычисляет взвешенную минимальную стоимость с помощью этой процедуры в наблюдениях j = 1..., n. Оцените 1 K вектором ожидаемых затрат классификации для наблюдения j: $γ_{j} = f {(X_{j})}^{'} C .$ f (_Xj) является вектор-столбцом апостериорных вероятностей класса для классификации мультиклассов и двоичного файла. C является матрицей стоимости, которую входная модель хранит в `Cost` свойство. Для наблюдения j предскажите метку класса, соответствующую минимальной ожидаемой стоимости классификации: ${\hat{y}}_{j} = \min_{j = 1, ..., K} (γ_{j}) .$ Используя C, идентифицируйте, что стоимость подверглась (_cj) для того, чтобы сделать прогноз. Взвешенная, средняя, минимальная потеря стоимости $L = \sum_{j = 1}^{n} w_{j} c_{j} .$
Квадратичная потеря	`'quadratic'`	$L = \sum_{j = 1}^{n} w_{j} {(1 - m_{j})}^{2} .$

Этот рисунок сравнивает функции потерь (кроме 'mincost') для одного наблюдения по m. Некоторые функции нормированы, чтобы пройти [0,1].

Истинная стоимость Misclassification

Существует два затрат, сопоставленные с классификацией: истинная стоимость misclassification в классе и ожидаемый misclassification стоятся на наблюдение.

Можно установить истинную стоимость misclassification в классе в Cost пара "имя-значение", когда вы создаете классификатор с помощью fitctree метод. Cost(i,j) стоимость классификации наблюдения в класс j если его истинным классом является i. По умолчанию, Cost(i,j)=1 если i~=j, и Cost(i,j)=0 если i=j. Другими словами, стоимостью является 0 для правильной классификации и 1 для неправильной классификации.

Ожидаемая стоимость Misclassification

Предположим, что у вас есть Nobs наблюдения, что вы хотите классифицировать с обученным классификатором. Предположим, что у вас есть K классы. Вы помещаете наблюдения в матричный Xnew с одним наблюдением на строку.

Ожидаемая матрица стоимости CE имеет размер Nobs- K. Каждая строка CE содержит ожидаемую (среднюю) стоимость классификации наблюдения в каждый K классы. CE(n,k)

$\sum_{i = 1}^{K} \hat{P} (i | X n e w (n)) C (k | i),$

где

K является количеством классов.
$\hat{P} (i | X n e w (n))$ апостериорная вероятность класса i для наблюдения Xnew (n).
$C (k | i)$ истинная misclassification стоимость классификации наблюдения как k, когда его истинным классом является i.

Документация

resubLoss

Синтаксис

Описание

Входные параметры

Аргументы в виде пар имя-значение

`'LossFun'` — Функция потерь
`'classiferror'` (значение по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | указатель на функцию

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор неотрицательных целых чисел | `'all'`

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`

Выходные аргументы

Примеры

Вычислите ошибку классификации в выборке

Исследуйте ошибку классификации на каждое поддерево

Больше о

Потеря классификации

Истинная стоимость Misclassification

Ожидаемая стоимость Misclassification

Смотрите также

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

resubLoss

Синтаксис

Описание

Входные параметры

Аргументы в виде пар имя-значение

'LossFun' — Функция потерь 'classiferror' (значение по умолчанию) | 'binodeviance' | 'exponential' | 'hinge' | 'logit' | 'mincost' | 'quadratic' | указатель на функцию

'Subtrees' — Сокращение уровня 0 (значений по умолчанию) | вектор неотрицательных целых чисел | 'all'

'TreeSize' — Древовидный размер 'se' (значение по умолчанию) | 'min'

Выходные аргументы

Примеры

Вычислите ошибку классификации в выборке

Исследуйте ошибку классификации на каждое поддерево

Больше о

Потеря классификации

Истинная стоимость Misclassification

Ожидаемая стоимость Misclassification

Смотрите также

Документация Statistics and Machine Learning Toolbox

Поддержка

`'LossFun'` — Функция потерь
`'classiferror'` (значение по умолчанию) | `'binodeviance'` | `'exponential'` | `'hinge'` | `'logit'` | `'mincost'` | `'quadratic'` | указатель на функцию

`'Subtrees'` — Сокращение уровня
0 (значений по умолчанию) | вектор неотрицательных целых чисел | `'all'`

`'TreeSize'` — Древовидный размер
`'se'` (значение по умолчанию) | `'min'`