край

Поля классификации для многоклассовой модели выходных кодов с исправлением ошибок (ECOC)

Синтаксис

m = поле (Mdl, tbl, ResponseVarName)

m = запас (Mdl, tbl, Y)

m = запас (Mdl, X, Y)

m = поле (___, имя, значение)

Описание

m = margin(Mdl,tbl,ResponseVarName) возвращает поля классификации (m) для обучаемой модели многоклассовых выходных кодов с исправлением ошибок (ECOC) Mdl использование данных предиктора в таблице tbl и метки классов в tbl.ResponseVarName.

m = margin(Mdl,tbl,Y) возвращает поля классификации для классификатора Mdl использование данных предиктора в таблице tbl и метки класса в векторе Y.

пример

m = margin(Mdl,X,Y) возвращает поля классификации для классификатора Mdl использование данных предиктора в матрице X и метки классов Y.

m = margin(___,Name,Value) указывает параметры, использующие один или несколько аргументов пары имя-значение в дополнение к любой из комбинаций входных аргументов в предыдущих синтаксисах. Например, можно указать схему декодирования, двоичную функцию потери ученика и уровень детализации.

Примеры

свернуть все

Границы классификации тестовых образцов модели ECOC

Открыть сценарий в реальном времени

Расчет полей классификации тестовой выборки модели ECOC с двоичными учащимися SVM.

Загрузите набор данных радужки Фишера. Укажите данные предиктора X, данные ответа Yи порядок классов в Y.

load fisheriris
X = meas;
Y = categorical(species);
classOrder = unique(Y); % Class order
rng(1)  % For reproducibility

Обучение модели ECOC с использованием двоичных классификаторов SVM. Укажите 30% -ную выборку, стандартизируйте предикторы с помощью шаблона SVM и укажите порядок классов.

t = templateSVM('Standardize',true);
PMdl = fitcecoc(X,Y,'Holdout',0.30,'Learners',t,'ClassNames',classOrder);
Mdl = PMdl.Trained{1};    % Extract trained, compact classifier

PMdl является ClassificationPartitionedECOC модель. Имеет свойство Trained, массив ячеек 1 на 1, содержащий CompactClassificationECOC модель, которую программное обеспечение обучило с использованием обучающего набора.

Рассчитайте пределы классификации тестовой пробы. Отображение распределения полей с помощью боксплота.

testInds = test(PMdl.Partition);   % Extract the test indices
XTest = X(testInds,:);
YTest = Y(testInds,:);
m = margin(Mdl,XTest,YTest);

boxplot(m)
title('Test-Sample Margins')

Figure contains an axes. The axes with title Test-Sample Margins contains 7 objects of type line.

Классификационный запас наблюдения представляет собой отрицательную потерю положительного класса минус максимальную отрицательную потерю отрицательного класса. Выберите классификаторы, дающие относительно большую маржу.

Выбор элементов модели ECOC путем проверки полей тестового образца

Открыть сценарий в реальном времени

Выбор элементов выполняется путем сравнения полей тестовой выборки из нескольких моделей. Исходя исключительно из этого сравнения, модель с наибольшим запасом является лучшей моделью.

Загрузите набор данных радужки Фишера. Укажите данные предиктора X, данные ответа Yи порядок классов в Y.

load fisheriris
X = meas;
Y = categorical(species);
classOrder = unique(Y); % Class order
rng(1); % For reproducibility

Разбейте набор данных на учебные и тестовые наборы. Укажите 30% образец хранения для тестирования.

Partition = cvpartition(Y,'Holdout',0.30);
testInds = test(Partition); % Indices for the test set
XTest = X(testInds,:);
YTest = Y(testInds,:);

Partition определяет раздел набора данных.

Определите два набора данных:

fullX содержит все четыре предиктора.
partX содержит только измерения чашелистиков.

fullX = X;
partX = X(:,1:2);

Обучение модели ECOC с использованием двоичных классификаторов SVM для каждого набора предикторов. Укажите определение раздела, стандартизируйте предикторы с помощью шаблона SVM и определите порядок классов.

t = templateSVM('Standardize',true);
fullPMdl = fitcecoc(fullX,Y,'CVPartition',Partition,'Learners',t,...
    'ClassNames',classOrder);
partPMdl = fitcecoc(partX,Y,'CVPartition',Partition,'Learners',t,...
    'ClassNames',classOrder);
fullMdl = fullPMdl.Trained{1};
partMdl = partPMdl.Trained{1};

fullPMdl и partPMdl являются ClassificationPartitionedECOC модели. Каждая модель имеет свойство Trained, массив ячеек 1 на 1, содержащий CompactClassificationECOC модель, которую программное обеспечение обучило с использованием соответствующего обучающего набора.

Рассчитайте поля тестовой выборки для каждого классификатора. Для каждой модели просмотрите распределение полей с помощью боксплота.

fullMargins = margin(fullMdl,XTest,YTest);
partMargins = margin(partMdl,XTest(:,1:2),YTest);

boxplot([fullMargins partMargins],'Labels',{'All Predictors','Two Predictors'})
title('Boxplots of Test-Sample Margins')

Figure contains an axes. The axes with title Boxplots of Test-Sample Margins contains 14 objects of type line.

Распределение маржи fullMdl находится выше и имеет меньшую изменчивость, чем распределение маржи partMdl.

Входные аргументы

свернуть все

`Mdl` - Полная или компактная многоклассная модель ECOC
`ClassificationECOC` объект модели | `CompactClassificationECOC` объект модели

Полная или компактная многоклассная модель ECOC, заданная как ClassificationECOC или CompactClassificationECOC объект модели.

Чтобы создать полную или компактную модель ECOC, см. раздел ClassificationECOC или CompactClassificationECOC.

`tbl` - Образцы данных
стол

Образец данных, указанный как таблица. Каждая строка tbl соответствует одному наблюдению, и каждый столбец соответствует одной прогнозирующей переменной. Дополнительно, tbl может содержать дополнительные столбцы для переменной ответа и весов наблюдения. tbl должен содержать все предикторы, используемые для обучения Mdl. Многозначные переменные и массивы ячеек, отличные от массивов ячеек символьных векторов, не допускаются.

Если вы тренируетесь Mdl с использованием образцов данных, содержащихся в table, затем входные данные для margin также должен находиться в таблице.

При обучении Mdl, предположим, что вы установили 'Standardize',true для объекта шаблона, указанного в 'Learners' аргумент пары имя-значение fitcecoc. В этом случае для соответствующего двоичного ученика j, программное обеспечение стандартизирует столбцы новых данных предиктора, используя соответствующие средства в Mdl.BinaryLearner{j}.Mu и стандартные отклонения в Mdl.BinaryLearner{j}.Sigma.

Типы данных: table

`ResponseVarName` - Имя переменной ответа
имя переменной в `tbl`

Имя переменной ответа, указанное как имя переменной в tbl. Если tbl содержит переменную ответа, используемую для обучения Mdl, то указывать не нужно ResponseVarName.

При указании ResponseVarName, то это необходимо сделать как вектор символа или скаляр строки. Например, если переменная ответа сохранена как tbl.y, затем укажите ResponseVarName как 'y'. В противном случае программа обрабатывает все столбцы tbl, в том числе tbl.y, как предикторы.

Переменная ответа должна быть категориальным, символьным или строковым массивом, логическим или числовым вектором или массивом ячеек символьных векторов. Если ответная переменная является символьным массивом, то каждый элемент должен соответствовать одной строке массива.

Типы данных: char | string

`X` - Данные предиктора
числовая матрица

Данные предиктора, заданные как числовая матрица.

Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одной переменной. Переменные в столбцах X должны совпадать с переменными, подготовившими классификатор Mdl.

Количество строк в X должно равняться количеству строк в Y.

Типы данных: double | single

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

Метки класса, указанные как категориальный, символьный или строковый массив, логический или числовой вектор или массив ячеек символьных векторов. Y должен иметь тот же тип данных, что и Mdl.ClassNames. (Программа рассматривает строковые массивы как массивы ячеек символьных векторов.)

Количество строк в Y должно равняться количеству строк в tbl или X.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: margin(Mdl,tbl,'y','BinaryLoss','exponential') задает экспоненциальную двоичную функцию потери ученика.

`'BinaryLoss'` - Двоичная функция потери ученика
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | дескриптор функции

Двоичная функция потери ученика, заданная как разделенная запятыми пара, состоящая из 'BinaryLoss' и встроенное имя или дескриптор функции потери.

В этой таблице описываются встроенные функции, где _yj - метка класса для конкретного двоичного ученика (в наборе {-1,1,0}), _sj - оценка для наблюдения j, а g (_yj, sj) - формула двоичных потерь.

Стоимость	Описание	Домен оценки	g (_yj, sj)
`'binodeviance'`	Биномиальное отклонение	(–∞,∞)	журнал [1 + exp (-_2yjsj) ]/[ 2log (2)]
`'exponential'`	Показательный	(–∞,∞)	exp (-_yjsj )/2
`'hamming'`	Хэмминг	[0,1] или (- ∞,∞)	[1 - знак (_yjsj) ]/2
`'hinge'`	Стержень	(–∞,∞)	max (0,1 - _yjsj )/2
`'linear'`	Линейный	(–∞,∞)	(1 - _yjsj )/2
`'logit'`	Логистический	(–∞,∞)	log [1 + exp (_-_yjsj) ]/[ 2log (2)]
`'quadratic'`	Квадратный	[0,1]	[1-yj (_2sj-1)] 2/2

Программное обеспечение нормализует двоичные потери так, чтобы потери были 0,5, когда _yj = 0. Кроме того, программное обеспечение вычисляет средние двоичные потери для каждого класса.

Например, для пользовательской двоичной функции потери customFunction, укажите его функциональный дескриптор 'BinaryLoss',@customFunction.
customFunction имеет следующую форму:
```
bLoss = customFunction(M,s)
```
где:
- M - матрица кодирования K-by-L, сохраненная в Mdl.CodingMatrix.
- s - вектор 1-by-L строк классификационных баллов.
- bLoss - потеря классификации. Этот скаляр агрегирует двоичные потери для каждого учащегося в конкретном классе. Например, можно использовать среднюю двоичную потерю для суммирования потерь по учащимся для каждого класса.
- K - количество классов.
- L - количество двоичных учеников.
Пример передачи пользовательской двоичной функции потери см. в разделе Прогнозирование меток тестовой выборки модели ECOC с использованием пользовательской двоичной функции потери.

Дефолт BinaryLoss значение зависит от диапазонов баллов, возвращаемых двоичными учениками. В этой таблице описаны некоторые значения по умолчанию BinaryLoss значения, основанные на данных допущениях.

Предположение	Значение по умолчанию
Все двоичные ученики являются SVM или линейными или классификационными моделями SVM.	`'hinge'`
Все бинарные учащиеся являются ансамблями, обученными `AdaboostM1` или `GentleBoost`.	`'exponential'`
Все бинарные учащиеся являются ансамблями, обученными `LogitBoost`.	`'binodeviance'`
Все двоичные ученики являются линейными или классификационными моделями ядра учащихся логистической регрессии. Или вы указываете, чтобы предсказать апостериорные вероятности класса путем установки `'FitPosterior',true` в `fitcecoc`.	`'quadratic'`

Чтобы проверить значение по умолчанию, используйте точечную нотацию для отображения BinaryLoss свойство обучаемой модели в командной строке.

Пример: 'BinaryLoss','binodeviance'

Типы данных: char | string | function_handle

`'Decoding'` - Схема декодирования
`'lossweighted'` (по умолчанию) | `'lossbased'`

Схема декодирования, которая агрегирует двоичные потери, заданная как разделенная запятыми пара, состоящая из 'Decoding' и 'lossweighted' или 'lossbased'. Дополнительные сведения см. в разделе Потери двоичного кода.

Пример: 'Decoding','lossbased'

`'ObservationsIn'` - Измерение наблюдения данных предиктора
`'rows'` (по умолчанию) | `'columns'`

Измерение наблюдения данных предиктора, указанное как пара, разделенная запятыми, состоящая из 'ObservationsIn' и 'columns' или 'rows'. Mdl.BinaryLearners должен содержать ClassificationLinear модели.

Примечание

Если вы ориентируете матрицу предиктора так, чтобы наблюдения соответствовали столбцам, и укажите 'ObservationsIn','columns', можно значительно сократить время выполнения. Невозможно указать 'ObservationsIn','columns' для данных предиктора в таблице.

`'Options'` - Варианты оценки
`[]` (по умолчанию) | массив структуры, возвращенный `statset`

Опции оценки, указанные как пара, разделенная запятыми, состоящая из 'Options' и массив структуры, возвращенный statset.

Для вызова параллельных вычислений:

Вам нужна лицензия Parallel Computing Toolbox™.
Определить 'Options',statset('UseParallel',true).

`'Verbose'` - Уровень детализации
`0` (по умолчанию) | `1`

Уровень детализации, указанный как разделенная запятыми пара, состоящая из 'Verbose' и 0 или 1. Verbose управляет количеством диагностических сообщений, отображаемых программой в окне команд.

Если Verbose является 0, то программное обеспечение не отображает диагностические сообщения. В противном случае программа отображает диагностические сообщения.

Пример: 'Verbose',1

Типы данных: single | double

Выходные аргументы

свернуть все

`m` - Границы классификации
числовой вектор столбца | числовая матрица

Поля классификации, возвращаемые в виде вектора числового столбца или числовой матрицы.

Если Mdl.BinaryLearners содержит ClassificationLinear модели, затем m - вектор n-by-L, где n - число наблюдений в X и L - количество уровней регуляризации в моделях линейной классификации (numel(Mdl.BinaryLearners{1}.Lambda)). Стоимость m(i,j) - поле наблюдения i для модели, обученной с использованием силы регуляризации Mdl.BinaryLearners{1}.Lambda(j).

В противном случае m - вектор столбца длиной n.

Подробнее

свернуть все

Двоичные потери

Двоичная потеря - это функция класса и оценки классификации, которая определяет, насколько хорошо двоичный ученик классифицирует наблюдение в классе.

Предположим, что:

_mkj - элемент (k, j) матрицы M дизайна кодирования (то есть код, соответствующий классу k двоичного учащегося j).
_sj - оценка двоичного ученика j для наблюдения.
g - функция двоичных потерь.
$\overset{}{k}$ ^ - прогнозируемый класс для наблюдения.

При декодировании на основе потерь [Escalera et al.] класс, производящий минимальную сумму двоичных потерь над двоичными учениками, определяет прогнозируемый класс наблюдения, то есть

$\overset{}{} \underset{}{}_{}^{}_{} k^=argmink∑j=1L'mkj'g (_{} mkj,_{} sj$ ).

При декодировании со взвешенными потерями [Escalera et al.] класс, производящий минимальное среднее двоичных потерь по двоичным ученикам, определяет прогнозируемый класс наблюдения, то есть

$\overset{}{} \underset{}{} \frac{_{}^{}_{} k^=argmink∑j=1L'mkj'g (_{} mkj,_{}}{{sj}_{)}^{}_{}}$ ∑j=1L'mkj|.

Allwein et al. предполагают, что взвешенное по потерям декодирование улучшает точность классификации, сохраняя значения потерь для всех классов в одном динамическом диапазоне.

Эта таблица суммирует поддерживаемые функции потерь, где _yj - метка класса для конкретного двоичного ученика (в наборе {-1,1,0}), _sj - оценка для наблюдения j, и g (_yj, sj).

Стоимость	Описание	Домен оценки	g (_yj, sj)
`'binodeviance'`	Биномиальное отклонение	(–∞,∞)	журнал [1 + exp (-_2yjsj) ]/[ 2log (2)]
`'exponential'`	Показательный	(–∞,∞)	exp (-_yjsj )/2
`'hamming'`	Хэмминг	[0,1] или (- ∞,∞)	[1 - знак (_yjsj) ]/2
`'hinge'`	Стержень	(–∞,∞)	max (0,1 - _yjsj )/2
`'linear'`	Линейный	(–∞,∞)	(1 - _yjsj )/2
`'logit'`	Логистический	(–∞,∞)	log [1 + exp (_-_yjsj) ]/[ 2log (2)]
`'quadratic'`	Квадратный	[0,1]	[1-yj (_2sj-1)] 2/2

Программное обеспечение нормализует двоичные потери так, что потери составляют 0,5, когда _yj = 0, и агрегирует, используя среднее значение двоичных учеников [Allwein et al.].

Не путайте бинарную потерю с общей классификационной потерей (указанной 'LossFun' аргумент пары имя-значение loss и predict объектные функции), который измеряет, насколько хорошо классификатор ECOC работает в целом.

Маржа классификации

Запас классификации для каждого наблюдения представляет собой разницу между отрицательными потерями для истинного класса и максимальными отрицательными потерями среди ложных классов. Если поля находятся в одной шкале, то они служат мерой достоверности классификации. Среди нескольких классификаторов лучше те, которые дают большую маржу.

Совет

Чтобы сравнить поля или края нескольких классификаторов ECOC, используйте объекты шаблона для определения общей функции преобразования баллов среди классификаторов во время обучения.

Ссылки

[1] Allwein, E., R. Schapire и Y. Singer. «Сокращение мультиклассов до двоичных: унифицирующий подход к classiﬁers маржи». Журнал исследований машинного обучения. Том 1, 2000, стр. 113-141.

[2] Эскалера, С., О. Пужоль и П. Радева. «Процесс декодирования в выходных кодах с тройной коррекцией ошибок». Транзакции IEEE по анализу шаблонов и машинному интеллекту. Том 32, выпуск 7, 2010, стр. 120-134.

[3] Эскалера, С., О. Пужоль и П. Радева. «Разделяемость троичных кодов для разреженных конструкций выходных кодов с исправлением ошибок». Повторная запись шаблона. Том 30, выпуск 3, 2009, стр. 285-297.

Расширенные возможности

Массивы высокого уровня
Вычислять с массивами, в которых больше строк, чем в памяти.

Примечания и ограничения по использованию:

margin не поддерживает высокий table данные при Mdl содержит ядро или линейные двоичные ученики.

Дополнительные сведения см. в разделе Массивы Tall.

Автоматическая параллельная поддержка
Ускорение кода за счет автоматического параллельного выполнения вычислений с помощью Parallel Computing Toolbox™.

Для параллельного выполнения укажите 'Options' аргумент name-value в вызове этой функции и установка 'UseParallel' поле структуры опций для true использование statset.

Например: 'Options',statset('UseParallel',true)

Дополнительные сведения о параллельных вычислениях см. в разделе Запуск функций MATLAB с автоматической параллельной поддержкой (панель инструментов параллельных вычислений).

См. также

Темы

Представлен в R2014b

Документация

край

Синтаксис

Описание

Примеры

Границы классификации тестовых образцов модели ECOC

Выбор элементов модели ECOC путем проверки полей тестового образца

Входные аргументы

`Mdl` - Полная или компактная многоклассная модель ECOC
`ClassificationECOC` объект модели | `CompactClassificationECOC` объект модели

`tbl` - Образцы данных
стол

`ResponseVarName` - Имя переменной ответа
имя переменной в `tbl`

`X` - Данные предиктора
числовая матрица

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

Аргументы пары «имя-значение»

`'BinaryLoss'` - Двоичная функция потери ученика
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | дескриптор функции

`'Decoding'` - Схема декодирования
`'lossweighted'` (по умолчанию) | `'lossbased'`

`'ObservationsIn'` - Измерение наблюдения данных предиктора
`'rows'` (по умолчанию) | `'columns'`

`'Options'` - Варианты оценки
`[]` (по умолчанию) | массив структуры, возвращенный `statset`

`'Verbose'` - Уровень детализации
`0` (по умолчанию) | `1`

Выходные аргументы

`m` - Границы классификации
числовой вектор столбца | числовая матрица

Подробнее

Двоичные потери

Маржа классификации

Совет

Ссылки

Расширенные возможности

Массивы высокого уровня
Вычислять с массивами, в которых больше строк, чем в памяти.

Автоматическая параллельная поддержка
Ускорение кода за счет автоматического параллельного выполнения вычислений с помощью Parallel Computing Toolbox™.

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

край

Синтаксис

Описание

Примеры

Границы классификации тестовых образцов модели ECOC

Выбор элементов модели ECOC путем проверки полей тестового образца

Входные аргументы

Mdl - Полная или компактная многоклассная модель ECOC ClassificationECOC объект модели | CompactClassificationECOC объект модели

tbl - Образцы данных стол

ResponseVarName - Имя переменной ответа имя переменной в tbl

X - Данные предиктора числовая матрица

Y - Этикетки классов категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

Аргументы пары «имя-значение»

'BinaryLoss' - Двоичная функция потери ученика 'hamming' | 'linear' | 'logit' | 'exponential' | 'binodeviance' | 'hinge' | 'quadratic' | дескриптор функции

'Decoding' - Схема декодирования 'lossweighted' (по умолчанию) | 'lossbased'

'ObservationsIn' - Измерение наблюдения данных предиктора 'rows' (по умолчанию) | 'columns'

'Options' - Варианты оценки [] (по умолчанию) | массив структуры, возвращенный statset

'Verbose' - Уровень детализации 0 (по умолчанию) | 1

Выходные аргументы

m - Границы классификации числовой вектор столбца | числовая матрица

Подробнее

Двоичные потери

Маржа классификации

Совет

Ссылки

Расширенные возможности

Массивы высокого уровня Вычислять с массивами, в которых больше строк, чем в памяти.

Автоматическая параллельная поддержка Ускорение кода за счет автоматического параллельного выполнения вычислений с помощью Parallel Computing Toolbox™.

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`Mdl` - Полная или компактная многоклассная модель ECOC
`ClassificationECOC` объект модели | `CompactClassificationECOC` объект модели

`tbl` - Образцы данных
стол

`ResponseVarName` - Имя переменной ответа
имя переменной в `tbl`

`X` - Данные предиктора
числовая матрица

`Y` - Этикетки классов
категориальный массив | символьный массив | строковый массив | логический вектор | числовой вектор | клеточный массив символьных векторов

`'BinaryLoss'` - Двоичная функция потери ученика
`'hamming'` | `'linear'` | `'logit'` | `'exponential'` | `'binodeviance'` | `'hinge'` | `'quadratic'` | дескриптор функции

`'Decoding'` - Схема декодирования
`'lossweighted'` (по умолчанию) | `'lossbased'`

`'ObservationsIn'` - Измерение наблюдения данных предиктора
`'rows'` (по умолчанию) | `'columns'`

`'Options'` - Варианты оценки
`[]` (по умолчанию) | массив структуры, возвращенный `statset`

`'Verbose'` - Уровень детализации
`0` (по умолчанию) | `1`

`m` - Границы классификации
числовой вектор столбца | числовая матрица

Массивы высокого уровня
Вычислять с массивами, в которых больше строк, чем в памяти.

Автоматическая параллельная поддержка
Ускорение кода за счет автоматического параллельного выполнения вычислений с помощью Parallel Computing Toolbox™.