ClassificationPartitionedLinearECOC

Пакет: classreg.learning.partition
Суперклассы: ClassificationPartitionedModel

Перекрестная подтвержденная линейная выходная модель кода с коррекцией ошибок для классификации мультиклассов высоко-размерных данных

расширьте все на странице

Описание

ClassificationPartitionedLinearECOC набор моделей выходных кодов с коррекцией ошибок (ECOC), состоявших из линейных моделей классификации, обученных на перекрестных подтвержденных сгибах. Оцените качество классификации перекрестной проверкой с помощью одной или нескольких функций “kfold”: kfoldPredict, kfoldLoss, kfoldMargin, и kfoldEdge.

Каждый “kfold” метод использует модели, обученные на, окутывают наблюдения, чтобы предсказать ответ для наблюдений из сгиба. Например, предположите, что вы перекрестный подтверждаете использование пяти сгибов. В этом случае программное обеспечение случайным образом присваивает каждое наблюдение в пять примерно групп равного размера. training fold содержит четыре из групп (то есть, примерно 4/5 данных), и test fold содержит другую группу (то есть, примерно 1/5 данных). В этом случае перекрестная проверка продолжает можно следующим образом.

Программное обеспечение обучает первую модель (сохраненный в CVMdl.Trained{1}) использование наблюдений в последних четырех группах и резервах наблюдения в первой группе для валидации.
Программное обеспечение обучает вторую модель (сохраненный в CVMdl.Trained{2}) использование наблюдений в первой группе и последних трех группах. Программное обеспечение резервирует наблюдения во второй группе для валидации.
Программное обеспечение продолжает подобным способом для третьих, четвертых, и пятых моделей.

Если вы подтверждаете путем вызова kfoldPredict, это вычисляет предсказания для наблюдений в группе 1, использующей первую модель, группу 2 для второй модели, и так далее. Короче говоря, программное обеспечение оценивает ответ для каждого наблюдения с помощью модели, обученной без того наблюдения.

Примечание

ClassificationPartitionedLinearECOC объекты модели не хранят набор данных предиктора.

Конструкция

CVMdl = fitcecoc(X,Y,'Learners',t,Name,Value) возвращает перекрестную подтвержденную, линейную модель ECOC когда:

t 'Linear' или объект шаблона, возвращенный templateLinear.
Name один из 'CrossVal', 'CVPartition', 'Holdout', или 'KFold'.

Для получения дополнительной информации смотрите fitcecoc.

Свойства

развернуть все

Свойства перекрестной проверки

`CrossValidatedModel` — Перекрестное подтвержденное имя модели
символьный вектор

Перекрестное подтвержденное имя модели в виде вектора символов.

Например, 'ECOC' задает перекрестную подтвержденную модель ECOC.

Типы данных: char

`KFold` — Количество перекрестных подтвержденных сгибов
положительное целое число

Количество перекрестных подтвержденных сгибов в виде положительного целого числа.

Типы данных: double

`ModelParameters` — Значения параметров перекрестной проверки
объект

Значения параметров перекрестной проверки, например, значения аргумента пары "имя-значение" раньше перекрестный подтверждали классификатор ECOC в виде объекта. ModelParameters не содержит оцененные параметры.

Доступ к свойствам ModelParameters использование записи через точку.

`NumObservations` — Количество наблюдений
положительный числовой скаляр

Количество наблюдений в обучающих данных в виде положительного числового скаляра.

Типы данных: double

`Partition` — Раздел данных
`cvpartition` модель

Раздел данных, указывающий, как программное обеспечение разделяет данные в сгибы перекрестной проверки в виде cvpartition модель.

`Trained` — Компактные классификаторы обучены на сгибах перекрестной проверки
массив ячеек `CompactClassificationECOC` модели

Компактные классификаторы, обученные на перекрестной проверке, сворачиваются в виде массива ячеек CompactClassificationECOC модели. Trained имеет ячейки k, где k является количеством сгибов.

Типы данных: cell

`W` — Веса наблюдения
числовой вектор

Веса наблюдения раньше перекрестный подтверждали модель в виде числового вектора. W имеет NumObservations элементы.

Программное обеспечение нормирует веса, используемые для обучения так, чтобы sum(W,'omitnan') 1.

Типы данных: single | double

`Y` — Наблюдаемые метки класса
категориальный массив | символьный массив | логический вектор | вектор из числовых значений | массив ячеек из символьных векторов

Наблюдаемые метки класса раньше перекрестный подтверждали модель в виде категориального или символьного массива, логического или числового вектора или массива ячеек из символьных векторов. Y имеет NumObservations элементами, и является совпадающий тип данных как входной параметр Y то, что вы передали fitcecoc перекрестный подтверждать модель. (Программное обеспечение обрабатывает строковые массивы как массивы ячеек из символьных векторов.)

Каждая строка Y представляет наблюдаемую классификацию наблюдения в данных о предикторе.

Свойства ECOC

`BinaryLoss` — Бинарная функция потерь ученика
`'binodeviance'` | `'exponential'` | `'hamming'` | `'hinge'` | `'linear'` | `'logit'` | `'quadratic'`

Бинарная функция потерь ученика в виде вектора символов, представляющего имя функции потерь.

Если вы обучаете использующих бинарных учеников, которые используют различные функции потерь, то программное обеспечение устанавливает BinaryLoss к 'hamming'. Чтобы потенциально увеличить точность, задайте бинарную функцию потерь кроме значения по умолчанию во время предсказания или расчета потерь при помощи 'BinaryLoss' аргумент пары "имя-значение" predict или loss.

Типы данных: char

`BinaryY` — Бинарные метки класса ученика
числовая матрица | `[]`

Бинарный класс ученика помечает в виде числовой матрицы или [].

Если матрица кодирования является тем же самым через сгибы, то BinaryY NumObservations- L матрица, где L является количеством бинарных учеников (size(CodingMatrix,2)).

Элементы BinaryY -1, 0, или 1, и значение соответствует дихотомическому присвоению класса. Эта таблица описывает как ученик j наблюдение присвоений k к дихотомическому классу, соответствующему значению BinaryY(k,j).

Значение	Дихотомическое присвоение класса
–1	Ученик `j` наблюдение присвоений `k` к отрицательному классу.
0	Перед обучением, ученик `j` удаляет наблюдение `k` от набора данных.
1	Ученик `j` наблюдение присвоений `k` к положительному классу.

Если матрица кодирования варьируется через сгибы, то BinaryY isempty).

Типы данных: double

`CodingMatrix` — Коды, задающие присвоения класса
числовая матрица | `[]`

Коды, задающие присвоения класса для бинарных учеников в виде числовой матрицы или [].

Если матрица кодирования является тем же самым через сгибы, то CodingMatrix K-by-L матрица. K является количеством классов, и L является количеством бинарных учеников.

Элементы CodingMatrix -1, 0, или 1, и значение соответствует дихотомическому присвоению класса. Эта таблица описывает как ученик j наблюдения присвоений в классе i к дихотомическому классу, соответствующему значению CodingMatrix(i,j).

Значение	Дихотомическое присвоение класса
–1	Ученик `j` наблюдения присвоений в классе `i` к отрицательному классу.
0	Перед обучением, ученик `j` удаляет наблюдения в классе `i` от набора данных.
1	Ученик `j` наблюдения присвоений в классе `i` к положительному классу.

Если матрица кодирования варьируется через сгибы, то CodingMatrix isempty). Получите матрицу кодирования для каждого сгиба с помощью Trained свойство. Например, CVMdl.Trained{1}.CodingMatrix матрица кодирования в первом сгибе перекрестной подтвержденной модели ECOC CVMdl.

Типы данных: double | single | int8 | int16 | int32 | int64

Другие свойства классификации

`CategoricalPredictors` — Категориальные индексы предиктора
вектор из положительных целых чисел | `[]`

Категориальные индексы предиктора в виде вектора из положительных целых чисел. CategoricalPredictors содержит значения индекса, указывающие, что соответствующие предикторы являются категориальными. Значения индекса между 1 и p, где p количество предикторов, используемых, чтобы обучить модель. Если ни один из предикторов не является категориальным, то это свойство пусто ([]).

Типы данных: single | double

`ClassNames` — Уникальные метки класса
категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

Уникальные метки класса, используемые в обучении в виде категориального или символьного массива, логического или числового вектора или массива ячеек из символьных векторов. ClassNames имеет совпадающий тип данных, когда класс маркирует Y. (Программное обеспечение обрабатывает строковые массивы как массивы ячеек из символьных векторов.) ClassNames также определяет порядок класса.

`Cost` — Затраты Misclassification
квадратная числовая матрица

Это свойство доступно только для чтения.

Misclassification стоит в виде квадратной числовой матрицы. Cost имеет строки и столбцы K, где K является количеством классов.

Cost(i,j) стоимость классификации точки в класс j если его истинным классом является i. Порядок строк и столбцов Cost соответствует порядку классов в ClassNames.

fitcecoc включает затраты misclassification по-другому среди различных типов бинарных учеников.

Типы данных: double

`PredictorNames` — Имена предиктора
массив ячеек из символьных векторов

Предиктор называет в порядке их внешнего вида в данных о предикторе в виде массива ячеек из символьных векторов. Длина PredictorNames равно количеству переменных в обучающих данных X или Tbl используемый в качестве переменных предикторов.

Типы данных: cell

`Prior` — Предшествующие вероятности класса
числовой вектор

Это свойство доступно только для чтения.

Предшествующие вероятности класса в виде числового вектора. Prior имеет столько же элементов сколько количество классов в ClassNames, и порядок элементов соответствует порядку классов в ClassNames.

fitcecoc включает затраты misclassification по-другому среди различных типов бинарных учеников.

Типы данных: double

`ResponseName` — Имя переменной отклика
символьный вектор

Имя переменной отклика в виде вектора символов.

Типы данных: char

`ScoreTransform` — Выиграйте функцию преобразования
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Выиграйте функцию преобразования, чтобы примениться к предсказанным баллам в виде имени функции или указателя на функцию.

Для линейных моделей классификации и перед преобразованием, предсказанной классификационной оценкой для наблюдения x (вектор-строка) является f (x) = x β + b, где β и b соответствуют Mdl.Beta и Mdl.Bias, соответственно.

Чтобы изменить преобразование счета функционируют к, например, function, используйте запись через точку.

Для встроенной функции введите этот код и замените function со значением в таблице.

Mdl.ScoreTransform = 'function';

Значение	Описание
`"doublelogit"`	1/(1 + e^–2x)
`"invlogit"`	журнал (x / (1 – x))
`"ismax"`	Устанавливает счет к классу с самым большим счетом к 1 и устанавливает музыку ко всем другим классам к 0
`"logit"`	1/(1 + e^–x)
`"none"` или `"identity"`	x (никакое преобразование)
`"sign"`	– 1 для x <0 0 для x = 0 1 для x> 0
`"symmetric"`	2x – 1
`"symmetricismax"`	Устанавливает счет к классу с самым большим счетом к 1 и устанавливает музыку ко всем другим классам к –1
`"symmetriclogit"`	2/(1 + e^–x) – 1

Для MATLAB^® функция или функция, которую вы задаете, вводит свой указатель на функцию.
```
Mdl.ScoreTransform = @function;
```
function должен принять матрицу исходной музыки к каждому классу, и затем возвратить матричное представление одного размера преобразованной музыки к каждому классу.

Типы данных: char | function_handle

Методы

kfoldEdge	Ребро классификации для наблюдений, не используемых для обучения
kfoldLoss	Потеря классификации для наблюдений, не используемых в обучении
kfoldMargin	Поля классификации для наблюдений, не используемых в обучении
kfoldPredict	Предскажите метки для наблюдений, не используемых для обучения

Копировать семантику

Значение. Чтобы узнать, как классы значений влияют на операции копирования, см. раздел "Копирование объектов".

Примеры

свернуть все

Создайте перекрестный подтвержденный мультикласс линейная модель классификации

Попробовать в MATLAB

Загрузите набор данных NLP.

load nlpdata

X разреженная матрица данных о предикторе и Y категориальный вектор из меток класса.

Перекрестный подтвердите мультикласс, линейная модель классификации, которая может идентифицировать, от которого тулбокс MATLAB® веб-страница документации на основе количеств слов на странице.

rng(1); % For reproducibility 
CVMdl = fitcecoc(X,Y,'Learners','linear','CrossVal','on')

CVMdl = 
  ClassificationPartitionedLinearECOC
    CrossValidatedModel: 'LinearECOC'
           ResponseName: 'Y'
        NumObservations: 31572
                  KFold: 10
              Partition: [1x1 cvpartition]
             ClassNames: [comm    dsp    ecoder    fixedpoint    ...    ]
         ScoreTransform: 'none'


  Properties, Methods

CVMdl ClassificationPartitionedLinearECOC перекрестная подтвержденная модель. Поскольку fitcecoc реализует 10-кратную перекрестную проверку по умолчанию, CVMdl.Trained содержит вектор ячейки 10 на 1 из десяти CompactClassificationECOC модели, которые содержат результаты учебных моделей ECOC, состоявших из двоичного файла, линейных моделей классификации для каждого из сгибов.

Оцените метки для наблюдений из сгиба и оцените ошибку обобщения путем передачи CVMdl к kfoldPredict и kfoldLoss, соответственно.

oofLabels = kfoldPredict(CVMdl);
ge = kfoldLoss(CVMdl)

ge = 0.0958

Предполагаемая ошибка обобщения составляет приблизительно 10% неправильно классифицированные наблюдения.

Чтобы улучшить ошибку обобщения, попытайтесь задать другой решатель, такой как LBFGS. Чтобы изменить опции по умолчанию когда учебные модели ECOC, состоявшие из линейных моделей классификации, создайте линейный шаблон модели классификации с помощью templateLinear, и затем передайте шаблон fitcecoc.

Найдите хороший штраф лассо Используя перекрестную проверку

Попробовать в MATLAB

Чтобы определить хорошую силу штрафа лассо для модели ECOC, состоявшей из линейных моделей классификации, которые используют учеников логистической регрессии, реализуйте 5-кратную перекрестную проверку.

Загрузите набор данных NLP.

load nlpdata

X разреженная матрица данных о предикторе и Y категориальный вектор из меток класса.

Для простоты используйте метку 'другие' для всех наблюдений в Y это не 'simulink', 'dsp', или 'comm'.

Y(~(ismember(Y,{'simulink','dsp','comm'}))) = 'others';

Создайте набор 11 логарифмически распределенных сильных мест регуляризации от $1 0^{- 7}$ через $1 0^{- 2}$ .

Lambda = logspace(-7,-2,11);

Создайте линейный шаблон модели классификации, который задает, чтобы использовать учеников логистической регрессии, использовать штрафы лассо с сильными местами в Lambda, обучите использование SpaRSA и понизьте допуск на градиент целевой функции к 1e-8.

t = templateLinear('Learner','logistic','Solver','sparsa',...
    'Regularization','lasso','Lambda',Lambda,'GradientTolerance',1e-8);

Перекрестный подтвердите модели. Чтобы увеличить скорость выполнения, транспонируйте данные о предикторе и укажите, что наблюдения находятся в столбцах.

X = X'; 
rng(10); % For reproducibility
CVMdl = fitcecoc(X,Y,'Learners',t,'ObservationsIn','columns','KFold',5);

CVMdl ClassificationPartitionedLinearECOC модель.

Разделите CVMdl, и каждая модель в нем.

numECOCModels = numel(CVMdl.Trained)

numECOCModels = 5

ECOCMdl1 = CVMdl.Trained{1}

ECOCMdl1 = 
  CompactClassificationECOC
      ResponseName: 'Y'
        ClassNames: [comm    dsp    simulink    others]
    ScoreTransform: 'none'
    BinaryLearners: {6×1 cell}
      CodingMatrix: [4×6 double]


  Properties, Methods

numCLModels = numel(ECOCMdl1.BinaryLearners)

numCLModels = 6

CLMdl1 = ECOCMdl1.BinaryLearners{1}

CLMdl1 = 
  ClassificationLinear
      ResponseName: 'Y'
        ClassNames: [-1 1]
    ScoreTransform: 'logit'
              Beta: [34023×11 double]
              Bias: [-0.3169 -0.3169 -0.3168 -0.3168 -0.3168 -0.3167 -0.1725 -0.0805 -0.1762 -0.3450 -0.5174]
            Lambda: [1.0000e-07 3.1623e-07 1.0000e-06 3.1623e-06 1.0000e-05 3.1623e-05 1.0000e-04 3.1623e-04 1.0000e-03 0.0032 0.0100]
           Learner: 'logistic'


  Properties, Methods

Поскольку fitcecoc реализует 5-кратную перекрестную проверку, CVMdl содержит массив ячеек 5 на 1 CompactClassificationECOC модели, которые программное обеспечение обучает на каждом сгибе. BinaryLearners свойство каждого CompactClassificationECOC модель содержит ClassificationLinear модели. Количество ClassificationLinear модели в каждой компактной модели ECOC зависят от количества отличных меток и кодирующий проект. Поскольку Lambda последовательность сильных мест регуляризации, можно думать о CLMdl1 как 11 моделей, один для каждой силы регуляризации в Lambda.

Определите, как хорошо модели делают вывод путем графического вывода средних значений 5-кратной ошибки классификации для каждой силы регуляризации. Идентифицируйте силу регуляризации, которая минимизирует ошибку обобщения по сетке.

ce = kfoldLoss(CVMdl);
figure;
plot(log10(Lambda),log10(ce))
[~,minCEIdx] = min(ce);
minLambda = Lambda(minCEIdx);
hold on
plot(log10(minLambda),log10(ce(minCEIdx)),'ro');
ylabel('log_{10} 5-fold classification error')
xlabel('log_{10} Lambda')
legend('MSE','Min classification error')
hold off

Обучите модель ECOC, состоявшую из линейной модели классификации использование целого набора данных, и задайте минимальную силу регуляризации.

t = templateLinear('Learner','logistic','Solver','sparsa',...
    'Regularization','lasso','Lambda',minLambda,'GradientTolerance',1e-8);
MdlFinal = fitcecoc(X,Y,'Learners',t,'ObservationsIn','columns');

Чтобы оценить метки для новых наблюдений, передайте MdlFinal и новые данные к predict.

Введенный в R2016a

Документация Statistics and Machine Learning Toolbox

Поддержка

Сообщество Экспонента

Документация

ClassificationPartitionedLinearECOC

Описание

Конструкция

Свойства

CrossValidatedModel — Перекрестное подтвержденное имя модели символьный вектор

KFold — Количество перекрестных подтвержденных сгибов положительное целое число

ModelParameters — Значения параметров перекрестной проверки объект

NumObservations — Количество наблюдений положительный числовой скаляр

Partition — Раздел данных cvpartition модель

Trained — Компактные классификаторы обучены на сгибах перекрестной проверки массив ячеек CompactClassificationECOC модели

W — Веса наблюдения числовой вектор

Y — Наблюдаемые метки класса категориальный массив | символьный массив | логический вектор | вектор из числовых значений | массив ячеек из символьных векторов

BinaryLoss — Бинарная функция потерь ученика 'binodeviance' | 'exponential' | 'hamming' | 'hinge' | 'linear' | 'logit' | 'quadratic'

BinaryY — Бинарные метки класса ученика числовая матрица | []

CodingMatrix — Коды, задающие присвоения класса числовая матрица | []

CategoricalPredictors — Категориальные индексы предиктора вектор из положительных целых чисел | []

ClassNames — Уникальные метки класса категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

Cost — Затраты Misclassification квадратная числовая матрица

PredictorNames — Имена предиктора массив ячеек из символьных векторов

Prior — Предшествующие вероятности класса числовой вектор

ResponseName — Имя переменной отклика символьный вектор

ScoreTransform — Выиграйте функцию преобразования 'doublelogit' | 'invlogit' | 'ismax' | 'logit' | 'none' | указатель на функцию |...

Методы

Копировать семантику

Примеры

Создайте перекрестный подтвержденный мультикласс линейная модель классификации

Найдите хороший штраф лассо Используя перекрестную проверку

Смотрите также

Документация Statistics and Machine Learning Toolbox

Поддержка

`CrossValidatedModel` — Перекрестное подтвержденное имя модели
символьный вектор

`KFold` — Количество перекрестных подтвержденных сгибов
положительное целое число

`ModelParameters` — Значения параметров перекрестной проверки
объект

`NumObservations` — Количество наблюдений
положительный числовой скаляр

`Partition` — Раздел данных
`cvpartition` модель

`Trained` — Компактные классификаторы обучены на сгибах перекрестной проверки
массив ячеек `CompactClassificationECOC` модели

`W` — Веса наблюдения
числовой вектор

`Y` — Наблюдаемые метки класса
категориальный массив | символьный массив | логический вектор | вектор из числовых значений | массив ячеек из символьных векторов

`BinaryLoss` — Бинарная функция потерь ученика
`'binodeviance'` | `'exponential'` | `'hamming'` | `'hinge'` | `'linear'` | `'logit'` | `'quadratic'`

`BinaryY` — Бинарные метки класса ученика
числовая матрица | `[]`

`CodingMatrix` — Коды, задающие присвоения класса
числовая матрица | `[]`

`CategoricalPredictors` — Категориальные индексы предиктора
вектор из положительных целых чисел | `[]`

`ClassNames` — Уникальные метки класса
категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

`Cost` — Затраты Misclassification
квадратная числовая матрица

`PredictorNames` — Имена предиктора
массив ячеек из символьных векторов

`Prior` — Предшествующие вероятности класса
числовой вектор

`ResponseName` — Имя переменной отклика
символьный вектор

`ScoreTransform` — Выиграйте функцию преобразования
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...