ClassificationPartitionedLinear

Пакет: classreg.learning.partition
Суперклассы: ClassificationPartitionedModel

Перекрестная подтвержденная линейная модель для бинарной классификации высоко-размерных данных

Описание

ClassificationPartitionedLinear является набором линейных моделей классификации, обученных на перекрестных подтвержденных сгибах. Чтобы получить перекрестную подтвержденную, линейную модель классификации, используйте fitclinear и задайте одну из опций перекрестной проверки. Можно оценить качество классификации, или как хорошо линейная модель классификации делает вывод, с помощью одного или нескольких из этих “kfold” методов: kfoldPredict, kfoldLoss, kfoldMargin и kfoldEdge.

Каждый “kfold” метод использует модели, обученные на, окутывают наблюдения, чтобы предсказать ответ для наблюдений из сгиба. Например, предположите, что вы перекрестный подтверждаете использование пяти сгибов. В этом случае программное обеспечение случайным образом присваивает каждое наблюдение в пять примерно одинаково размерных групп. training fold содержит четыре из групп (то есть, примерно 4/5 данных), и test fold содержит другую группу (то есть, примерно 1/5 данных). В этом случае перекрестная проверка продолжает можно следующим образом:

Программное обеспечение обучает первую модель (сохраненный в CVMdl.Trained{1}) использование наблюдений в последних четырех группах и резервирует наблюдения в первой группе для валидации.
Программное обеспечение обучает вторую модель, которая хранится в CVMdl.Trained{2}, с помощью наблюдений в первой группе, и продержитесь три группы. Программное обеспечение резервирует наблюдения во второй группе для валидации.
Программное обеспечение продолжает подобным способом для третьего через пятые модели.

Если вы подтверждаете путем вызова kfoldPredict, он вычисляет прогнозы для наблюдений в группе 1, использующей первую модель, группу 2 для второй модели, и так далее. Короче говоря, программное обеспечение оценивает ответ для каждого наблюдения с помощью модели, обученной без того наблюдения.

Примечание

Объекты модели ClassificationPartitionedLinear не хранят набор данных предиктора.

Конструкция

CVMdl = fitclinear(X,Y,Name,Value) создает перекрестную подтвержденную, линейную модель классификации, когда Name является или 'CrossVal', 'CVPartition', 'Holdout' или 'KFold'. Для получения дополнительной информации смотрите fitclinear.

Свойства

развернуть все

Свойства перекрестной проверки

`CrossValidatedModel` — Перекрестное подтвержденное имя модели
символьный вектор

Перекрестное подтвержденное имя модели, заданное как вектор символов.

Например, 'Linear' задает перекрестную подтвержденную линейную модель для бинарной классификации или регрессии.

Типы данных: char

`KFold` — Количество перекрестных подтвержденных сгибов
положительное целое число

Количество перекрестных подтвержденных сгибов, заданных как положительное целое число.

Типы данных: double

`ModelParameters` — Значения параметров перекрестной проверки
объект

Значения параметров перекрестной проверки, например, значения аргумента пары "имя-значение" раньше перекрестный подтверждали линейную модель, заданную как объект. ModelParameters не содержит оцененные параметры.

Доступ к свойствам ModelParameters с помощью записи через точку.

`NumObservations` — Количество наблюдений
положительный числовой скаляр

Количество наблюдений в данных тренировки, заданных в виде положительного числа.

Типы данных: double

`Раздел` Раздел данных
Модель `cvpartition`

Раздел данных, указывающий, как программное обеспечение разделяет данные в сгибы перекрестной проверки, заданные как модель cvpartition.

`Trained` — Линейные модели классификации обучены на сгибах перекрестной проверки
массив ячеек объектов модели `ClassificationLinear`

Линейные модели классификации обучены на сгибах перекрестной проверки, заданных как массив ячеек моделей ClassificationLinear. Trained имеет ячейки k, где k является количеством сгибов.

Типы данных: cell

`W` Веса наблюдения
числовой вектор

Веса наблюдения раньше перекрестный подтверждали модель, заданную как числовой вектор. W имеет элементы NumObservations.

Программное обеспечение нормирует W так, чтобы веса для наблюдений в конкретном классе суммировали до априорной вероятности того класса.

Типы данных: single | double

`Y` Наблюдаемые метки класса
категориальный массив | символьный массив | логический вектор | вектор числовых значений | массив ячеек из символьных векторов

Наблюдаемые метки класса раньше перекрестный подтверждали модель, заданную как категориальное или символьный массив, логический или числовой вектор или массив ячеек из символьных векторов. Y имеет элементы NumObservations и является совпадающим типом данных как входным параметром Y, который вы передали fitclinear, чтобы перекрестный подтвердить модель. (Программное обеспечение обрабатывает строковые массивы как массивы ячеек из символьных векторов.)

Каждая строка Y представляет наблюдаемую классификацию соответствующего наблюдения в данных о предикторе.

Другие свойства классификации

`CategoricalPredictors` — Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

Категориальные индексы предиктора, заданные как вектор положительных целых чисел. CategoricalPredictors содержит индексные значения, соответствующие столбцам данных о предикторе, которые содержат категориальные предикторы. Если ни один из предикторов не является категориальным, то это свойство пусто ([]).

Типы данных: single | double

`ClassNames` — Уникальные метки класса
категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

Уникальные метки класса используются в обучении, заданном как категориальное или символьный массив, логический или числовой вектор или массив ячеек из символьных векторов. ClassNames имеет совпадающий тип данных, когда класс маркирует Y. (Программное обеспечение обрабатывает строковые массивы как массивы ячеек из символьных векторов.) ClassNames также определяет порядок класса.

`Cost` — Затраты Misclassification
квадратная числовая матрица

Это свойство доступно только для чтения.

Затраты Misclassification, заданные как квадратная числовая матрица. Cost имеет строки и столбцы K, где K является количеством классов.

Cost(i,j) является стоимостью классификации точки в класс j, если его истинным классом является i. Порядок строк и столбцов Cost соответствует порядку классов в ClassNames.

Типы данных: double

`PredictorNames` — Имена предиктора
массив ячеек из символьных векторов

Имена предиктора в их порядке внешнего вида в данных о предикторе раньше обучали CVMdl, заданный как массив ячеек из символьных векторов. PredictorNames имеет длину, равную количеству переменных прогноза в данных о предикторе.

Типы данных: cell

`Prior` — Предшествующие вероятности класса
числовой вектор

Это свойство доступно только для чтения.

Предшествующие вероятности класса, заданные как числовой вектор. Prior имеет столько же элементов сколько количество классов в ClassNames, и порядок элементов соответствует порядку классов в ClassNames.

fitcecoc включает затраты misclassification по-другому среди различных типов бинарных учеников.

Типы данных: double

`ResponseName` — Имя переменной отклика
символьный вектор

Имя переменной отклика, заданное как вектор символов.

Типы данных: char

`ScoreTransform` — Выиграйте функцию преобразования
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Выиграйте функцию преобразования, чтобы примениться к предсказанным очкам, заданным как имя функции или указатель на функцию.

Для линейных моделей классификации и перед преобразованием, предсказанным счетом классификации к наблюдению x (вектор - строка) является f (x) = x β + b, где β и b соответствуют Mdl.Beta и Mdl.Bias, соответственно.

Изменить функцию преобразования счета на, например, function, запись через точку использования.

Для встроенной функции введите этот код и замените function на значение в таблице.

Mdl.ScoreTransform = 'function';

Значение	Описание
`'doublelogit'`	1/(1 + e ^–2x)
`'invlogit'`	журнал (x / (1 – x))
`'ismax'`	Устанавливает счет к классу с самым большим счетом к `1` и устанавливает музыку ко всем другим классам к `0`
`'logit'`	1/(1 + e ^–x)
`'none'` или `'identity'`	x (никакое преобразование)
`'sign'`	– 1 для x <0 0 для x = 0 1 для x> 0
`'symmetric'`	2x – 1
`'symmetricismax'`	Устанавливает счет к классу с самым большим счетом к `1` и устанавливает музыку ко всем другим классам к `–1`
`'symmetriclogit'`	2/(1 + e ^–x) – 1

Для функции MATLAB^® или функции, которую вы задаете, вводят ее указатель на функцию.
```
Mdl.ScoreTransform = @function;
```
function должен принять матрицу исходной музыки к каждому классу, и затем возвратить матричное представление одного размера преобразованной музыки к каждому классу.

Типы данных: char | function_handle

Методы

kfoldEdge	Ребро классификации для наблюдений, не используемых для обучения
kfoldLoss	Потеря классификации для наблюдений, не используемых в обучении
kfoldMargin	Поля классификации для наблюдений, не используемых в обучении
kfoldPredict	Предскажите метки для наблюдений, не используемых для обучения

Копировать семантику

Значение. Чтобы изучить, как классы значения влияют на операции копии, смотрите Копирование Объектов (MATLAB).

Примеры

свернуть все

Создайте перекрестную подтвержденную бинарную линейную модель классификации

Скрипт Open Live Script

Загрузите набор данных NLP.

load nlpdata

X является разреженной матрицей данных о предикторе, и Y является категориальным вектором меток класса. В данных существует больше чем два класса.

Идентифицируйте метки, которые соответствуют веб-страницам документации Statistics and Machine Learning Toolbox™.

Ystats = Y == 'stats';

Перекрестный подтвердите двоичный файл, линейная модель классификации, которая может идентифицировать, являются ли подсчеты слов в веб-странице документации из документации Statistics and Machine Learning Toolbox™.

rng(1); % For reproducibility 
CVMdl = fitclinear(X,Ystats,'CrossVal','on')

CVMdl = 
  classreg.learning.partition.ClassificationPartitionedLinear
    CrossValidatedModel: 'Linear'
           ResponseName: 'Y'
        NumObservations: 31572
                  KFold: 10
              Partition: [1x1 cvpartition]
             ClassNames: [0 1]
         ScoreTransform: 'none'


  Properties, Methods

CVMdl является ClassificationPartitionedLinear перекрестная подтвержденная модель. Поскольку fitclinear реализует 10-кратную перекрестную проверку по умолчанию, CVMdl.Trained содержит десять моделей ClassificationLinear, которые содержат результаты учебных линейных моделей классификации для каждого из сгибов.

Оцените метки для наблюдений из сгиба и оцените ошибку обобщения путем передачи CVMdl kfoldPredict и kfoldLoss, соответственно.

oofLabels = kfoldPredict(CVMdl);
ge = kfoldLoss(CVMdl)

ge = 7.6017e-04

Предполагаемая ошибка обобщения составляет меньше чем 0,1% неправильно классифицированные наблюдения.

Найдите хороший штраф лассо Используя перекрестную проверку

Скрипт Open Live Script

Чтобы определить хорошую силу штрафа лассо для линейной модели классификации, которая использует ученика логистической регрессии, реализуйте 5-кратную перекрестную проверку.

Загрузите набор данных NLP.

load nlpdata

Модели должны идентифицировать, являются ли подсчеты слов в веб-странице из документации Statistics and Machine Learning Toolbox™. Так, идентифицируйте метки, которые соответствуют веб-страницам документации Statistics and Machine Learning Toolbox™.

Ystats = Y == 'stats';

Создайте набор 11 логарифмически распределенных сильных мест регуляризации от $1 0^{- 6}$ через $1 0^{- 0.5}$ .

Lambda = logspace(-6,-0.5,11);

Перекрестный подтвердите модели. Чтобы увеличить скорость выполнения, транспонируйте данные о предикторе и укажите, что наблюдения находятся в столбцах. Оцените содействующее использование SpaRSA. Понизьте допуск на градиент целевой функции к 1e-8.

X = X'; 
rng(10); % For reproducibility
CVMdl = fitclinear(X,Ystats,'ObservationsIn','columns','KFold',5,...
    'Learner','logistic','Solver','sparsa','Regularization','lasso',...
    'Lambda',Lambda,'GradientTolerance',1e-8)

CVMdl = 
  classreg.learning.partition.ClassificationPartitionedLinear
    CrossValidatedModel: 'Linear'
           ResponseName: 'Y'
        NumObservations: 31572
                  KFold: 5
              Partition: [1×1 cvpartition]
             ClassNames: [0 1]
         ScoreTransform: 'none'


  Properties, Methods

numCLModels = numel(CVMdl.Trained)

numCLModels = 5

CVMdl является моделью ClassificationPartitionedLinear. Поскольку fitclinear реализует 5-кратную перекрестную проверку, CVMdl содержит 5 моделей ClassificationLinear, которые программное обеспечение обучает на каждом сгибе.

Отобразите первую обученную линейную модель классификации.

Mdl1 = CVMdl.Trained{1}

Mdl1 = 
  ClassificationLinear
      ResponseName: 'Y'
        ClassNames: [0 1]
    ScoreTransform: 'logit'
              Beta: [34023×11 double]
              Bias: [-13.2904 -13.2904 -13.2904 -13.2904 -9.9357 -7.0782 -5.4335 -4.5473 -3.4223 -3.1649 -2.9795]
            Lambda: [1.0000e-06 3.5481e-06 1.2589e-05 4.4668e-05 1.5849e-04 5.6234e-04 0.0020 0.0071 0.0251 0.0891 0.3162]
           Learner: 'logistic'


  Properties, Methods

Mdl1 является объектом модели ClassificationLinear. fitclinear создал Mdl1 по образованию на первых четырех сгибах. Поскольку Lambda является последовательностью сильных мест регуляризации, можно думать о Mdl1 как о 11 моделях, один для каждой силы регуляризации в Lambda.

Оцените перекрестную подтвержденную ошибку классификации.

ce = kfoldLoss(CVMdl);

Поскольку существует 11 сильных мест регуляризации, ce является вектором 1 на 11 коэффициентов ошибок классификации.

Более высокие значения Lambda приводят к разреженности переменной прогноза, которая является хорошим качеством классификатора. Для каждой силы регуляризации обучите линейную модель классификации использование целого набора данных и тех же опций как тогда, когда вы перекрестный подтвержденный модели. Определите количество ненулевых коэффициентов на модель.

Mdl = fitclinear(X,Ystats,'ObservationsIn','columns',...
    'Learner','logistic','Solver','sparsa','Regularization','lasso',...
    'Lambda',Lambda,'GradientTolerance',1e-8);
numNZCoeff = sum(Mdl.Beta~=0);

В той же фигуре постройте перекрестное подтвержденное, коэффициенты ошибок классификации и частоту ненулевых коэффициентов для каждой силы регуляризации. Постройте все переменные на логарифмической шкале.

figure;
[h,hL1,hL2] = plotyy(log10(Lambda),log10(ce),...
    log10(Lambda),log10(numNZCoeff)); 
hL1.Marker = 'o';
hL2.Marker = 'o';
ylabel(h(1),'log_{10} classification error')
ylabel(h(2),'log_{10} nonzero-coefficient frequency')
xlabel('log_{10} Lambda')
title('Test-Sample Statistics')
hold off

Выберите индекс силы регуляризации, которая балансирует разреженность переменной прогноза и низкую ошибку классификации. В этом случае, значение между $1 0^{- 4}$ к $1 0^{- 1}$ должен быть достаточным.

idxFinal = 7;

Выберите модель из Mdl с выбранной силой регуляризации.

MdlFinal = selectModels(Mdl,idxFinal);

MdlFinal является моделью ClassificationLinear, содержащей одну силу регуляризации. Чтобы оценить метки для новых наблюдений, передайте MdlFinal и новые данные к predict.

Документация

ClassificationPartitionedLinear

Описание

Примечание

Конструкция

Свойства

Свойства перекрестной проверки

`CrossValidatedModel` — Перекрестное подтвержденное имя модели
символьный вектор

`KFold` — Количество перекрестных подтвержденных сгибов
положительное целое число

`ModelParameters` — Значения параметров перекрестной проверки
объект

`NumObservations` — Количество наблюдений
положительный числовой скаляр

`Раздел` Раздел данных
Модель `cvpartition`

`Trained` — Линейные модели классификации обучены на сгибах перекрестной проверки
массив ячеек объектов модели `ClassificationLinear`

`W` Веса наблюдения
числовой вектор

`Y` Наблюдаемые метки класса
категориальный массив | символьный массив | логический вектор | вектор числовых значений | массив ячеек из символьных векторов

Другие свойства классификации

`CategoricalPredictors` — Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

`ClassNames` — Уникальные метки класса
категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

`Cost` — Затраты Misclassification
квадратная числовая матрица

`PredictorNames` — Имена предиктора
массив ячеек из символьных векторов

`Prior` — Предшествующие вероятности класса
числовой вектор

`ResponseName` — Имя переменной отклика
символьный вектор

`ScoreTransform` — Выиграйте функцию преобразования
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Методы

Копировать семантику

Примеры

Создайте перекрестную подтвержденную бинарную линейную модель классификации

Найдите хороший штраф лассо Используя перекрестную проверку

Смотрите также

Введенный в R2016a

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

ClassificationPartitionedLinear

Описание

Примечание

Конструкция

Свойства

Свойства перекрестной проверки

CrossValidatedModel — Перекрестное подтвержденное имя модели символьный вектор

KFold — Количество перекрестных подтвержденных сгибов положительное целое число

ModelParameters — Значения параметров перекрестной проверки объект

NumObservations — Количество наблюдений положительный числовой скаляр

Раздел Раздел данных Модель cvpartition

Trained — Линейные модели классификации обучены на сгибах перекрестной проверки массив ячеек объектов модели ClassificationLinear

W Веса наблюдения числовой вектор

Y Наблюдаемые метки класса категориальный массив | символьный массив | логический вектор | вектор числовых значений | массив ячеек из символьных векторов

Другие свойства классификации

CategoricalPredictors — Категориальные индексы предиктора вектор положительных целых чисел | []

ClassNames — Уникальные метки класса категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

Cost — Затраты Misclassification квадратная числовая матрица

PredictorNames — Имена предиктора массив ячеек из символьных векторов

Prior — Предшествующие вероятности класса числовой вектор

ResponseName — Имя переменной отклика символьный вектор

ScoreTransform — Выиграйте функцию преобразования 'doublelogit' | 'invlogit' | 'ismax' | 'logit' | 'none' | указатель на функцию |...

Методы

Копировать семантику

Примеры

Создайте перекрестную подтвержденную бинарную линейную модель классификации

Найдите хороший штраф лассо Используя перекрестную проверку

Смотрите также

Введенный в R2016a

Документация Statistics and Machine Learning Toolbox

Поддержка

`CrossValidatedModel` — Перекрестное подтвержденное имя модели
символьный вектор

`KFold` — Количество перекрестных подтвержденных сгибов
положительное целое число

`ModelParameters` — Значения параметров перекрестной проверки
объект

`NumObservations` — Количество наблюдений
положительный числовой скаляр

`Раздел` Раздел данных
Модель `cvpartition`

`Trained` — Линейные модели классификации обучены на сгибах перекрестной проверки
массив ячеек объектов модели `ClassificationLinear`

`W` Веса наблюдения
числовой вектор

`Y` Наблюдаемые метки класса
категориальный массив | символьный массив | логический вектор | вектор числовых значений | массив ячеек из символьных векторов

`CategoricalPredictors` — Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

`ClassNames` — Уникальные метки класса
категориальный массив | символьный массив | логический вектор | числовой вектор | массив ячеек из символьных векторов

`Cost` — Затраты Misclassification
квадратная числовая матрица

`PredictorNames` — Имена предиктора
массив ячеек из символьных векторов

`Prior` — Предшествующие вероятности класса
числовой вектор

`ResponseName` — Имя переменной отклика
символьный вектор

`ScoreTransform` — Выиграйте функцию преобразования
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...