ClassificationLinear class

Линейная модель для двоичной классификации высокомерных данных

Описание

ClassificationLinear является обученным объектом линейной модели для двоичной классификации; линейная модель является машиной опорных векторов (SVM) или логистической регрессионой моделью. fitclinear подходит для ClassificationLinear модель путем минимизации целевой функции, используя методы, которые сокращают время расчета для высоко-размерных наборов данных (например, стохастический градиентный спуск). Классификационные потери плюс термин регуляризации составляют целевую функцию.

В отличие от других классификационных моделей и для экономичного использования памяти, ClassificationLinear объекты модели не хранят обучающие данные. Однако они сохраняют, для примера, оцененные коэффициенты линейной модели, вероятности предыдущего класса и силу регуляризации.

Можно использовать обученные ClassificationLinear модели для предсказания меток или классификационных оценок для новых данных. Для получения дополнительной информации смотрите predict.

Конструкция

Создайте ClassificationLinear объект при помощи fitclinear.

Свойства

расширить все

Свойства линейной классификации

`Lambda` - Прочность термина регуляризации
неотрицательный скаляр | вектор неотрицательных значений

Сила членов регуляризации, заданная как неотрицательный скаляр или вектор неотрицательных значений.

Типы данных: double | single

`Learner` - Тип линейной классификационной модели
`'logistic'` | `'svm'`

Тип модели линейной классификации, заданный как 'logistic' или 'svm'.

В этой таблице, $f (x) = x β + b .$

β является вектором p коэффициентов.
x является наблюдением от p переменных предиктора.
b - скалярное смещение.

Значение	Алгоритм	Функция потерь	`FittedLoss` Значение
`'logistic'`	Логистическая регрессия	Отклонение (логистическое): $ℓ [y, f (x)] = \log {1 + \exp [- y f (x)]}$	`'logit'`
`'svm'`	Поддерживайте векторную машину	Шарнир: $ℓ [y, f (x)] = \max [0, 1 - y f (x)]$	`'hinge'`

`Beta` - Оценки линейных коэффициентов
числовой вектор

Оценки линейного коэффициента, заданные как числовой вектор с длиной, равной количеству предикторов.

Типы данных: double

`Bias` - Предполагаемый термин смещения
числовой скаляр

Предполагаемый термин смещения или точка пересечения модели, заданный как числовой скаляр.

Типы данных: double

`FittedLoss` - Функция потерь, используемая для соответствия линейной модели
`'hinge'` | `'logit'`

Это свойство доступно только для чтения.

Функция потерь, используемая для соответствия линейной модели, задается как 'hinge' или 'logit'.

Значение	Алгоритм	Функция потерь	`Learner` Значение
`'hinge'`	Поддерживайте векторную машину	Шарнир: $ℓ [y, f (x)] = \max [0, 1 - y f (x)]$	`'svm'`
`'logit'`	Логистическая регрессия	Отклонение (логистическое): $ℓ [y, f (x)] = \log {1 + \exp [- y f (x)]}$	`'logistic'`

`Regularization` - Тип штрафа сложности
`'lasso (L1)'` | `'ridge (L2)'`

Тип штрафа сложности, заданный как 'lasso (L1)' или 'ridge (L2)'.

Программное обеспечение составляет целевую функцию для минимизации из суммы функции средних потерь (см FittedLoss) и значение регуляризации из этой таблицы.

Значение	Описание
`'lasso (L1)'`	Лассо (L 1) штраф : $λ \sum_{j = 1}^{p} \| β_{j} \|$
`'ridge (L2)'`	Хребет (L 2) штраф : $\frac{λ}{2} \sum_{j = 1}^{p} β_{j}^{2}$

λ определяет силу термина регуляризации (см Lambda).

Программа исключает термин смещения (β 0) из штрафа за регуляризацию.

Другие классификационные свойства

`CategoricalPredictors` - Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

Категориальные индексы предиктора, заданные как вектор положительных целых чисел. Принимая, что данные предиктора содержат наблюдения в строках, CategoricalPredictors содержит значения индекса, соответствующие столбцам данных предиктора, которые содержат категориальные предикторы. Если ни один из предикторов не является категориальным, то это свойство пустое ([]).

Типы данных: single | double

`ClassNames` - Уникальные метки классов
категориальный массив | символьный массив | логический вектор | числовой вектор | ячеек из символьных векторов

Уникальные метки классов, используемые в обучении, заданные как категориальный или символьный массив, логический или числовой вектор или массив ячеек векторов символов. ClassNames имеет тот совпадающий тип данных, что и метки классов Y. (Программа обрабатывает массивы строк как массивы ячеек векторов символов.) ClassNames также определяет порядок классов.

`Cost` - Расходы на неправильную классификацию
квадратная числовая матрица

Это свойство доступно только для чтения.

Затраты на неправильную классификацию, заданные как квадратная числовая матрица. Cost имеет K строки и столбцы, где K количество классов.

Стоимость (i, j) - стоимость классификации точки в класс j если его класс true i. Порядок строк и столбцов Cost соответствует порядку классов в ClassNames.

Типы данных: double

`ModelParameters` - Параметры, используемые для обучающей модели
структура

Параметры, используемые для настройки ClassificationLinear модель, заданная как структура.

Доступ к полям ModelParameters использование записи через точку. Для примера получите доступ к относительной погрешности о линейных коэффициентах и термине смещения при помощи Mdl.ModelParameters.BetaTolerance.

Типы данных: struct

`PredictorNames` - Имена предикторов
массив ячеек из векторов символов

Имена предиктора в порядке их внешнего вида в данных предиктора, заданные как массив ячеек из векторов символов. Длина PredictorNames равен количеству переменных в обучающих данных X или Tbl используется в качестве переменных.

Типы данных: cell

`ExpandedPredictorNames` - Расширенные имена предикторов
массив ячеек из векторов символов

Расширенные имена предикторов, заданные как массив ячеек из векторов символов.

Если модель использует кодировку для категориальных переменных, то ExpandedPredictorNames включает имена, которые описывают расширенные переменные. В противном случае ExpandedPredictorNames то же, что и PredictorNames.

Типы данных: cell

`Prior` - Вероятности предыдущего класса
числовой вектор

Это свойство доступно только для чтения.

Вероятности предыдущего класса, заданные как числовой вектор. Prior имеет столько элементов, сколько классов в ClassNames, и порядок элементов соответствует элементам ClassNames.

Типы данных: double

`ResponseName` - Имя переменной отклика
вектор символов

Имя переменной отклика, заданное как вектор символов.

Типы данных: char

`ScoreTransform` - Функция преобразования счета
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Функция преобразования счета для применения к предсказанным счетам, заданным как имя функции или указатель на функцию.

Для линейных моделей классификации и перед преобразованием, предсказанная классификационная оценка для наблюдения x (вектор - строка) f (<reservedrangesplaceholder6>) = <reservedrangesplaceholder5> <reservedrangesplaceholder4> + b, где β и b соответствуют Mdl.Beta и Mdl.Bias, соответственно.

Чтобы изменить функцию преобразования счета на, например, function, используйте запись через точку.

Для встроенной функции введите этот код и замените function со значением в таблице.

Mdl.ScoreTransform = 'function';

Значение	Описание
`'doublelogit'`	1/(1 + e^–2x)
`'invlogit'`	журнал (x/( 1 - x))
`'ismax'`	Устанавливает счет для класса с самым большим счетом равным 1 и устанавливает счета для всех других классов равным 0
`'logit'`	1/(1 + e^–x)
`'none'` или `'identity'`	x (без преобразования)
`'sign'`	-1 для x < 0 0 для x = 0 1 для x > 0
`'symmetric'`	2 x – 1
`'symmetricismax'`	Устанавливает счет для класса с самым большим счетом равным 1 и устанавливает счета для всех других классов равной -1
`'symmetriclogit'`	2/(1 + e^–x) – 1

Для MATLAB^® function, или функция, которую вы задаете, вводите указатель на функцию.
```
Mdl.ScoreTransform = @function;
```
function необходимо принять матрицу исходных счетов для каждого класса, а затем вернуть матрицу того же размера, представляющую преобразованные счета для каждого класса.

Типы данных: char | function_handle

Функции объекта

`edge`	Классификационные ребра для линейных моделей классификации
`incrementalLearner`	Преобразуйте линейную модель для двоичной классификации в инкрементную обучающуюся
`lime`	Локальные интерпретируемые модели-агностические объяснения (LIME)
`loss`	Классификационные потери для линейных классификационных моделей
`margin`	Классификационные поля для линейных моделей классификации
`partialDependence`	Вычисление частичной зависимости
`plotPartialDependence`	Создайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
`predict`	Спрогнозируйте метки для линейных моделей классификации
`shapley`	Значения Shapley
`selectModels`	Выберите подмножество регуляризованных, двоичных линейных классификационных моделей
`update`	Обновите параметры модели для генерации кода

Копировать семантику

Значение. Чтобы узнать, как классы значений влияют на операции копирования, см. раздел «Копирование объектов».

Примеры

свернуть все

Обучите линейную модель классификации

Открыть Live Script

Обучите двоичную, линейную модель классификации с помощью машин опорных векторов, двойной SGD и регуляризации гребня.

Загрузите набор данных NLP.

load nlpdata

X является разреженной матрицей данных предиктора, и Y является категориальным вектором меток классов. В данных более двух классов.

Идентифицируйте метки, которые соответствуют веб-страницам Statistics and Machine Learning Toolbox™ документации.

Ystats = Y == 'stats';

Обучите двоичную, линейную модель классификации, которая может идентифицировать, является ли слово счетчиком на веб-странице документации из документации Statistics and Machine Learning Toolbox™. Обучите модель, используя весь набор данных. Определите, насколько хорошо алгоритм оптимизации соответствует модели данным, путем извлечения сводных данных подгонки.

rng(1); % For reproducibility 
[Mdl,FitInfo] = fitclinear(X,Ystats)

Mdl = 
  ClassificationLinear
      ResponseName: 'Y'
        ClassNames: [0 1]
    ScoreTransform: 'none'
              Beta: [34023x1 double]
              Bias: -1.0059
            Lambda: 3.1674e-05
           Learner: 'svm'


  Properties, Methods

FitInfo = struct with fields:
                    Lambda: 3.1674e-05
                 Objective: 5.3783e-04
                 PassLimit: 10
                 NumPasses: 10
                BatchLimit: []
             NumIterations: 238561
              GradientNorm: NaN
         GradientTolerance: 0
      RelativeChangeInBeta: 0.0562
             BetaTolerance: 1.0000e-04
             DeltaGradient: 1.4582
    DeltaGradientTolerance: 1
           TerminationCode: 0
         TerminationStatus: {'Iteration limit exceeded.'}
                     Alpha: [31572x1 double]
                   History: []
                   FitTime: 0.1894
                    Solver: {'dual'}

Mdl является ClassificationLinear модель. Можно пройти Mdl и обучающих или новых данных для loss для проверки ошибки классификации в выборке. Или ты можешь пройти Mdl и новые данные предиктора для predict для предсказания меток классов для новых наблюдений.

FitInfo - массив структур, содержащий, помимо прочего, статус завершения (TerminationStatus) и как долго решатель подгонял модель к данным (FitTime). Передовой практикой является использование FitInfo чтобы определить, являются ли измерения оптимизации-обрыв удовлетворительными. Поскольку время обучения мало, можно попытаться переобучить модель, но увеличить количество проходов через данные. Это может улучшить такие меры, как DeltaGradient.

Предсказание меток классов с помощью линейной классификационной модели

Открыть Live Script

Загрузите набор данных NLP.

load nlpdata
n = size(X,1); % Number of observations

Идентифицируйте метки, которые соответствуют веб-страницам Statistics and Machine Learning Toolbox™ документации.

Ystats = Y == 'stats';

Удерживайте 5% данных.

rng(1); % For reproducibility
cvp = cvpartition(n,'Holdout',0.05)

cvp = 
Hold-out cross validation partition
   NumObservations: 31572
       NumTestSets: 1
         TrainSize: 29994
          TestSize: 1578

cvp является CVPartition объект, который задает случайное разбиение n данных на обучающие и тестовые наборы.

Обучите двоичную линейную модель классификации с помощью набора обучающих данных, которая может идентифицировать, является ли значение слова на веб-странице документации из документации Statistics and Machine Learning Toolbox™. Для более быстрого времени обучения ориентируйте матрицу данных предиктора так, чтобы наблюдения были в столбцах.

idxTrain = training(cvp); % Extract training set indices
X = X';
Mdl = fitclinear(X(:,idxTrain),Ystats(idxTrain),'ObservationsIn','columns');

Предсказать наблюдения и классификационную ошибку для задержки выборки.

idxTest = test(cvp); % Extract test set indices
labels = predict(Mdl,X(:,idxTest),'ObservationsIn','columns');
L = loss(Mdl,X(:,idxTest),Ystats(idxTest),'ObservationsIn','columns')

L = 7.1753e-04

Mdl неправильная классификация менее 1% несовпадающих наблюдений.

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

Указания и ограничения по применению:

The predict и update функции поддерживают генерацию кода.
Когда вы обучаете линейную модель классификации при помощи fitclinear, применяются следующие ограничения.
- Если входной параметр данных предиктора является матрицей, это должна быть полная, числовая матрица. Генерация кода не поддерживает разреженные данные.
- Можно задать только одну силу регуляризации 'auto' или неотрицательный скаляр для 'Lambda' аргумент пары "имя-значение".
- Значение 'ScoreTransform' аргумент пары "имя-значение" не может быть анонимной функцией.
- Для генерации кода с помощью конфигуратора кодера применяются следующие дополнительные ограничения.
  - Категориальные предикторы (logical, categorical, char, string, или cell) не поддерживаются. Вы не можете использовать 'CategoricalPredictors' аргумент имя-значение. Чтобы включить категориальные предикторы в модель, предварительно обработайте их с помощью dummyvar перед подгонкой модели.
  - Метки классов с categorical тип данных не поддерживается. Оба значения метки класса в обучающих данных (Tbl или Y) и значение 'ClassNames' аргумент имя-значение не может быть массивом с categorical тип данных.

Для получения дополнительной информации смотрите Введение в генерацию кода.

См. также

Введенный в R2016a

Документация

ClassificationLinear class

Описание

Конструкция

Свойства

`Lambda` - Прочность термина регуляризации
неотрицательный скаляр | вектор неотрицательных значений

`Learner` - Тип линейной классификационной модели
`'logistic'` | `'svm'`

`Beta` - Оценки линейных коэффициентов
числовой вектор

`Bias` - Предполагаемый термин смещения
числовой скаляр

`FittedLoss` - Функция потерь, используемая для соответствия линейной модели
`'hinge'` | `'logit'`

`Regularization` - Тип штрафа сложности
`'lasso (L1)'` | `'ridge (L2)'`

`CategoricalPredictors` - Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

`ClassNames` - Уникальные метки классов
категориальный массив | символьный массив | логический вектор | числовой вектор | ячеек из символьных векторов

`Cost` - Расходы на неправильную классификацию
квадратная числовая матрица

`ModelParameters` - Параметры, используемые для обучающей модели
структура

`PredictorNames` - Имена предикторов
массив ячеек из векторов символов

`ExpandedPredictorNames` - Расширенные имена предикторов
массив ячеек из векторов символов

`Prior` - Вероятности предыдущего класса
числовой вектор

`ResponseName` - Имя переменной отклика
вектор символов

`ScoreTransform` - Функция преобразования счета
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Функции объекта

Копировать семантику

Примеры

Обучите линейную модель классификации

Предсказание меток классов с помощью линейной классификационной модели

Расширенные возможности

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

См. также

Statistics and Machine Learning Toolbox документация

Поддержка

Документация

ClassificationLinear class

Описание

Конструкция

Свойства

Lambda - Прочность термина регуляризации неотрицательный скаляр | вектор неотрицательных значений

Learner - Тип линейной классификационной модели 'logistic' | 'svm'

Beta - Оценки линейных коэффициентов числовой вектор

Bias - Предполагаемый термин смещения числовой скаляр

FittedLoss - Функция потерь, используемая для соответствия линейной модели 'hinge' | 'logit'

Regularization - Тип штрафа сложности 'lasso (L1)' | 'ridge (L2)'

CategoricalPredictors - Категориальные индексы предиктора вектор положительных целых чисел | []

ClassNames - Уникальные метки классов категориальный массив | символьный массив | логический вектор | числовой вектор | ячеек из символьных векторов

Cost - Расходы на неправильную классификацию квадратная числовая матрица

ModelParameters - Параметры, используемые для обучающей модели структура

PredictorNames - Имена предикторов массив ячеек из векторов символов

ExpandedPredictorNames - Расширенные имена предикторов массив ячеек из векторов символов

Prior - Вероятности предыдущего класса числовой вектор

ResponseName - Имя переменной отклика вектор символов

ScoreTransform - Функция преобразования счета 'doublelogit' | 'invlogit' | 'ismax' | 'logit' | 'none' | указатель на функцию |...

Функции объекта

Копировать семантику

Примеры

Обучите линейную модель классификации

Предсказание меток классов с помощью линейной классификационной модели

Расширенные возможности

Генерация кода C/C + + Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®

См. также

Statistics and Machine Learning Toolbox документация

Поддержка

`Lambda` - Прочность термина регуляризации
неотрицательный скаляр | вектор неотрицательных значений

`Learner` - Тип линейной классификационной модели
`'logistic'` | `'svm'`

`Beta` - Оценки линейных коэффициентов
числовой вектор

`Bias` - Предполагаемый термин смещения
числовой скаляр

`FittedLoss` - Функция потерь, используемая для соответствия линейной модели
`'hinge'` | `'logit'`

`Regularization` - Тип штрафа сложности
`'lasso (L1)'` | `'ridge (L2)'`

`CategoricalPredictors` - Категориальные индексы предиктора
вектор положительных целых чисел | `[]`

`ClassNames` - Уникальные метки классов
категориальный массив | символьный массив | логический вектор | числовой вектор | ячеек из символьных векторов

`Cost` - Расходы на неправильную классификацию
квадратная числовая матрица

`ModelParameters` - Параметры, используемые для обучающей модели
структура

`PredictorNames` - Имена предикторов
массив ячеек из векторов символов

`ExpandedPredictorNames` - Расширенные имена предикторов
массив ячеек из векторов символов

`Prior` - Вероятности предыдущего класса
числовой вектор

`ResponseName` - Имя переменной отклика
вектор символов

`ScoreTransform` - Функция преобразования счета
`'doublelogit'` | `'invlogit'` | `'ismax'` | `'logit'` | `'none'` | указатель на функцию |...

Генерация кода C/C + +
Сгенерируйте код C и C++ с помощью Coder™ MATLAB ®