predict

Предскажите метки для линейных моделей классификации

Синтаксис

Label = predict(Mdl,X)

Label = predict(Mdl,X,Name,Value)

[Label,Score]
= predict(___)

Описание

пример

Label = predict(Mdl,X) возвращает предсказанные метки класса для каждого наблюдения в данных о предикторе X на основе обученной, бинарной, линейной модели Mdl классификацииМетка содержит метки класса для каждой силы регуляризации в Mdl.

пример

Label = predict(Mdl,X,Name,Value) возвращает предсказанные метки класса с дополнительными опциями, заданными одним или несколькими Name,Value парные аргументы. Например, можно указать, что столбцы в данных о предикторе соответствуют наблюдениям.

пример

[Label,Score] = predict(___) также возвращает классификационные оценки для обоих классов с помощью любого из предыдущих синтаксисов. Score содержит классификационные оценки для каждой силы регуляризации в Mdl.

Входные параметры

развернуть все

`Mdl` — Двоичный файл, линейная модель классификации
`ClassificationLinear` объект модели

Двоичный файл, линейная модель классификации в виде ClassificationLinear объект модели. Можно создать ClassificationLinear объект модели с помощью fitclinear.

`X` — Данные о предикторе
полная матрица | разреженная матрица

Данные о предикторе в виде n-by-p полная или разреженная матрица. Эта ориентация X указывает, что строки соответствуют отдельным наблюдениям, и столбцы соответствуют отдельным переменным предикторам.

Примечание

Если вы ориентируете свою матрицу предиктора так, чтобы наблюдения соответствовали столбцам и задали 'ObservationsIn','columns', затем вы можете испытать значительное сокращение во время вычисления.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

`'ObservationsIn'` — Размерность наблюдения данных о предикторе
`'rows'` (значение по умолчанию) | `'columns'`

Размерность наблюдения данных о предикторе в виде разделенной запятой пары, состоящей из 'ObservationsIn' и 'columns' или 'rows'.

Примечание

Выходные аргументы

развернуть все

`Label` — Предсказанные метки класса
категориальный массив | символьный массив | логическая матрица | числовая матрица | массив ячеек из символьных векторов

Предсказанные метки класса, возвращенные как категориальное или символьный массив, логическая или числовая матрица или массив ячеек из символьных векторов.

В большинстве случаев, Label n-by-L массив совпадающего типа данных, когда наблюдаемый класс помечает (Y) используемый, чтобы обучить Mdl. (Программное обеспечение обрабатывает строковые массивы как массивы ячеек из символьных векторов.) n является количеством наблюдений в X и L является количеством сильных мест регуляризации в Mdl.Lambda. Таким образом, Метка (iJ) предсказанная метка класса для наблюдения i использование линейной модели классификации, которая имеет силу регуляризации Mdl. Lambda (j).

Если Y символьный массив и L> 1, затем Label массив ячеек меток класса.

`Score` — Классификационные оценки
числовой массив

Классификационные оценки, возвращенные как n-by-2-by-L числовой массив. n является количеством наблюдений в X и L является количеством сильных мест регуляризации в Mdl.Lambda. Счет (iKJ) счет к классификации наблюдения i в класс k использование линейной модели классификации, которая имеет силу регуляризации Mdl. Lambda (j). Mdl.ClassNames хранит порядок классов.

Если Mdl.Learner 'logistic', затем классификационные оценки являются апостериорными вероятностями.

Примеры

развернуть все

Предскажите метки обучающей выборки

Скрипт Open Live Script

Загрузите набор данных NLP.

load nlpdata

X разреженная матрица данных о предикторе и Y категориальный вектор меток класса. В данных существует больше чем два класса.

Модели должны идентифицировать, являются ли подсчеты слов в веб-странице из документации Statistics and Machine Learning Toolbox™. Так, идентифицируйте метки, которые соответствуют веб-страницам документации Statistics and Machine Learning Toolbox™.

Ystats = Y == 'stats';

Обучите двоичный файл, линейная модель классификации использование целого набора данных, который может идентифицировать, являются ли подсчеты слов в веб-странице документации из документации Statistics and Machine Learning Toolbox™.

rng(1); % For reproducibility 
Mdl = fitclinear(X,Ystats);

Mdl ClassificationLinear модель.

Предскажите обучающую выборку, или перезамену, метки.

label = predict(Mdl,X);

Поскольку существует одна сила регуляризации в MdlМетка вектор-столбцы с длинами, равными количеству наблюдений.

Создайте матрицу беспорядка.

ConfusionTrain = confusionchart(Ystats,label);

Модель неправильно классифицирует только один 'stats' страница документации как нахождение вне документации Statistics and Machine Learning Toolbox.

Предскажите демонстрационные тестом метки

Скрипт Open Live Script

Загрузите набор данных NLP и предварительно обработайте его, когда в Предсказывают Метки Обучающей выборки. Транспонируйте матрицу данных предиктора.

load nlpdata
Ystats = Y == 'stats';
X = X';

Обучите двоичный файл, линейная модель классификации, которая может идентифицировать, являются ли подсчеты слов в веб-странице документации из документации Statistics and Machine Learning Toolbox™. Задайте, чтобы протянуть 30% наблюдений. Оптимизируйте использование целевой функции SpaRSA.

rng(1) % For reproducibility 
CVMdl = fitclinear(X,Ystats,'Solver','sparsa','Holdout',0.30,...
    'ObservationsIn','columns');
Mdl = CVMdl.Trained{1};

CVMdl ClassificationPartitionedLinear модель. Это содержит свойство Trained, который является массивом ячеек 1 на 1, содержащим ClassificationLinear модель, что программное обеспечение обучило использование набора обучающих данных.

Извлеките обучение и тестовые данные из определения раздела.

trainIdx = training(CVMdl.Partition);
testIdx = test(CVMdl.Partition);

Предскажите обучение - и демонстрационные тестом метки.

labelTrain = predict(Mdl,X(:,trainIdx),'ObservationsIn','columns');
labelTest = predict(Mdl,X(:,testIdx),'ObservationsIn','columns');

Поскольку существует одна сила регуляризации в Mdl, labelTrain и labelTest вектор-столбцы с длинами, равными количеству обучения, и тестируют наблюдения, соответственно.

Создайте матрицу беспорядка для обучающих данных.

ConfusionTrain = confusionchart(Ystats(trainIdx),labelTrain);

Модель неправильно классифицирует только три страницы документации как нахождение вне документации Statistics and Machine Learning Toolbox.

Создайте матрицу беспорядка для тестовых данных.

ConfusionTest = confusionchart(Ystats(testIdx),labelTest);

Модель неправильно классифицирует три страницы документации как нахождение вне Statistics and Machine Learning Toolbox, и две страницы, как являющиеся внутри.

Оцените следующие вероятности класса

Скрипт Open Live Script

Оцените демонстрационные тестом, следующие вероятности класса и определите качество модели путем графического вывода кривой ROC. Линейные модели классификации возвращают апостериорные вероятности для учеников логистической регрессии только.

Загрузите набор данных NLP и предварительно обработайте его, когда в Предсказывают Демонстрационные Тестом Метки.

load nlpdata
Ystats = Y == 'stats';
X = X';

Случайным образом разделите данные в наборы обучающих данных и наборы тестов путем определения 30%-й выборки затяжки. Идентифицируйте индексы набора тестов.

cvp = cvpartition(Ystats,'Holdout',0.30);
idxTest = test(cvp);

Обучите бинарную линейную модель классификации. Подходящее использование учеников логистической регрессии SpaRSA. Чтобы протянуть набор тестов, задайте разделенную модель.

CVMdl = fitclinear(X,Ystats,'ObservationsIn','columns','CVPartition',cvp,...
    'Learner','logistic','Solver','sparsa');
Mdl = CVMdl.Trained{1};

Mdl ClassificationLinear модель обучила использование набора обучающих данных, заданного в разделе cvp только.

Предскажите демонстрационные тестом следующие вероятности класса.

[~,posterior] = predict(Mdl,X(:,idxTest),'ObservationsIn','columns');

Поскольку существует одна сила регуляризации в Mdl, posterior матрица с 2 столбцами и строками, равными количеству наблюдений набора тестов. Столбец i содержит апостериорные вероятности Mdl.ClassNames(i) учитывая конкретное наблюдение.

Получите ложные и истинные положительные уровни и оцените AUC. Укажите, что второй класс является положительным классом.

[fpr,tpr,~,auc] = perfcurve(Ystats(idxTest),posterior(:,2),Mdl.ClassNames(2));
auc

auc = 0.9985

AUC является 1, который указывает на модель, которая предсказывает хорошо.

Постройте кривую ROC.

figure;
plot(fpr,tpr)
h = gca;
h.XLim(1) = -0.1;
h.YLim(2) = 1.1;
xlabel('False positive rate')
ylabel('True positive rate')
title('ROC Curve')

Кривая ROC и AUC указывают, что модель классифицирует демонстрационные тестом наблюдения почти отлично.

Найдите хороший штраф лассо Используя AUC

Скрипт Open Live Script

Чтобы определить хорошую силу штрафа лассо для линейной модели классификации, которая использует ученика логистической регрессии, сравните демонстрационные тестом значения AUC.

Загрузите набор данных NLP. Предварительно обработайте данные, когда в Предсказывают Демонстрационные Тестом Метки.

load nlpdata
Ystats = Y == 'stats';
X = X';

Создайте раздел данных, который задает к затяжке 10% наблюдений. Извлеките демонстрационные тестом индексы.

rng(10); % For reproducibility
Partition = cvpartition(Ystats,'Holdout',0.10);
testIdx = test(Partition);
XTest = X(:,testIdx);
n = sum(testIdx)

n = 3157

YTest = Ystats(testIdx);

В тестовой выборке существует 3 157 наблюдений.

Создайте набор 11 логарифмически распределенных сильных мест регуляризации от $1 0^{- 6}$ через $1 0^{- 0.5}$ .

Lambda = logspace(-6,-0.5,11);

Обучите двоичный файл, линейные модели классификации, которые используют каждые из сильных мест регуляризации. Оптимизируйте использование целевой функции SpaRSA. Понизьте допуск на градиент целевой функции к 1e-8.

CVMdl = fitclinear(X,Ystats,'ObservationsIn','columns',...
    'CVPartition',Partition,'Learner','logistic','Solver','sparsa',...
    'Regularization','lasso','Lambda',Lambda,'GradientTolerance',1e-8)

CVMdl = 
  classreg.learning.partition.ClassificationPartitionedLinear
    CrossValidatedModel: 'Linear'
           ResponseName: 'Y'
        NumObservations: 31572
                  KFold: 1
              Partition: [1x1 cvpartition]
             ClassNames: [0 1]
         ScoreTransform: 'none'


  Properties, Methods

Извлеките обученную линейную модель классификации.

Mdl1 = CVMdl.Trained{1}

Mdl1 = 
  ClassificationLinear
      ResponseName: 'Y'
        ClassNames: [0 1]
    ScoreTransform: 'logit'
              Beta: [34023x11 double]
              Bias: [1x11 double]
            Lambda: [1x11 double]
           Learner: 'logistic'


  Properties, Methods

Mdl ClassificationLinear объект модели. Поскольку Lambda последовательность сильных мест регуляризации, можно думать о Mdl как 11 моделей, один для каждой силы регуляризации в Lambda.

Оцените демонстрационные тестом предсказанные метки и следующие вероятности класса.

[label,posterior] = predict(Mdl1,XTest,'ObservationsIn','columns');
Mdl1.ClassNames;
posterior(3,1,5)

ans = 1.0000

label 3157 11 матрица предсказанных меток. Каждый столбец соответствует предсказанным меткам модели, обученной с помощью соответствующей силы регуляризации. posterior 3157 2 11 матрицами следующих вероятностей класса. Столбцы соответствуют классам, и страницы соответствуют сильным местам регуляризации. Например, posterior(3,1,5) указывает что апостериорная вероятность что первый класс (метка 0) присвоен наблюдению 3 моделью, которая использует Lambda(5) когда сила регуляризации 1.0000.

Для каждой модели вычислите AUC. Определяйте второй класс как положительный класс.

auc = 1:numel(Lambda);  % Preallocation
for j = 1:numel(Lambda)
    [~,~,~,auc(j)] = perfcurve(YTest,posterior(:,2,j),Mdl1.ClassNames(2));
end

Более высокие значения Lambda приведите к разреженности переменного предиктора, которая является хорошим качеством классификатора. Для каждой силы регуляризации обучите линейную модель классификации использование целого набора данных и тех же опций как тогда, когда вы обучили модель. Определите количество ненулевых коэффициентов на модель.

Mdl = fitclinear(X,Ystats,'ObservationsIn','columns',...
    'Learner','logistic','Solver','sparsa','Regularization','lasso',...
    'Lambda',Lambda,'GradientTolerance',1e-8);
numNZCoeff = sum(Mdl.Beta~=0);

В той же фигуре постройте демонстрационные тестом коэффициенты ошибок и частоту ненулевых коэффициентов для каждой силы регуляризации. Постройте все переменные на логарифмической шкале.

figure;
[h,hL1,hL2] = plotyy(log10(Lambda),log10(auc),...
    log10(Lambda),log10(numNZCoeff + 1)); 
hL1.Marker = 'o';
hL2.Marker = 'o';
ylabel(h(1),'log_{10} AUC')
ylabel(h(2),'log_{10} nonzero-coefficient frequency')
xlabel('log_{10} Lambda')
title('Test-Sample Statistics')
hold off

Выберите индекс силы регуляризации, которая балансирует разреженность переменного предиктора и высокий AUC. В этом случае, значение между $1 0^{- 2}$ к $1 0^{- 1}$ должен быть достаточным.

idxFinal = 9;

Выберите модель из Mdl с выбранной силой регуляризации.

MdlFinal = selectModels(Mdl,idxFinal);

MdlFinal ClassificationLinear модель, содержащая одну силу регуляризации. Чтобы оценить метки для новых наблюдений, передайте MdlFinal и новые данные к predict.

Больше о

развернуть все

Классификационная оценка

Для линейных моделей классификации, необработанного classification score для классификации наблюдения x, вектор-строка, в положительный класс задан

$f_{j} (x) = x β_{j} + b_{j} .$

Для модели с силой регуляризации j, $β_{j}$ предполагаемый вектор-столбец коэффициентов (свойство Beta(:,j) модели) и $b_{j}$ предполагаемое, скалярное смещение (свойство Bias(j) модели).

Необработанная классификационная оценка для классификации x в отрицательный класс является –f (x). Программное обеспечение классифицирует наблюдения в класс, который дает к положительному счету.

Если линейная модель классификации состоит из учеников логистической регрессии, то программное обеспечение применяет 'logit' выиграйте преобразование к необработанным классификационным оценкам (см. ScoreTransform).

Расширенные возможности

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Эта функция полностью поддерживает "высокие" массивы. Можно использовать модели, обученные или на или на высоких данных в оперативной памяти с этой функцией.

Для получения дополнительной информации смотрите Длинные массивы (MATLAB).

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Указания и ограничения по применению:

Можно сгенерировать код C/C++ для обоих predict и update при помощи кодера configurer. Или, сгенерируйте код только для predict при помощи saveLearnerForCoder, loadLearnerForCoder, и codegen.
- Генерация кода для predict и update — Создайте кодер configurer при помощи learnerCoderConfigurer и затем сгенерируйте код при помощи generateCode. Затем можно обновить параметры модели в сгенерированном коде, не имея необходимость регенерировать код.
- Генерация кода для predict — Сохраните обученную модель при помощи saveLearnerForCoder. Задайте функцию точки входа, которая загружает сохраненную модель при помощи loadLearnerForCoder и вызывает predict функция. Затем используйте codegen сгенерировать код для функции точки входа.

Эта таблица содержит примечания об аргументах predict. Аргументы, не включенные в эту таблицу, полностью поддержаны.

Аргумент Примечания и ограничения

Аргумент	Примечания и ограничения
`Mdl`	Для указаний и ограничений по применению объекта модели смотрите Генерацию кода `ClassificationLinear` объект.
`X`	Должен быть матрица с двойной точностью или с одинарной точностью и может быть переменный размер. Если вы задаете `'ObservationsIn','rows'` (значение по умолчанию), затем количество столбцов в `X` должен быть `numel(Mdl.PredictorNames)`. Строки и столбцы должны соответствовать наблюдениям и предикторам, соответственно. Если вы задаете `'ObservationsIn','columns'`, затем количество строк в `X` должен быть `numel(Mdl.PredictorNames)`. Строки и столбцы должны соответствовать предикторам и наблюдениям, соответственно.
Аргументы в виде пар имя-значение	Имена в аргументах пары "имя-значение" должны быть константами времени компиляции. Значение для `'ObservationsIn'` аргументом пары "имя-значение" должно быть постоянное время компиляции. Например, чтобы использовать `'ObservationsIn','columns'` аргумент пары "имя-значение" в сгенерированном коде, включайте `{coder.Constant('ObservationsIn'),coder.Constant('columns')}` в `-args` значение `codegen`.

Mdl

Для указаний и ограничений по применению объекта модели смотрите Генерацию кода ClassificationLinear объект.

X

Должен быть матрица с двойной точностью или с одинарной точностью и может быть переменный размер.
Если вы задаете 'ObservationsIn','rows' (значение по умолчанию), затем количество столбцов в X должен быть numel(Mdl.PredictorNames). Строки и столбцы должны соответствовать наблюдениям и предикторам, соответственно.
Если вы задаете 'ObservationsIn','columns', затем количество строк в X должен быть numel(Mdl.PredictorNames). Строки и столбцы должны соответствовать предикторам и наблюдениям, соответственно.

Аргументы в виде пар имя-значение

Имена в аргументах пары "имя-значение" должны быть константами времени компиляции.
Значение для 'ObservationsIn' аргументом пары "имя-значение" должно быть постоянное время компиляции. Например, чтобы использовать 'ObservationsIn','columns' аргумент пары "имя-значение" в сгенерированном коде, включайте {coder.Constant('ObservationsIn'),coder.Constant('columns')} в -args значение codegen.

Для получения дополнительной информации смотрите Введение в Генерацию кода.

Документация

predict

Синтаксис

Описание

Входные параметры

`Mdl` — Двоичный файл, линейная модель классификации
`ClassificationLinear` объект модели

`X` — Данные о предикторе
полная матрица | разреженная матрица

Примечание

Аргументы в виде пар имя-значение

`'ObservationsIn'` — Размерность наблюдения данных о предикторе
`'rows'` (значение по умолчанию) | `'columns'`

Примечание

Выходные аргументы

`Label` — Предсказанные метки класса
категориальный массив | символьный массив | логическая матрица | числовая матрица | массив ячеек из символьных векторов

`Score` — Классификационные оценки
числовой массив

Примеры

Предскажите метки обучающей выборки

Предскажите демонстрационные тестом метки

Оцените следующие вероятности класса

Найдите хороший штраф лассо Используя AUC

Больше о

Классификационная оценка

Расширенные возможности

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Смотрите также

Введенный в R2016a

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

predict

Синтаксис

Описание

Входные параметры

Mdl — Двоичный файл, линейная модель классификации ClassificationLinear объект модели

X — Данные о предикторе полная матрица | разреженная матрица

Примечание

Аргументы в виде пар имя-значение

'ObservationsIn' — Размерность наблюдения данных о предикторе 'rows' (значение по умолчанию) | 'columns'

Примечание

Выходные аргументы

Label — Предсказанные метки класса категориальный массив | символьный массив | логическая матрица | числовая матрица | массив ячеек из символьных векторов

Score — Классификационные оценки числовой массив

Примеры

Предскажите метки обучающей выборки

Предскажите демонстрационные тестом метки

Оцените следующие вероятности класса

Найдите хороший штраф лассо Используя AUC

Больше о

Классификационная оценка

Расширенные возможности

"Высокие" массивы Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Смотрите также

Введенный в R2016a

Документация Statistics and Machine Learning Toolbox

Поддержка

`Mdl` — Двоичный файл, линейная модель классификации
`ClassificationLinear` объект модели

`X` — Данные о предикторе
полная матрица | разреженная матрица

`'ObservationsIn'` — Размерность наблюдения данных о предикторе
`'rows'` (значение по умолчанию) | `'columns'`

`Label` — Предсказанные метки класса
категориальный массив | символьный массив | логическая матрица | числовая матрица | массив ячеек из символьных векторов

`Score` — Классификационные оценки
числовой массив

"Высокие" массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.