предсказать

Прогнозирование меток с помощью дерева классификации

Синтаксис

label = предсказать (Mdl, X)

label = predict (Mdl, X, имя, значение)

[label, score, node, cnum] = прогнозировать (___)

Описание

label = predict(Mdl,X) возвращает вектор прогнозируемых меток класса для данных предиктора в таблице или матрице X, на основе обученного, полного или компактного дерева классификации Mdl.

label = predict(Mdl,X,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары. Например, можно указать обрезку Mdl на определенный уровень перед предсказанием меток.

[label,score,node,cnum] = predict(___) использует любой из входных аргументов в предыдущих синтаксисах и дополнительно возвращает:

Матрица классификационных баллов (score), указывая вероятность того, что метка исходит от определенного класса. Для деревьев классификации оценки являются задними вероятностями. Для каждого наблюдения в X, прогнозируемая метка класса соответствует минимальной ожидаемой стоимости неправильной классификации среди всех классов.
Вектор предсказанных номеров узлов для классификации (node).
Вектор прогнозируемого номера класса для классификации (cnum).

Входные аргументы

развернуть все

`Mdl` - Обученное дерево классификации
`ClassificationTree` объект модели | `CompactClassificationTree` объект модели

Обученное дерево классификации, указанное как ClassificationTree или CompactClassificationTree объект модели. То есть Mdl является обученной моделью классификации, возвращенной fitctree или compact.

`X` - Данные предиктора должны быть классифицированы
числовая матрица | таблица

Данные предиктора, подлежащие классификации, указываются как числовая матрица или таблица.

Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одной переменной.

Для числовой матрицы:
- Переменные, составляющие столбцы X должен иметь тот же порядок, что и обучаемые переменные предиктора Mdl.
- Если вы тренировались Mdl использование таблицы (например, Tbl), то X может быть числовой матрицей, если Tbl содержит все числовые переменные предиктора. Чтобы обработать числовые предикторы в Tbl в качестве категориального во время обучения, определить категориальные предикторы, используя CategoricalPredictors аргумент пары имя-значение fitctree. Если Tbl содержит разнородные переменные предиктора (например, числовые и категориальные типы данных) и X является числовой матрицей, то predict выдает ошибку.
Для таблицы:
- predict не поддерживает многозначные переменные или массивы ячеек, отличные от массивов ячеек символьных векторов.
- Если вы тренировались Mdl использование таблицы (например, Tbl), затем все переменные предиктора в X должны иметь те же имена переменных и типы данных, что и прошедшие обучение Mdl (хранится в Mdl.PredictorNames). Однако порядок столбцов X не обязательно соответствовать порядку столбцов Tbl. Tbl и X может содержать дополнительные переменные (переменные ответа, веса наблюдений и т.д.), но predict игнорирует их.
- Если вы тренировались Mdl используя числовую матрицу, затем имена предикторов в Mdl.PredictorNames и соответствующие имена переменных предиктора в X должно быть то же самое. Чтобы указать имена предикторов во время обучения, см. PredictorNames аргумент пары имя-значение fitctree. Все переменные предиктора в X должны быть числовыми векторами. X может содержать дополнительные переменные (переменные ответа, веса наблюдений и т.д.), но predict игнорирует их.

Типы данных: table | double | single

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

`'Subtrees'` - Уровень отсечения
0 (по умолчанию) | вектор неотрицательных целых чисел | `'all'`

Уровень отсечения, заданный как разделенная запятыми пара, состоящая из 'Subtrees' и вектор неотрицательных целых чисел в порядке возрастания или 'all'.

Если задан вектор, то все элементы должны быть по крайней мере 0 и не более max(Mdl.PruneList). 0 указывает полное, неотрезанное дерево и max(Mdl.PruneList) указывает полностью отсеченное дерево (т.е. только корневой узел).

При указании 'all', то predict оперирует всеми поддеревьями (т.е. всей последовательностью отсечения). Эта спецификация эквивалентна использованию 0:max(Mdl.PruneList).

predict чернослив Mdl к каждому уровню, указанному в Subtrees, а затем оценивает соответствующие выходные аргументы. Размер Subtrees определяет размер некоторых выходных аргументов.

Призвать Subtrees, свойства PruneList и PruneAlpha из Mdl должен быть непустым. Другими словами, расти Mdl путем установки 'Prune','on'или путем обрезки Mdl использование prune.

Пример: 'Subtrees','all'

Типы данных: single | double | char | string

Выходные аргументы

развернуть все

`label` - Прогнозируемые метки классов
вектор | массив

Прогнозируемые метки класса, возвращаемые как вектор или массив. Каждая запись label соответствует классу с минимальной ожидаемой стоимостью для соответствующей строки X.

Предположим Subtrees - числовой вектор, содержащий T элементы (для 'all', см. Subtrees), и X имеет N строк.

Если тип данных ответа - char и:
- T = 1, затем label - символьная матрица, содержащая N строк. Каждая строка содержит прогнозируемую метку, созданную поддеревом Subtrees.
- T > 1, затем label является Nоколо-T массив ячеек.
В противном случае label является Nоколо-T массив, имеющий тот же тип данных, что и ответ. (Программа рассматривает строковые массивы как массивы ячеек символьных векторов.)

В двух последних случаях колонка j из label содержит вектор прогнозируемых меток, созданных поддеревом Subtrees(j).

`score` - Задние вероятности
числовая матрица

Апостериорные вероятности, возвращаемые в виде числовой матрицы размера Nоколо-K, где N - количество наблюдений (строк) в X, и K - количество классов (в Mdl.ClassNames). score(i,j) - задняя вероятность того, что строка i из X имеет класс j.

Если Subtrees имеет T элементы, и X имеет N строки, затем score является Nоколо-Kоколо-T массив, и node и cnum являются Nоколо-T матрицы.

`node` - Номера узлов
числовой вектор

Номера узлов для прогнозируемых классов, возвращаемые в виде числового вектора. Каждая запись соответствует прогнозируемому узлу в Mdl для соответствующей строки X.

`cnum` - Номера классов
числовой вектор

Номера классов, соответствующие прогнозируемому labels, возвращается в виде числового вектора. Каждая запись cnum соответствует прогнозируемому номеру класса для соответствующей строки X.

Примеры

развернуть все

Прогнозирование меток с помощью дерева классификации

Открыть сценарий в реальном времени

Изучите прогнозы для нескольких строк в наборе данных, исключенном из обучения.

Загрузите набор данных радужки Фишера.

load fisheriris

Разбейте данные на наборы обучения (50%) и проверки (50%).

n = size(meas,1);
rng(1) % For reproducibility
idxTrn = false(n,1);
idxTrn(randsample(n,round(0.5*n))) = true; % Training set logical indices
idxVal = idxTrn == false;                  % Validation set logical indices

Создайте дерево классификации с помощью обучающего набора.

Mdl = fitctree(meas(idxTrn,:),species(idxTrn));

Прогнозирование меток для данных проверки. Подсчитать количество неправильно классифицированных наблюдений.

label = predict(Mdl,meas(idxVal,:));
label(randsample(numel(label),5)) % Display several predicted labels

ans = 5x1 cell
    {'setosa'    }
    {'setosa'    }
    {'setosa'    }
    {'virginica' }
    {'versicolor'}

numMisclass = sum(~strcmp(label,species(idxVal)))

numMisclass = 3

Программное обеспечение неправильно классифицирует три наблюдения вне выборки.

Оценка апостериорных вероятностей класса с использованием дерева классификации

Открыть сценарий в реальном времени

Загрузите набор данных радужки Фишера.

load fisheriris

Разбейте данные на наборы обучения (50%) и проверки (50%).

n = size(meas,1);
rng(1) % For reproducibility
idxTrn = false(n,1);
idxTrn(randsample(n,round(0.5*n))) = true; % Training set logical indices
idxVal = idxTrn == false;                  % Validation set logical indices

Создайте дерево классификации с помощью обучающего набора, а затем просмотрите его.

Mdl = fitctree(meas(idxTrn,:),species(idxTrn));
view(Mdl,'Mode','graph')

Figure Classification tree viewer contains an axes and other objects of type uimenu, uicontrol. The axes contains 18 objects of type line, text.

Полученное дерево имеет четыре уровня.

Оцените апостериорные вероятности для тестового набора с использованием поддеревьев, отсеченных до уровней 1 и 3.

[~,Posterior] = predict(Mdl,meas(idxVal,:),'SubTrees',[1 3]);
Mdl.ClassNames

ans = 3x1 cell
    {'setosa'    }
    {'versicolor'}
    {'virginica' }

Posterior(randsample(size(Posterior,1),5),:,:),...
    % Display several posterior probabilities

ans = 
ans(:,:,1) =

    1.0000         0         0
    1.0000         0         0
    1.0000         0         0
         0         0    1.0000
         0    0.8571    0.1429


ans(:,:,2) =

    0.3733    0.3200    0.3067
    0.3733    0.3200    0.3067
    0.3733    0.3200    0.3067
    0.3733    0.3200    0.3067
    0.3733    0.3200    0.3067

Элементы Posterior являются апостериорными вероятностями классов:

Строки соответствуют наблюдениям в наборе проверки.
Столбцы соответствуют классам, перечисленным в Mdl.ClassNames.
Страницы соответствуют поддеревьям.

Поддерево, отсеченное до уровня 1, более уверено в своих прогнозах, чем поддерево, отсеченное до уровня 3 (т.е. корневой узел).

Подробнее

развернуть все

Метка прогнозируемого класса

predict классифицирует путем минимизации ожидаемых затрат на неправильную классификацию:

$\overset{}{y}^\underset{argminy = 1,}{=} ._{. .,}^{} \overset{}{} K∑j=1KP^(j 'x)$ C (y' j),

где:

$\overset{}{y}$ ^ - прогнозируемая классификация.
K - количество классов.
$\overset{}{P}^($ j 'x) - задняя вероятность класса j для наблюдения x.
$C (y 'j$ ) - стоимость классификации наблюдения как y, когда его истинным классом является j.

Оценка (дерево)

Для деревьев оценка классификации листового узла является апостериорной вероятностью классификации в этом узле. Апостериорная вероятность классификации в узле - это число обучающих последовательностей, которые приводят к этому узлу с классификацией, деленное на число обучающих последовательностей, которые приводят к этому узлу.

Например, рассмотрите возможность классификации предиктора X как true когда X < 0.15 или X > 0.95, и X в противном случае имеет значение false.

Создайте 100 случайных точек и классифицируйте их:

rng(0,'twister') % for reproducibility
X = rand(100,1);
Y = (abs(X - .55) > .4);
tree = fitctree(X,Y);
view(tree,'Mode','Graph')

Обрезать дерево:

tree1 = prune(tree,'Level',1);
view(tree1,'Mode','Graph')

Обрезанное дерево правильно классифицирует наблюдения, которые меньше 0,15 true. Он также правильно классифицирует наблюдения с .15 по .94 как false. Однако он неправильно классифицирует наблюдения, которые превышают 0,94, как false. Поэтому оценка для наблюдений, которые превышают 0,15, должна быть около 0,05/.85 = 0,06 дляtrueи около 0,8/.85 = 0,94 дляfalse.

Вычислите оценки прогнозирования для первых 10 строк X:

[~,score] = predict(tree1,X(1:10));
[score X(1:10,:)]

ans = 10×3

    0.9059    0.0941    0.8147
    0.9059    0.0941    0.9058
         0    1.0000    0.1270
    0.9059    0.0941    0.9134
    0.9059    0.0941    0.6324
         0    1.0000    0.0975
    0.9059    0.0941    0.2785
    0.9059    0.0941    0.5469
    0.9059    0.0941    0.9575
    0.9059    0.0941    0.9649

Действительно, каждая ценность X (самый правый столбец), который меньше 0,15, имеет связанные оценки (левый и центральный столбцы) 0 и 1, в то время как другие значения X имеют связанные баллы 0.91 и 0.09. Разница (балл 0.09 вместо ожидаемого .06) из-за статистической флуктуации: есть 8 наблюдения в X в диапазоне (.95,1) вместо ожидаемого 5 наблюдения.

Истинная стоимость неправильной классификации

Истинная стоимость неправильной классификации - это стоимость классификации наблюдения в неверный класс.

Можно установить истинную стоимость неправильной классификации для класса с помощью 'Cost' аргумент «имя-значение» при создании классификатора. Cost(i,j) - затраты на классификацию наблюдения по классу j когда его истинным классом является i. По умолчанию Cost(i,j)=1 если i~=j, и Cost(i,j)=0 если i=j. Другими словами, стоимость составляет 0 для правильной классификации и 1 за неправильную классификацию.

Ожидаемые затраты

Ожидаемая стоимость неправильной классификации для каждого наблюдения представляет собой усредненную стоимость классификации наблюдения по каждому классу.

Предположим, что у вас есть Nobs наблюдения, которые вы хотите классифицировать с помощью обученного классификатора, и у вас есть K классы. Вы помещаете наблюдения в матрицу X с одним наблюдением на строку.

Матрица ожидаемых затрат CE имеет размер Nobsоколо-K. Каждая строка CE содержит ожидаемую (среднюю) стоимость классификации наблюдения в каждом из K классы. CE(n,k) является

$_{}^{} \overset{\sumi=1KP^}{} (i 'X (n)) C ($ k' i),

где:

K - количество классов.
$\overset{}{P}^(i 'X ($ n)) - задняя вероятность класса i для наблюдения X (n).
$C (k 'i$ ) - истинная стоимость неправильной классификации при классификации наблюдения как k, когда его истинным классом является i.

Прогностическая мера ассоциации

Прогностическая мера ассоциации - это значение, указывающее на сходство между правилами принятия решений, разделяющими наблюдения. Среди всех возможных разделений решений, которые сравниваются с оптимальным разделением (найденным при выращивании дерева), лучшее разделение суррогатного решения дает максимальную прогностическую меру ассоциации. Второй по величине суррогатный раскол имеет вторую по величине прогностическую меру ассоциации.

Предположим, _{что xj} и _xk являются прогнозирующими переменными j и k, соответственно, и j ≠ k. В узле t прогностическая мера ассоциации между оптимальным split _xj < u и суррогатным split _xk < v равна

$_{λ jk} \frac{= \min_{} (_{PL}, PR)_{-_{} (_{1}} -_{_{}_{}}}{PLjLk −_{}_{PRjRk})}$ min (PL, PR).

_PL - доля наблюдений в узле t, такая, что _xj < u. Нижний индекс L обозначает левый нижестоящий элемент узла t.
_PR - это доля наблюдений в узле t, такая, что _xj ≥ u. Нижний индекс R обозначает правый нижестоящий элемент узла t.
$_{_{}_{PLjLk}}$ - доля наблюдений на узле t, такая, что _xj < u и _xk < v
$_{_{}_{PRjRk}}$ - это доля наблюдений в узле t, так что _xj ≥ u и _xk ≥ v.
Наблюдения с отсутствующими значениями для _xj или _xk не способствуют расчетам пропорций.

_{λ jk} - значение в (- ∞,1]. Если _{λ jk} > 0, то _xk < v является стоящим суррогатным разделением для _xj < u.

Алгоритмы

predict генерирует прогнозы, следуя ветвям Mdl до тех пор, пока он не достигнет конечного узла или отсутствующего значения. Если predict достигает конечного узла, возвращает классификацию этого узла.

Если predict достигает узла с отсутствующим значением для предиктора, его поведение зависит от установки Surrogate пара имя-значение, когда fitctree конструкции Mdl.

Surrogate = 'off' (по умолчанию) - predict возвращает метку с наибольшим количеством обучающих образцов, достигающих узла.
Surrogate = 'on' — predict использует наилучшее суррогатное разделение в узле. Если все суррогатные разделенные переменные с положительной прогностической мерой ассоциации отсутствуют, predict возвращает метку с наибольшим количеством обучающих образцов, достигающих узла. Определение см. в разделе Предиктивная мера связи.

Альтернативная функциональность

Блок симулятора

Чтобы интегрировать прогнозирование модели дерева классификации в Simulink ®, можно использовать блок Прогнозирование дерева классификации в библиотеке Toolbox™ статистики и машинного обучения или функциональный блок ^MATLAB ® с помощью predict функция. Для примеров посмотрите, Предсказывают, что Этикетки Класса Используя ClassificationTree Предсказывают Блок и Предсказывают Этикетки Класса Используя Функциональный блок MATLAB.

При принятии решения о том, какой подход использовать, необходимо учитывать следующее:

При использовании блока библиотеки инструментов «Статистика и машинное обучение» для преобразования модели с плавающей запятой в фиксированную можно использовать инструмент «Фиксированная точка» (Fixed-Point Designer).
Поддержка массивов переменного размера должна быть включена для функционального блока MATLAB с predict функция.
При использовании функционального блока MATLAB можно использовать функции MATLAB для предварительной обработки или последующей обработки до или после прогнозирования в том же функциональном блоке MATLAB.

Расширенные возможности

Массивы высокого уровня
Расчет с массивами, в которых больше строк, чем в памяти.

Эта функция полностью поддерживает массивы tall. С помощью этой функции можно использовать модели, обученные работе с данными в памяти или с данными высокого уровня.

Дополнительные сведения см. в разделе Массивы Tall.

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

Примечания и ограничения по использованию:

Можно создать код C/C + + для обоихpredict и update с помощью конфигуратора кодера. Или создайте код только для predict с помощью saveLearnerForCoder, loadLearnerForCoder, и codegen.
- Создание кода для predict и update - Создание конфигуратора кодера с помощью learnerCoderConfigurer а затем создать код с помощью generateCode. Затем можно обновить параметры модели в сгенерированном коде без необходимости регенерации кода.
- Создание кода для predict - сохранение обучаемой модели с помощью saveLearnerForCoder. Определение функции точки входа, которая загружает сохраненную модель с помощью loadLearnerForCoder и вызывает predict функция. Затем использовать codegen (Кодер MATLAB) для создания кода для функции точки входа.

Чтобы создать код C/C + + с одной точностью для прогнозирования, укажите аргумент имя-значение'DataType','single' при вызове loadLearnerForCoder функция.
Также можно создать код C/C + + с фиксированной точкой дляpredict. Создание кода с фиксированной точкой требует дополнительного шага, который определяет типы данных с фиксированной точкой переменных, необходимых для прогнозирования. Создание структуры типа данных с фиксированной точкой с помощью функции типа данных, созданной generateLearnerDataTypeFcnи использовать структуру в качестве входного аргумента loadLearnerForCoder в функции точки входа. Для создания кода C/C + + с фиксированной точкой требуется Coder™ MATLAB и Designer™ с фиксированной точкой.

Эта таблица содержит примечания о аргументах predict. Аргументы, не включенные в эту таблицу, полностью поддерживаются.

Аргумент	Примечания и ограничения
`Mdl`	Примечания по использованию и ограничения объекта модели см. в разделе Создание кода `CompactClassificationTree` объект.
`X`	Для создания общего кода, `X` должна быть матрицей с одинарной или двойной точностью или таблицей, содержащей числовые переменные, категориальные переменные или и то, и другое. В рабочем процессе конфигуратора кодера `X` должна быть матрицей с одной или двойной точностью. Для создания кода с фиксированной точкой, `X` должна быть матрицей с фиксированной точкой. Количество строк или наблюдений в `X` может быть переменным размером, но количество столбцов в `X` должны быть исправлены. Если требуется указать `X` в качестве таблицы модель должна быть обучена с использованием таблицы, а исходная функция для прогнозирования должна: Принимать данные как массивы. Создайте таблицу из аргументов ввода данных и укажите имена переменных в таблице. Передать таблицу в `predict`. Пример этого рабочего процесса таблицы см. в разделе Создание кода для классификации данных в таблице. Дополнительные сведения об использовании таблиц в генерации кода см. в разделах Создание кода для таблиц (кодер MATLAB) и Ограничения таблицы для генерации кода (кодер MATLAB).
`label`	Если тип данных ответа - `char` и `codegen` не может определить, что значение `Subtrees` является скаляром, то `label` является массивом ячеек символьных векторов.
`'Subtrees'`	Имена в аргументах пары имя-значение должны быть константами времени компиляции. Например, чтобы разрешить пользовательские уровни отсечения в сгенерированном коде, включите `{coder.Constant('Subtrees'),coder.typeof(0,[1,n],[0,1])}` в `-args` значение `codegen` (Кодер MATLAB), где `n` является `max(Mdl.PruneList)`. `'Subtrees'` аргумент пары имя-значение не поддерживается в рабочем процессе конфигуратора кодера. Для создания кода с фиксированной точкой, `'Subtrees'` значение должно быть `coder.Constant('all')` или имеют целочисленный тип данных.

Дополнительные сведения см. в разделе Введение в создание кода.

См. также

Темы

Укажите аргументы переменного размера для создания кода

Представлен в R2011a

Документация

предсказать

Синтаксис

Описание

Входные аргументы

`Mdl` - Обученное дерево классификации
`ClassificationTree` объект модели | `CompactClassificationTree` объект модели

`X` - Данные предиктора должны быть классифицированы
числовая матрица | таблица

Аргументы пары «имя-значение»

`'Subtrees'` - Уровень отсечения
0 (по умолчанию) | вектор неотрицательных целых чисел | `'all'`

Выходные аргументы

`label` - Прогнозируемые метки классов
вектор | массив

`score` - Задние вероятности
числовая матрица

`node` - Номера узлов
числовой вектор

`cnum` - Номера классов
числовой вектор

Примеры

Прогнозирование меток с помощью дерева классификации

Оценка апостериорных вероятностей класса с использованием дерева классификации

Подробнее

Метка прогнозируемого класса

Оценка (дерево)

Истинная стоимость неправильной классификации

Ожидаемые затраты

Прогностическая мера ассоциации

Алгоритмы

Альтернативная функциональность

Блок симулятора

Расширенные возможности

Массивы высокого уровня
Расчет с массивами, в которых больше строк, чем в памяти.

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

предсказать

Синтаксис

Описание

Входные аргументы

Mdl - Обученное дерево классификации ClassificationTree объект модели | CompactClassificationTree объект модели

X - Данные предиктора должны быть классифицированы числовая матрица | таблица

Аргументы пары «имя-значение»

'Subtrees' - Уровень отсечения 0 (по умолчанию) | вектор неотрицательных целых чисел | 'all'

Выходные аргументы

label - Прогнозируемые метки классов вектор | массив

score - Задние вероятности числовая матрица

node - Номера узлов числовой вектор

cnum - Номера классов числовой вектор

Примеры

Прогнозирование меток с помощью дерева классификации

Оценка апостериорных вероятностей класса с использованием дерева классификации

Подробнее

Метка прогнозируемого класса

Оценка (дерево)

Истинная стоимость неправильной классификации

Ожидаемые затраты

Прогностическая мера ассоциации

Алгоритмы

Альтернативная функциональность

Блок симулятора

Расширенные возможности

Массивы высокого уровня Расчет с массивами, в которых больше строк, чем в памяти.

Создание кода C/C + + Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`Mdl` - Обученное дерево классификации
`ClassificationTree` объект модели | `CompactClassificationTree` объект модели

`X` - Данные предиктора должны быть классифицированы
числовая матрица | таблица

`'Subtrees'` - Уровень отсечения
0 (по умолчанию) | вектор неотрицательных целых чисел | `'all'`

`label` - Прогнозируемые метки классов
вектор | массив

`score` - Задние вероятности
числовая матрица

`node` - Номера узлов
числовой вектор

`cnum` - Номера классов
числовой вектор

Массивы высокого уровня
Расчет с массивами, в которых больше строк, чем в памяти.

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™