edge

Классификационное ребро для наивного классификатора Байеса

Синтаксис

e = edge(Mdl,tbl,ResponseVarName)

e = edge(Mdl,tbl,Y)

e = edge(Mdl,X,Y)

e = edge(___,'Weights',Weights)

Описание

e = edge(Mdl,tbl,ResponseVarName) возвращает классификационное ребро (e) для наивного классификатора Байеса Mdl использование данных предиктора в таблице tbl и метки классов в tbl.ResponseVarName.

Классификационное ребро (e) - скалярное значение, которое представляет средневзвешенное значение классификационных полей.

e = edge(Mdl,tbl,Y) возвращает ребро классификации для Mdl использование данных предиктора в таблице tbl и метки классов в векторных Y.

пример

e = edge(Mdl,X,Y) возвращает ребро классификации для Mdl использование данных предиктора в матричных X и метки классов в Y.

пример

e = edge(___,'Weights',Weights) возвращает ребро с дополнительными весами наблюдений, представленными в Weights использование любой комбинации входных аргументов в предыдущих синтаксисах.

Примеры

свернуть все

Оценка ребра тестовой выборки наивного классификатора Байеса

Открыть Live Script

Оцените ребро тестовой выборки (среднее значение запаса классификации) наивного классификатора Байеса. Ребро тестовой выборки является средним различием тестовой выборки между оцененной апостериорной вероятностью для предсказанного класса и апостериорной вероятностью для класса со следующей самой низкой апостериорной вероятностью.

Загрузите fisheriris набор данных. Создание X как числовая матрица, которая содержит четыре измерения лепестков для 150 ирисов. Создание Y как массив ячеек из векторов символов, который содержит соответствующие виды радужной оболочки.

load fisheriris
X = meas;
Y = species;
rng('default')  % for reproducibility

Случайным образом разбейте наблюдения на набор обучающих данных и тестовый набор с расслоением, используя информацию о классе в Y. Укажите 30% -ная выборка удержания для проверки.

cv = cvpartition(Y,'HoldOut',0.30);

Извлеките индексы обучения и тестирования.

trainInds = training(cv);
testInds = test(cv);

Укажите наборы обучающих и тестовых данных.

XTrain = X(trainInds,:);
YTrain = Y(trainInds);
XTest = X(testInds,:);
YTest = Y(testInds);

Обучите наивный классификатор Байеса с помощью предикторов XTrain и метки классов YTrain. Рекомендуемая практика состоит в том, чтобы задать имена классов. fitcnb принимает, что каждый предиктор условно и нормально распределен.

Mdl = fitcnb(XTrain,YTrain,'ClassNames',{'setosa','versicolor','virginica'})

Mdl = 
  ClassificationNaiveBayes
              ResponseName: 'Y'
     CategoricalPredictors: []
                ClassNames: {'setosa'  'versicolor'  'virginica'}
            ScoreTransform: 'none'
           NumObservations: 105
         DistributionNames: {'normal'  'normal'  'normal'  'normal'}
    DistributionParameters: {3x4 cell}


  Properties, Methods

Mdl является обученным ClassificationNaiveBayes классификатор.

Оцените ребро тестовой выборки.

e = edge(Mdl,XTest,YTest)

e = 0.8658

Маржинальное среднее значение приблизительно 0.87. Этот результат предполагает, что классификатор помечает предикторы с высоким доверием.

Оценка взвешенного ребра тестовой выборки наивного классификатора Байеса

Открыть Live Script

Оцените взвешенное ребро тестовой выборки (среднее значение взвешенного запаса) наивного классификатора Байеса. Ребро тестовой выборки является средним различием тестовой выборки между оцененной апостериорной вероятностью для предсказанного класса и апостериорной вероятностью для класса со следующей самой низкой апостериорной вероятностью. Взвешенное ребро выборки оценивает среднее значение запаса, когда программа присваивает вес каждому наблюдению.

load fisheriris
X = meas;
Y = species;
rng('default')  % for reproducibility

Предположим, что некоторые измерения имеют более низкое качество, потому что они были измерены по старой технологии. Чтобы симулировать этот эффект, добавьте шум к случайному подмножеству из 20 измерений.

idx = randperm(size(X,1),20);
X(idx,:) = X(idx,:) + 2*randn(20,size(X,2));

cv = cvpartition(Y,'HoldOut',0.30);

Извлеките индексы обучения и тестирования.

trainInds = training(cv);
testInds = test(cv);

Укажите наборы обучающих и тестовых данных.

XTrain = X(trainInds,:);
YTrain = Y(trainInds);
XTest = X(testInds,:);
YTest = Y(testInds);

Mdl = fitcnb(XTrain,YTrain,'ClassNames',{'setosa','versicolor','virginica'});

Mdl является обученным ClassificationNaiveBayes классификатор.

Оцените ребро тестовой выборки.

e = edge(Mdl,XTest,YTest)

e = 0.5920

Средний запас составляет примерно 0,59.

Один из способов уменьшить эффект шумных измерений - назначить им меньше веса, чем другим наблюдениям. Задайте вектор веса, который дает лучшие наблюдения качества в два раза больше, чем другие наблюдения.

n = size(X,1);
weights = ones(size(X,1),1);
weights(idx) = 0.5;
weightsTrain = weights(trainInds);
weightsTest = weights(testInds);

Обучите наивный классификатор Байеса с помощью предикторов XTrain, метки классов YTrain, и веса weightsTrain.

Mdl_W = fitcnb(XTrain,YTrain,'Weights',weightsTrain,...
    'ClassNames',{'setosa','versicolor','virginica'});

Mdl_W является обученным ClassificationNaiveBayes классификатор.

Оцените взвешенное ребро тестовой выборки с помощью схемы взвешивания.

e_W = edge(Mdl_W,XTest,YTest,'Weights',weightsTest)

e_W = 0.6816

Средневзвешенная маржа составляет приблизительно 0,69. Этот результат указывает, что в среднем взвешенный классификатор помечает предикторы с более высоким доверием, чем шум, поврежденный предикторами.

Выберите Наивный классификатор Байеса Функций путем сравнения тестовых Выборок Ребер

Открыть Live Script

Классификатор ребра измеряет среднее значение полей классификатора. Один из способов выполнить выбор признаков - сравнить ребра тестовой выборки из нескольких моделей. Исходя исключительно из этого критерия, классификатор с самым высоким ребром является лучшим классификатором.

Загрузите ionosphere набор данных. Удалите первые два предиктора устойчивости.

load ionosphere
X = X(:,3:end);
rng('default')  % for reproducibility

cv = cvpartition(Y,'Holdout',0.30);

Извлеките индексы обучения и тестирования.

trainInds = training(cv);
testInds = test(cv);

Укажите наборы обучающих и тестовых данных.

XTrain = X(trainInds,:);
YTrain = Y(trainInds);
XTest = X(testInds,:);
YTest = Y(testInds);

Задайте эти два набора обучающих данных:

fullXTrain содержит все предикторы.
partXTrain содержит 10 наиболее важных предикторов.

fullXTrain = XTrain;
idx = fscmrmr(XTrain,YTrain);
partXTrain = XTrain(:,idx(1:10));

Обучите наивный классификатор Байеса для каждого набора предикторов.

fullMdl = fitcnb(fullXTrain,YTrain);
partMdl = fitcnb(partXTrain,YTrain);

fullMdl и partMdl обучаются ClassificationNaiveBayes классификаторы.

Оцените ребро тестовой выборки для каждого классификатора.

fullEdge = edge(fullMdl,XTest,YTest)

fullEdge = 0.5831

partEdge = edge(partMdl,XTest(:,idx(1:10)),YTest)

partEdge = 0.7593

Тестовое ребро выборки классификатора с использованием 10 наиболее важных предикторов больше.

Входные параметры

свернуть все

`Mdl` - Наивная классификационная модель Байеса
`ClassificationNaiveBayes` объект модели | `CompactClassificationNaiveBayes` объект модели

Наивная классификационная модель Байеса, заданная как ClassificationNaiveBayesобъект модели объект модели, возвращенный fitcnb или compact, соответственно.

`tbl` - Выборочные данные
таблица

Выборочные данные, используемых для обучения модели, заданная как таблица. Каждая строка tbl соответствует одному наблюдению, и каждый столбец соответствует одной переменной предиктора. tbl должны содержать все предикторы, используемые для обучения Mdl. Многополюсные переменные и массивы ячеек, отличные от массивов ячеек векторов символов, не разрешены. Опционально tbl может содержать дополнительные столбцы для переменной отклика и весов наблюдений.

Если вы обучаете Mdl используя выборочные данные, содержащуюся в таблице, затем входные данные для edge также должно быть в таблице.

`ResponseVarName` - Имя переменной отклика
имя переменной в `tbl`

Имя переменной отклика, заданное как имя переменной в tbl.

Вы должны задать ResponseVarName как вектор символов или строковый скаляр. Для примера, если переменная отклика y хранится как tbl.y, затем укажите его следующим 'y'. В противном случае программное обеспечение обрабатывает все столбцы tbl, включая y, как предикторы.

Если tbl содержит переменную отклика, используемую для обучения Mdl, тогда вам не нужно указывать ResponseVarName.

Переменная отклика должна быть категориальными символьными или строковыми массивами, логическим или числовым вектором или массивом ячеек из векторов символов. Если переменная отклика является символьным массивом, то каждый элемент должен соответствовать одной строке массива.

Типы данных: char | string

`X` - Данные предиктора
числовая матрица

Данные предиктора, заданные как числовая матрица.

Каждая строка X соответствует одному наблюдению (также известному как образец или пример), и каждый столбец соответствует одной переменной (также известной как функция). Переменные в столбцах X должно быть таким же, как переменные, которые обучили Mdl классификатор.

Длина Y и количество строк X должно быть равным.

Типы данных: double | single

`Y` - Метки классов
категориальный массив | символьный массив | строковые массивы | логический вектор | числовой вектор | массив ячеек из векторов символов

Метки класса, заданные как категориальные символьные или строковые массивы, логический или числовой вектор или массив ячеек из векторов символов. Y должны иметь тот совпадающий тип данных, что и Mdl.ClassNames. (Программа обрабатывает массивы строк как массивы ячеек векторов символов.)

Длина Y должно быть равно количеству строк tbl или X.

`Weights` - Веса наблюдений
`ones(size(X,1),1)` (по умолчанию) | числовой вектор | имя переменной в `tbl`

Веса наблюдений, заданные как числовой вектор или имя переменной в tbl. Программа взвешивает наблюдения в каждой строке X или tbl с соответствующими весами в Weights.

Если вы задаете Weights в виде числового вектора, затем размера Weights должно быть равно количеству строк X или tbl.

Если вы задаете Weights как имя переменной в tbl, тогда имя должно быть вектором символов или строковым скаляром. Для примера, если веса сохранены как tbl.w, затем задайте Weights как 'w'. В противном случае программное обеспечение обрабатывает все столбцы tbl, включая tbl.w, как предикторы.

Типы данных: double | char | string

Подробнее о

свернуть все

Классификационное ребро

Это classification edge - средневзвешенное значение классификационных полей.

Если вы поставляете веса, то программное обеспечение нормализует их, чтобы суммировать с предыдущей вероятностью их соответствующего класса. Программа использует нормированные веса, чтобы вычислить взвешенное среднее.

При выборе из нескольких классификаторов для выполнения задачи, такой как сечение функции, выберите классификатор, который приводит к наивысшему ребру.

Классификационные поля

classification margin для каждого наблюдения является различие между счетом для истинного класса и максимальным счетом для ложных классов. Маржи обеспечивают классификационную доверительную меру; среди нескольких классификаторов лучше те, которые дают большие маржи (по одной шкале).

Апостериорная вероятность

Это posterior probability вероятность того, что наблюдение принадлежит конкретному классу, учитывая данные.

Для наивного Байеса апостериорная вероятность того, что классификация k для заданного наблюдения (x 1,..., xP), является

$\hat{P} (Y = k | x_{1}, .., x_{P}) = \frac{P (X_{1}, ..., X_{P} | y = k) π (Y = k)}{P (X_{1}, ..., X_{P})},$

где:

$P (X_{1}, ..., X_{P} | y = k)$ - условная плотность соединений предикторов, заданная ими в k классов. Mdl.DistributionNames сохраняет имена распределения предикторов.
π (Y = k) является априорным распределением вероятностей класса. Mdl.Prior сохраняет предыдущее распределение.
$P (X_{1}, .., X_{P})$ - плотность соединений предикторов. Классы дискретны, поэтому $P (X_{1}, ..., X_{P}) = \sum_{k = 1}^{K} P (X_{1}, ..., X_{P} | y = k) π (Y = k) .$

Предварительная вероятность

prior probability класса является предполагаемой относительной частотой, с которой наблюдения из этого класса происходят в населении.

Классификационная оценка

Наивная score Байеса является апостериорной вероятностью класса, учитывая наблюдение.

Расширенные возможности

Длинные» массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

Эта функция полностью поддерживает длинные массивы. Для получения дополнительной информации см. Раздел «Длинные массивы»

См. также

Документация

edge

Синтаксис

Описание

Примеры

Оценка ребра тестовой выборки наивного классификатора Байеса

Оценка взвешенного ребра тестовой выборки наивного классификатора Байеса

Выберите Наивный классификатор Байеса Функций путем сравнения тестовых Выборок Ребер

Входные параметры

`Mdl` - Наивная классификационная модель Байеса
`ClassificationNaiveBayes` объект модели | `CompactClassificationNaiveBayes` объект модели

`tbl` - Выборочные данные
таблица

`ResponseVarName` - Имя переменной отклика
имя переменной в `tbl`

`X` - Данные предиктора
числовая матрица

`Y` - Метки классов
категориальный массив | символьный массив | строковые массивы | логический вектор | числовой вектор | массив ячеек из векторов символов

`Weights` - Веса наблюдений
`ones(size(X,1),1)` (по умолчанию) | числовой вектор | имя переменной в `tbl`

Подробнее о

Классификационное ребро

Классификационные поля

Апостериорная вероятность

Предварительная вероятность

Классификационная оценка

Расширенные возможности

Длинные» массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

См. также

Темы

Statistics and Machine Learning Toolbox документация

Поддержка

Документация

edge

Синтаксис

Описание

Примеры

Оценка ребра тестовой выборки наивного классификатора Байеса

Оценка взвешенного ребра тестовой выборки наивного классификатора Байеса

Выберите Наивный классификатор Байеса Функций путем сравнения тестовых Выборок Ребер

Входные параметры

Mdl - Наивная классификационная модель Байеса ClassificationNaiveBayes объект модели | CompactClassificationNaiveBayes объект модели

tbl - Выборочные данные таблица

ResponseVarName - Имя переменной отклика имя переменной в tbl

X - Данные предиктора числовая матрица

Y - Метки классов категориальный массив | символьный массив | строковые массивы | логический вектор | числовой вектор | массив ячеек из векторов символов

Weights - Веса наблюдений ones(size(X,1),1) (по умолчанию) | числовой вектор | имя переменной в tbl

Подробнее о

Классификационное ребро

Классификационные поля

Апостериорная вероятность

Предварительная вероятность

Классификационная оценка

Расширенные возможности

Длинные» массивы Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.

См. также

Темы

Statistics and Machine Learning Toolbox документация

Поддержка

`Mdl` - Наивная классификационная модель Байеса
`ClassificationNaiveBayes` объект модели | `CompactClassificationNaiveBayes` объект модели

`tbl` - Выборочные данные
таблица

`ResponseVarName` - Имя переменной отклика
имя переменной в `tbl`

`X` - Данные предиктора
числовая матрица

`Y` - Метки классов
категориальный массив | символьный массив | строковые массивы | логический вектор | числовой вектор | массив ячеек из векторов символов

`Weights` - Веса наблюдений
`ones(size(X,1),1)` (по умолчанию) | числовой вектор | имя переменной в `tbl`

Длинные» массивы
Осуществление вычислений с массивами, которые содержат больше строк, чем помещается в памяти.