exponenta event banner

logp

Логарифмическая безусловная плотность вероятности для наивного классификатора Байеса

Описание

lp = logp(Mdl,tbl) возвращает логарифмическую безусловную плотность вероятности (lp) наблюдений (строк) в tbl использование наивной модели Байеса Mdl. Вы можете использовать lp для определения отклонений в данных обучения.

пример

lp = logp(Mdl,X) возвращает логарифмическую безусловную плотность вероятности наблюдений (строк) в X использование наивной модели Байеса Mdl.

Примеры

свернуть все

Вычислите безусловные плотности вероятности выборочных наблюдений наивной модели классификатора Байеса.

Загрузить fisheriris набор данных. Создать X в виде цифровой матрицы, которая содержит четыре измерения лепестка для 150 ирисов. Создать Y как клеточный массив характерных векторов, который содержит соответствующие виды радужки.

load fisheriris
X = meas;
Y = species;

Обучить наивный классификатор Байеса с помощью предикторов X и метки классов Y. Рекомендуется указывать имена классов. fitcnb предполагает, что каждый предиктор условно и нормально распределен.

Mdl = fitcnb(X,Y,'ClassNames',{'setosa','versicolor','virginica'})
Mdl = 
  ClassificationNaiveBayes
              ResponseName: 'Y'
     CategoricalPredictors: []
                ClassNames: {'setosa'  'versicolor'  'virginica'}
            ScoreTransform: 'none'
           NumObservations: 150
         DistributionNames: {'normal'  'normal'  'normal'  'normal'}
    DistributionParameters: {3x4 cell}


  Properties, Methods

Mdl является обученным ClassificationNaiveBayes классификатор.

Вычислите безусловные плотности вероятности наблюдений в выборке.

lp = logp(Mdl,X);

Определить индексы наблюдений, которые имеют очень малые или очень большие логарифмические безусловные вероятности (ind). Дисплей нижний (L) и верхней (U) пороговые значения, используемые способом обнаружения отклонений.

[TF,L,U] = isoutlier(lp);
L
L = -6.9222
U
U = 3.0323
ind = find(TF)
ind = 4×1

    61
   118
   119
   132

Отображение значений безусловных плотностей вероятности отклонения.

lp(ind)
ans = 4×1

   -7.8995
   -8.4765
   -6.9854
   -7.8969

Все отклонения меньше нижнего порога обнаружения отклонений.

Постройте график безусловных плотностей вероятности.

histogram(lp)
hold on
xline(L,'k--')
hold off
xlabel('Log unconditional probability')
ylabel('Frequency')
title('Histogram: Log Unconditional Probability')

Figure contains an axes. The axes with title Histogram: Log Unconditional Probability contains 2 objects of type histogram, constantline.

Входные аргументы

свернуть все

Наивная модель классификации Байеса, указанная как ClassificationNaiveBayes объект модели или CompactClassificationNaiveBayes объект модели, возвращенный fitcnb или compactсоответственно.

Образец данных, используемых для обучения модели, указанный как таблица. Каждая строка tbl соответствует одному наблюдению, и каждый столбец соответствует одной прогнозирующей переменной. tbl должен содержать все предикторы, используемые для обучения Mdl. Многозначные переменные и массивы ячеек, отличные от массивов ячеек символьных векторов, не допускаются. Дополнительно, tbl может содержать дополнительные столбцы для переменной ответа и весов наблюдения.

Если вы тренируетесь Mdl используя образцы данных, содержащиеся в таблице, затем входные данные для logp также должен находиться в таблице.

Данные предиктора, заданные как числовая матрица.

Каждая строка X соответствует одному наблюдению (также известному как экземпляр или пример), и каждый столбец соответствует одной переменной (также известной как элемент). Переменные в столбцах X должны быть такими же, как переменные, которые обучали Mdl классификатор.

Длина Y и количество строк X должно быть равным.

Типы данных: double | single

Подробнее

свернуть все

Безусловная плотность вероятности

Безусловная плотность вероятности предикторов - это распределение плотности, маргинализированное по классам.

Другими словами, безусловная плотность вероятности равна

P (X1,..,XP) =∑k=1KP (X1,.., XP, Y = k) =∑k=1KP (X1,.., XP 'y = k) (Y = k),

где δ (Y = k) - вероятность предшествующего класса. Условное распределение данных, задаваемое классом (P (X1,.., XP 'y = k)) и классовое предварительное распределение вероятностей - это варианты обучения (то есть, вы указываете их при обучении классификатора).

Предварительная вероятность

Предшествующая вероятность класса - предполагаемая относительная частота, с которой наблюдения из этого класса происходят в популяции.

Представлен в R2014b