exponenta event banner

resubMargin

Маржа классификации ресообразования

    Описание

    пример

    m = resubMargin(Mdl) возвращает значение классификационного запаса при повторном замещении (m) для обученной модели классификации Mdl используя данные предиктора, хранящиеся в Mdl.X и соответствующие метки истинного класса, хранящиеся в Mdl.Y.

    m возвращается в виде вектора числового столбца n-by-1, где n - количество наблюдений в данных предиктора.

    пример

    m = resubMargin(Mdl,'IncludeInteractions',includeInteractions) указывает, следует ли включать в вычисления элементы взаимодействия. Этот синтаксис применяется только к обобщенным аддитивным моделям.

    Примеры

    свернуть все

    Оценка полей классификации повторного замещения (в выборке) наивного классификатора Байеса. Запас наблюдения - это наблюдаемый балл истинного класса минус максимальный балл ложного класса среди всех баллов соответствующего класса.

    Загрузить fisheriris набор данных. Создать X в виде цифровой матрицы, которая содержит четыре измерения для 150 ирисов. Создать Y как клеточный массив характерных векторов, который содержит соответствующие виды радужки.

    load fisheriris
    X = meas;
    Y = species;

    Обучить наивный классификатор Байеса с помощью предикторов X и метки классов Y. Рекомендуется указывать имена классов. fitcnb предполагает, что каждый предиктор условно и нормально распределен.

    Mdl = fitcnb(X,Y,'ClassNames',{'setosa','versicolor','virginica'})
    Mdl = 
      ClassificationNaiveBayes
                  ResponseName: 'Y'
         CategoricalPredictors: []
                    ClassNames: {'setosa'  'versicolor'  'virginica'}
                ScoreTransform: 'none'
               NumObservations: 150
             DistributionNames: {'normal'  'normal'  'normal'  'normal'}
        DistributionParameters: {3x4 cell}
    
    
      Properties, Methods
    
    

    Mdl является обученным ClassificationNaiveBayes классификатор.

    Оцените поля классификации повторного замещения.

    m = resubMargin(Mdl);
    median(m)
    ans = 1.0000
    

    Отображение гистограммы полей классификации в выборке.

    histogram(m,30,'Normalization','probability')
    xlabel('In-Sample Margins')
    ylabel('Probability')
    title('Probability Distribution of the In-Sample Margins')

    Figure contains an axes. The axes with title Probability Distribution of the In-Sample Margins contains an object of type histogram.

    Предпочтительны классификаторы, дающие относительно большую маржу.

    Выбор элемента выполняется путем сравнения полей в выборке из нескольких моделей. Исходя исключительно из этого сравнения, модель с самыми высокими маржами является лучшей моделью.

    Загрузить ionosphere набор данных. Определите два набора данных:

    • fullX содержит все предикторы (за исключением удаленного столбца 0s).

    • partX содержит последние 20 предикторов.

    load ionosphere
    fullX = X;
    partX = X(:,end-20:end);

    Обучить классификатор вектора поддержки (SVM) для каждого набора предикторов.

    FullSVMModel = fitcsvm(fullX,Y);
    PartSVMModel = fitcsvm(partX,Y);

    Оценка полей выборки для каждого классификатора.

    fullMargins = resubMargin(FullSVMModel);
    partMargins = resubMargin(PartSVMModel);
    n = size(X,1);
    p = sum(fullMargins < partMargins)/n
    p = 0.2251
    

    Примерно 22% маржи от полной модели меньше, чем у модели с меньшим количеством предикторов. Этот результат говорит о том, что модель, обученная со всеми предикторами, лучше.

    Сравните обобщенную аддитивную модель (GAM) с линейными членами с GAM как с линейными, так и с терминами взаимодействия путем изучения полей обучающей выборки и края. Исходя исключительно из этого сравнения, классификатор с наибольшими полями и краями является лучшей моделью.

    Загрузка данных переписи 1994 года, хранящихся в census1994.mat. Набор данных состоит из демографических данных Бюро переписи населения США для прогнозирования того, составляет ли человек более 50 000 долларов в год. Задача классификации состоит в том, чтобы соответствовать модели, которая предсказывает категорию зарплаты людей с учетом их возраста, рабочего класса, уровня образования, семейного положения, расы и так далее.

    load census1994

    census1994 содержит набор данных обучения adultdata и набор тестовых данных adulttest. Чтобы сократить время работы для этого примера, выполните пример 500 учебных наблюдений из adultdata с помощью datasample функция.

    rng('default') % For reproducibility
    NumSamples = 5e2;
    adultdata = datasample(adultdata,NumSamples,'Replace',false);

    Обучайте GAM, который содержит как линейные, так и условия взаимодействия для предикторов. Укажите, чтобы включить все доступные термины взаимодействия, значения p которых не превышают 0,05.

    Mdl = fitcgam(adultdata,'salary','Interactions','all','MaxPValue',0.05)
    Mdl = 
      ClassificationGAM
               PredictorNames: {1x14 cell}
                 ResponseName: 'salary'
        CategoricalPredictors: [2 4 6 7 8 9 10 14]
                   ClassNames: [<=50K    >50K]
               ScoreTransform: 'logit'
                    Intercept: -32.0842
                 Interactions: [82x2 double]
              NumObservations: 500
    
    
      Properties, Methods
    
    

    Mdl является ClassificationGAM объект модели. Mdl включает в себя 82 условия взаимодействия.

    Оценить границы и границы учебных образцов для Mdl.

    M = resubMargin(Mdl);
    E = resubEdge(Mdl)
    E = 1.0000
    

    Оценить границы и границы учебных образцов для Mdl без включения условий взаимодействия.

    M_nointeractions = resubMargin(Mdl,'IncludeInteractions',false);
    E_nointeractions = resubEdge(Mdl,'IncludeInteractions',false)
    E_nointeractions = 0.9516
    

    Отображение распределений полей с помощью оконных графиков.

    boxplot([M M_nointeractions],'Labels',{'Linear and Interaction Terms','Linear Terms Only'})
    title('Box Plots of Training Sample Margins')

    Figure contains an axes. The axes with title Box Plots of Training Sample Margins contains 14 objects of type line.

    При включении условий взаимодействия в расчет все значения маржи повторного замещения для Mdl равны 1, а значение края повторного замещения (среднее значение полей) равно 1. Поля и края уменьшаются, если не включить термины взаимодействия в Mdl.

    Входные аргументы

    свернуть все

    Классификационная модель машинного обучения, заданная как полный объект классификационной модели, как указано в следующей таблице поддерживаемых моделей.

    МодельОбъект классификационной модели
    Обобщенная аддитивная модельClassificationGAM
    k-ближайшая соседняя модельClassificationKNN
    Наивная модель БайесаClassificationNaiveBayes
    Модель нейронной сетиClassificationNeuralNetwork
    Поддержка векторной машины для одноклассной и двоичной классификацииClassificationSVM

    Флаг для включения условий взаимодействия модели, указанный как true или false. Этот аргумент действителен только для обобщенной аддитивной модели (GAM). То есть этот аргумент можно указать только тогда, когда Mdl является ClassificationGAM.

    Значение по умолчанию: true если Mdl содержит термины взаимодействия. Значение должно быть false если модель не содержит терминов взаимодействия.

    Типы данных: logical

    Подробнее

    свернуть все

    Маржа классификации

    Поле классификации для двоичной классификации является для каждого наблюдения разницей между оценкой классификации для истинного класса и оценкой классификации для ложного класса. Запас классификации для мультиклассовой классификации представляет собой разницу между показателем классификации для истинного класса и максимальным показателем классификации для ложных классов.

    Если поля находятся на одной шкале (то есть значения баллов основаны на одном и том же преобразовании баллов), то они служат в качестве показателя достоверности классификации. Среди нескольких классификаторов лучше те, которые дают большую маржу.

    Алгоритмы

    resubMargin вычисляет маржу классификации согласно соответствующему margin функция объекта (Mdl). Описание модели см. в разделе margin страницы ссылок на функции в следующей таблице.

    МодельОбъект классификационной модели (Mdl)margin Функция объекта
    Обобщенная аддитивная модельClassificationGAMmargin
    k-ближайшая соседняя модельClassificationKNNmargin
    Наивная модель БайесаClassificationNaiveBayesmargin
    Модель нейронной сетиClassificationNeuralNetworkmargin
    Поддержка векторной машины для одноклассной и двоичной классификацииClassificationSVMmargin

    Расширенные возможности

    См. также

    | |

    Представлен в R2012a