exponenta event banner

resubEdge

Край классификации повторной субституции

    Описание

    пример

    e = resubEdge(Mdl) возвращает взвешенный край классификации повторного предоставления (e) для обученной модели классификации Mdl используя данные предиктора, хранящиеся в Mdl.X, соответствующие метки истинного класса, хранящиеся в Mdl.Yи веса наблюдения, хранящиеся в Mdl.W.

    пример

    e = resubEdge(Mdl,'IncludeInteractions',includeInteractions) указывает, следует ли включать в вычисления элементы взаимодействия. Этот синтаксис применяется только к обобщенным аддитивным моделям.

    Примеры

    свернуть все

    Загрузить ionosphere набор данных. Этот набор данных имеет 34 предиктора и 351 двоичный отклик для радарных возвращений, либо плохой ('b') или хорошо ('g').

    load ionosphere

    Обучение классификатора опорной векторной машины (SVM). Стандартизировать данные и указать, что 'g' является положительным классом.

    SVMModel = fitcsvm(X,Y,'Standardize',true,'ClassNames',{'b','g'});

    SVMModel является обученным ClassificationSVM классификатор.

    Оцените границу повторного замещения, которая является средним значением полей обучающей выборки.

    e = resubEdge(SVMModel)
    e = 5.0999
    

    Край классификатора измеряет среднее значение полей классификатора. Одним из способов выбора элементов является сравнение кромок обучающих образцов из нескольких моделей. Исходя исключительно из этого критерия, классификатор с наивысшим ребром является лучшим классификатором.

    Загрузить ionosphere набор данных. Удалите первые два предиктора стабильности.

    load ionosphere
    X = X(:,3:end);

    Определите два набора данных:

    • fullX содержит все предикторы.

    • partX содержит 10 наиболее важных предикторов.

    fullX = X;
    idx = fscmrmr(X,Y);
    partX = X(:,idx(1:10));

    Тренируйте наивный классификатор Байеса для каждого набора предикторов.

    FullMdl = fitcnb(fullX,Y);
    PartMdl = fitcnb(partX,Y);

    FullMdl и PartMdl обучены ClassificationNaiveBayes классификаторы.

    Оцените границу обучающей выборки для каждого классификатора.

    fullEdge = resubEdge(FullMdl)
    fullEdge = 0.6554
    
    partEdge = resubEdge(PartMdl)
    partEdge = 0.7796
    

    Край классификатора, обученного на 10 наиболее важных предикторах, больше. Этот результат говорит о том, что классификатор, обученный с использованием только этих предикторов, имеет лучшую подгонку в выборке.

    Сравните обобщенную аддитивную модель (GAM) с линейными членами с GAM как с линейными, так и с терминами взаимодействия путем изучения полей обучающей выборки и края. Исходя исключительно из этого сравнения, классификатор с наибольшими полями и краями является лучшей моделью.

    Загрузка данных переписи 1994 года, хранящихся в census1994.mat. Набор данных состоит из демографических данных Бюро переписи населения США для прогнозирования того, составляет ли человек более 50 000 долларов в год. Задача классификации состоит в том, чтобы соответствовать модели, которая предсказывает категорию зарплаты людей с учетом их возраста, рабочего класса, уровня образования, семейного положения, расы и так далее.

    load census1994

    census1994 содержит набор данных обучения adultdata и набор тестовых данных adulttest. Чтобы сократить время работы для этого примера, выполните пример 500 учебных наблюдений из adultdata с помощью datasample функция.

    rng('default') % For reproducibility
    NumSamples = 5e2;
    adultdata = datasample(adultdata,NumSamples,'Replace',false);

    Обучайте GAM, который содержит как линейные, так и условия взаимодействия для предикторов. Укажите, чтобы включить все доступные термины взаимодействия, значения p которых не превышают 0,05.

    Mdl = fitcgam(adultdata,'salary','Interactions','all','MaxPValue',0.05)
    Mdl = 
      ClassificationGAM
               PredictorNames: {1x14 cell}
                 ResponseName: 'salary'
        CategoricalPredictors: [2 4 6 7 8 9 10 14]
                   ClassNames: [<=50K    >50K]
               ScoreTransform: 'logit'
                    Intercept: -32.0842
                 Interactions: [82x2 double]
              NumObservations: 500
    
    
      Properties, Methods
    
    

    Mdl является ClassificationGAM объект модели. Mdl включает в себя 82 условия взаимодействия.

    Оценить границы и границы учебных образцов для Mdl.

    M = resubMargin(Mdl);
    E = resubEdge(Mdl)
    E = 1.0000
    

    Оценить границы и границы учебных образцов для Mdl без включения условий взаимодействия.

    M_nointeractions = resubMargin(Mdl,'IncludeInteractions',false);
    E_nointeractions = resubEdge(Mdl,'IncludeInteractions',false)
    E_nointeractions = 0.9516
    

    Отображение распределений полей с помощью оконных графиков.

    boxplot([M M_nointeractions],'Labels',{'Linear and Interaction Terms','Linear Terms Only'})
    title('Box Plots of Training Sample Margins')

    Figure contains an axes. The axes with title Box Plots of Training Sample Margins contains 14 objects of type line.

    При включении условий взаимодействия в расчет все значения маржи повторного замещения для Mdl равны 1, а значение края повторного замещения (среднее значение полей) равно 1. Поля и края уменьшаются, если не включить термины взаимодействия в Mdl.

    Входные аргументы

    свернуть все

    Классификационная модель машинного обучения, заданная как полный объект классификационной модели, как указано в следующей таблице поддерживаемых моделей.

    МодельОбъект классификационной модели
    Обобщенная аддитивная модельClassificationGAM
    k-ближайшая соседняя модельClassificationKNN
    Наивная модель БайесаClassificationNaiveBayes
    Модель нейронной сетиClassificationNeuralNetwork
    Поддержка векторной машины для одноклассной и двоичной классификацииClassificationSVM

    Флаг для включения условий взаимодействия модели, указанный как true или false. Этот аргумент действителен только для обобщенной аддитивной модели (GAM). То есть этот аргумент можно указать только тогда, когда Mdl является ClassificationGAM.

    Значение по умолчанию: true если Mdl содержит термины взаимодействия. Значение должно быть false если модель не содержит терминов взаимодействия.

    Типы данных: logical

    Подробнее

    свернуть все

    Край классификации

    Край классификации - это средневзвешенное значение полей классификации.

    Один из способов выбора из нескольких классификаторов, например, выбор элемента, - выбор классификатора, который дает наибольший край.

    Маржа классификации

    Поле классификации для двоичной классификации является для каждого наблюдения разницей между оценкой классификации для истинного класса и оценкой классификации для ложного класса. Запас классификации для мультиклассовой классификации представляет собой разницу между показателем классификации для истинного класса и максимальным показателем классификации для ложных классов.

    Если поля находятся на одной шкале (то есть значения баллов основаны на одном и том же преобразовании баллов), то они служат в качестве показателя достоверности классификации. Среди нескольких классификаторов лучше те, которые дают большую маржу.

    Алгоритмы

    resubEdge вычисляет край классификации согласно соответствующему edge функция объекта (Mdl). Описание модели см. в разделе edge страницы ссылок на функции в следующей таблице.

    МодельОбъект классификационной модели (Mdl)edge Функция объекта
    Обобщенная аддитивная модельClassificationGAMedge
    k-ближайшая соседняя модельClassificationKNNedge
    Наивная модель БайесаClassificationNaiveBayesedge
    Модель нейронной сетиClassificationNeuralNetworkedge
    Поддержка векторной машины для одноклассной и двоичной классификацииClassificationSVMedge

    Расширенные возможности

    См. также

    | |

    Представлен в R2012a