exponenta event banner

Проверка производительности классификатора с помощью набора тестов в приложении Classification Learner

В этом примере показано, как обучить несколько моделей в Classification Learner и определить наиболее эффективные модели на основе их точности проверки. Проверьте точность тестирования для наиболее эффективных моделей, обученных полному набору данных, включая данные обучения и проверки.

  1. В окне команд MATLAB ® загрузите ionosphere и создайте таблицу, содержащую данные. Разделите таблицу на учебные и тестовые наборы.

    load ionosphere
    tbl = array2table(X);
    tbl.Y = Y;
    
    rng('default') % For reproducibility of the data split
    partition = cvpartition(Y,'Holdout',0.15);
    idxTrain = training(partition); % Indices for the training set
    tblTrain = tbl(idxTrain,:);
    tblTest = tbl(~idxTrain,:);
  2. Открыть классификатор. Перейдите на вкладку Приложения и щелкните стрелку справа от раздела Приложения, чтобы открыть галерею приложений. В группе Machine Learning and Deep Learning выберите Classification Learner.

  3. На вкладке «Классификатор» в разделе «Файл» щелкните «Создать сеанс» и выберите «Из рабочей области».

  4. В диалоговом окне «Новая сессия из рабочей области» выберите tblTrain из списка «Переменная набора данных».

    Как показано в диалоговом окне, приложение выбирает переменные ответа и предиктора. Переменная ответа по умолчанию: Y. Для защиты от переоборудования по умолчанию используется пятикратная перекрестная проверка. В этом примере не изменяйте параметры по умолчанию.

    New Session from Workspace dialog box

  5. Чтобы принять параметры по умолчанию и продолжить, щелкните Начать сеанс (Start Session).

  6. Обучение всех предустановленных моделей. На вкладке «Классификатор» в разделе «Тип модели» щелкните стрелку, чтобы открыть галерею. В группе Начало работы щелкните Все. В разделе Обучение щелкните Обучение. Приложение обучает один из предустановленных типов моделей и отображает модели на панели Модели.

    Совет

    При наличии Toolbox™ Параллельные вычисления (Parallel Computing) можно одновременно обучить все модели (Все), нажав кнопку Использовать параллельные (Use Parallel) в разделе Обучение (Training), прежде чем нажать кнопку Поезд (Train). После нажатия кнопки Обучить открывается диалоговое окно Открытие параллельного пула, которое остается открытым, пока приложение открывает параллельный пул работников. В течение этого времени взаимодействие с программным обеспечением невозможно. После открытия пула приложение одновременно обучает модели.

  7. Сортировка обученных моделей по точности проверки. На панели Модели (Models) откройте список Сортировать по (Sort by) и выберите Accuracy (Validation).

  8. На панели Модели (Models) щелкните звездчатые значки рядом с тремя моделями с наивысшей точностью проверки. Приложение подчеркивает высочайшую точность проверки, помещая ее в рамку. В этом примере обученная модель среднего гауссова SVM имеет наивысшую точность проверки.

    Scatter plot of the ionosphere data

    Приложение отображает график рассеяния ionosphere данные. Правильно классифицированные точки помечаются буквой O, а неправильно классифицированные точки - буквой X. На панели Модели слева показана точность проверки для каждой модели.

    Примечание

    Проверка вносит некоторую случайность в результаты. Результаты проверки модели могут отличаться от результатов, показанных в этом примере.

  9. Проверьте производительность тестового набора наиболее эффективных моделей. Начните с импорта тестовых данных в приложение.

    На вкладке Классификатор в разделе Тестирование щелкните Тестовые данные и выберите Из рабочей области.

  10. В диалоговом окне Import Test Data выберите tblTest из списка Test Data Set Variable.

    Как показано в диалоговом окне, приложение идентифицирует переменные ответа и предиктора.

    Import Test Data dialog box

  11. Щелкните Импорт (Import).

  12. Вычислите точность лучших предустановленных моделей на tblTest данные. Для удобства вычислите точность тестового набора сразу для всех моделей. На вкладке Classification Learner в разделе Testing нажмите Test All и выберите Test All. Приложение вычисляет производительность тестового набора модели, обученной на полном наборе данных, включая данные обучения и проверки.

  13. Сортировать модели по точности набора тестов. На панели Модели (Models) откройте список Сортировать по (Sort by) и выберите Accuracy (Test). Приложение по-прежнему описывает метрику для модели с самой высокой точностью проверки, несмотря на отображение точности теста.

  14. Визуально проверьте характеристики тестового набора моделей. На вкладке «Классификатор» в разделе «Графики» щелкните «Матрица путаницы» и выберите «Тестовые данные». Можно переключаться между моделями для сравнения их производительности.

    В этом примере обученная средняя гауссова SVM остается одной из наиболее эффективных моделей данных тестового набора.

    Test set confusion matrix for the medium Gaussian SVM model

  15. Сравните точность проверки и тестирования для обученной модели среднего гауссова SVM. На панели Сводка по текущей модели (Current Model Summary) сравните значение Точность (Validation) в разделе Результаты обучения (Training Results) со значением Точность (Test) в разделе Результаты тестирования (Test Results). В этом примере два значения близки, что указывает на то, что точность проверки является хорошей оценкой точности теста для этой модели.

Связанные темы