Проверяйте производительность модели с помощью тестового набора в приложении Regression Learner

В этом примере показано, как обучить несколько моделей в Regression Learner и определить наиболее эффективные модели на основе их метрик валидации. Проверьте тестовые метрики на наиболее эффективные модели, обученные на полном наборе данных, включая данные обучения и валидации.

  1. В MATLAB® Командное окно, загрузите carbig Данные и создайте таблицу, содержащую большинство переменных. Разделите таблицу на обучающие и тестовые наборы.

    load carbig
    cartable = table(Acceleration,Cylinders,Displacement, ...
        Horsepower,Model_Year,Weight,Origin,MPG);
    
    rng('default') % For reproducibility of the data split
    n = length(MPG);
    partition = cvpartition(n,'Holdout',0.15);
    idxTrain = training(partition); % Indices for the training set
    cartableTrain = cartable(idxTrain,:);
    cartableTest = cartable(~idxTrain,:);
  2. Откройте Regression Learner. Щелкните вкладку Apps, а затем щелкните стреле справа от раздела Apps, чтобы открыть галерею Apps. В группе Machine Learning and Deep Learning нажмите Regression Learner.

  3. На вкладке Regression Learner, в разделе File, нажмите New Session и выберите From Workspace.

  4. В диалоговом окне «Новый сеанс из рабочей области» выберите cartableTrain таблица из списка Data Set Variable.

    Как показано в диалоговом окне, приложение выбирает переменные отклика и предиктора. Переменная отклика по умолчанию MPG. Чтобы защитить от сверхподбора кривой, опция валидации по умолчанию является 5-кратной перекрестной валидацией. В данном примере не изменяйте настройки по умолчанию.

    New Session from Workspace dialog box

  5. Чтобы принять опции по умолчанию и продолжить, нажмите Start Session.

  6. Обучите все предустановленные модели. На вкладке Regression Learner, в разделе Model Type, щелкните стреле, чтобы открыть галерею. В группе Get Started нажмите All. В Training разделе нажмите Train. Приложение обучает один из каждого предустановленного типа модели и отображает модели на панели Models.

    Совет

    Если у вас есть Parallel Computing Toolbox™, можно обучить все модели (All) одновременно, нажав кнопку Use Parallel в разделе Training перед нажатием Train. После нажатия кнопки Train открывается диалоговое окно Открытие параллельного пула, которое остается открытым, пока приложение открывает параллельный пул работников. В течение этого времени вы не можете взаимодействовать с программным обеспечением. После открытия пула приложение обучает модели одновременно.

  7. Отсортируйте обученные модели на основе средней квадратичной невязки корня валидации (RMSE). На панели Models откройте список Sort by и выберите RMSE (Validation).

  8. На панели Models щелкните значки звезды рядом с тремя моделями с самой низкой валидацией RMSE. Приложение выделяет самый низкий RMSE валидации, описывая его в кубе. В этом примере обученная модель Rational Quadratic GPR имеет самый низкий RMSE валидации.

    Response plot of the car data

    Приложение отображает график отклика данных о автомобиле. Синие точки являются истинными значениями, а желтые - предсказанными значениями. На Models панели слева показан RMSE валидации для каждой модели.

    Примечание

    Валидация вводит некоторую случайность в результаты. Результаты валидации вашей модели могут отличаться от результатов, показанных в этом примере.

  9. Проверьте эффективность тестового набора наиболее эффективных моделей. Начните с импорта тестовых данных в приложение.

    На вкладке Regression Learner, в разделе Testing, нажмите Test Data и выберите From Workspace.

  10. В диалоговом окне Import Test Data выберите cartableTest таблица из списка Test Data Set Variable.

    Как показано в диалоговом окне, приложение идентифицирует переменные отклика и предиктора.

    Import Test Data dialog box

  11. Нажмите Import.

  12. Вычислите RMSE лучших предустановленных моделей на cartableTest данные. Для удобства вычислите тестовый набор RMSE сразу для всех моделей. На вкладке Regression Learner, в разделе Testing, нажмите Test All и выберите Test All. Приложение вычисляет эффективность тестового набора модели, обученной на полном наборе данных, включая данные обучения и валидации.

  13. Отсортируйте модели на основе тестового набора RMSE. На панели Models откройте список Sort by и выберите RMSE (Test). Приложение все еще очерчивает метрику для модели с самой низкой валидацией RMSE, несмотря на отображение тестового RMSE.

  14. Визуально проверьте эффективность тестового набора моделей. На вкладке Regression Learner, в разделе Plots, нажмите Predicted vs. Actual и выберите Test Data. Можно переключаться между моделями, чтобы сравнить их эффективность.

    В этом примере обученная Medium Gaussian SVM работает с данными тестового набора лучше, чем две другие модели с звездами.

    Test set Predicted vs. Actual plot for the medium Gaussian SVM model

  15. Сравните валидацию и тестирование RMSE для обученной модели Medium Gaussian SVM. На панели Current Model Summary сравните значение RMSE (Validation) под Training Results со значением RMSE (Test) под Test Results. В этом примере два значения близки, что указывает на то, что RMSE валидации является хорошей оценкой тестового RMSE для этой модели.

Похожие темы