Проверяйте производительность модели Используя набор тестов в приложении Regression Learner

В этом примере показано, как обучить многоуровневые модели в Regression Learner и определить лучше всего выполняющие модели на основе их метрик валидации. Проверяйте тестовые метрики на лучше всего выполняющие модели, обученные на полном наборе данных, включая данные об обучении и валидации.

  1. В Командном окне MATLAB® загрузите carbig набор данных, и составляет таблицу, содержащую большинство переменных. Разделите таблицу на наборы обучающих данных и наборы тестов.

    load carbig
    cartable = table(Acceleration,Cylinders,Displacement, ...
        Horsepower,Model_Year,Weight,Origin,MPG);
    
    rng('default') % For reproducibility of the data split
    n = length(MPG);
    partition = cvpartition(n,'Holdout',0.15);
    idxTrain = training(partition); % Indices for the training set
    cartableTrain = cartable(idxTrain,:);
    cartableTest = cartable(~idxTrain,:);
  2. Открытый Regression Learner. Кликните по вкладке Apps, и затем кликните по стреле справа от раздела Apps, чтобы открыть галерею Apps. В группе Machine Learning and Deep Learning нажмите Regression Learner.

  3. На вкладке Regression Learner, в разделе File, нажимают New Session и выбирают From Workspace.

  4. В диалоговом окне New Session from Workspace выберите cartableTrain таблица из списка Data Set Variable.

    Как показано в диалоговом окне, приложение выбирает переменные отклика и переменные предикторы. Переменной отклика по умолчанию является MPG. Чтобы защитить от сверхподбора кривой, опция валидации по умолчанию является 5-кратной перекрестной проверкой. В данном примере не изменяйте настройки по умолчанию.

    New Session from Workspace dialog box

  5. Чтобы принять опции по умолчанию и продолжиться, нажмите Start Session.

  6. Обучите все предварительно установленные модели. На вкладке Regression Learner, в разделе Model Type, кликают по стреле, чтобы открыть галерею. В группе Get Started нажмите All. В разделе Training нажмите Train. Приложение обучает один из каждого предварительно установленного типа модели и отображает модели в панели Models.

    Совет

    Если у вас есть Parallel Computing Toolbox™, можно обучить все модели (All) одновременно путем нажатия кнопки Use Parallel в разделе Training перед нажатием Train. После того, как вы нажимаете Train, диалоговое окно Opening Parallel Pool открывается и остается открытым, в то время как приложение открывает параллельный пул рабочих. В это время вы не можете взаимодействовать с программным обеспечением. После того, как пул открывается, приложение обучает модели одновременно.

  7. Сортировка обученных моделей на основе среднеквадратической ошибки (RMSE) валидации. В панели Models откройте список Sort by и выберите RMSE (Validation).

  8. В панели Models кликните по значкам звезды рядом с этими тремя моделями с самой низкой валидацией RMSE. Приложение подсвечивает самую низкую валидацию RMSE путем выделения его в поле. В этом примере обученная модель Rational Quadratic GPR имеет самую низкую валидацию RMSE.

    Response plot of the car data

    Отображения приложения график отклика автомобильных данных. Синие точки являются истинными значениями, и желтые точки являются ожидаемыми значениями. Панель Models слева показывает валидации RMSE для каждой модели.

    Примечание

    Валидация вводит некоторую случайность в результаты. Ваши результаты проверки допустимости модели могут варьироваться от результатов, показанных в этом примере.

  9. Проверяйте эффективность набора тестов лучше всего выполняющих моделей. Начните путем импорта тестовых данных в приложение.

    На вкладке Regression Learner, в разделе Testing, нажимают Test Data и выбирают From Workspace.

  10. В диалоговом окне Import Test Data выберите cartableTest таблица из списка Test Data Set Variable.

    Как показано в диалоговом окне, приложение идентифицирует переменные отклика и переменные предикторы.

    Import Test Data dialog box

  11. Нажмите Import.

  12. Вычислите RMSE лучших предварительно установленных моделей на cartableTest данные. Для удобства вычислите набор тестов RMSE для всех моделей целиком. На вкладке Regression Learner, в разделе Testing, нажимают Test All и выбирают Test All. Приложение вычисляет эффективность набора тестов модели, обученной на полном наборе данных, включая данные об обучении и валидации.

  13. Сортировка моделей на основе набора тестов RMSE. В панели Models откройте список Sort by и выберите RMSE (Test). Приложение все еще обрисовывает в общих чертах метрику для модели с самой низкой валидацией RMSE, несмотря на отображение теста RMSE.

  14. Визуально проверяйте эффективность набора тестов моделей. На вкладке Regression Learner, в разделе Plots, нажимают Predicted vs. Actual и выбирают Test Data. Можно переключиться между моделями, чтобы сравнить их эффективность.

    В этом примере обученный Medium Gaussian SVM выполняет лучше на данных о наборе тестов, чем другие две звездообразных модели.

    Test set Predicted vs. Actual plot for the medium Gaussian SVM model

  15. Сравните валидацию и протестируйте RMSE на обученную модель Medium Gaussian SVM. В панели Current Model Summary сравните значение RMSE (Validation) под Training Results к значению RMSE (Test) под Test Results. В этом примере эти два значения близки, который указывает, что валидация RMSE является хорошей оценкой теста RMSE для этой модели.

Похожие темы