В этом примере показано, как обучить несколько моделей в Regression Learner и определить наиболее эффективные модели на основе их метрик валидации. Проверьте тестовые метрики на наиболее эффективные модели, обученные на полном наборе данных, включая данные обучения и валидации.
В MATLAB® Командное окно, загрузите carbig
Данные и создайте таблицу, содержащую большинство переменных. Разделите таблицу на обучающие и тестовые наборы.
load carbig cartable = table(Acceleration,Cylinders,Displacement, ... Horsepower,Model_Year,Weight,Origin,MPG); rng('default') % For reproducibility of the data split n = length(MPG); partition = cvpartition(n,'Holdout',0.15); idxTrain = training(partition); % Indices for the training set cartableTrain = cartable(idxTrain,:); cartableTest = cartable(~idxTrain,:);
Откройте Regression Learner. Щелкните вкладку Apps, а затем щелкните стреле справа от раздела Apps, чтобы открыть галерею Apps. В группе Machine Learning and Deep Learning нажмите Regression Learner.
На вкладке Regression Learner, в разделе File, нажмите New Session и выберите From Workspace.
В диалоговом окне «Новый сеанс из рабочей области» выберите cartableTrain
таблица из списка Data Set Variable.
Как показано в диалоговом окне, приложение выбирает переменные отклика и предиктора. Переменная отклика по умолчанию MPG
. Чтобы защитить от сверхподбора кривой, опция валидации по умолчанию является 5-кратной перекрестной валидацией. В данном примере не изменяйте настройки по умолчанию.
Чтобы принять опции по умолчанию и продолжить, нажмите Start Session.
Обучите все предустановленные модели. На вкладке Regression Learner, в разделе Model Type, щелкните стреле, чтобы открыть галерею. В группе Get Started нажмите All. В Training разделе нажмите Train. Приложение обучает один из каждого предустановленного типа модели и отображает модели на панели Models.
Совет
Если у вас есть Parallel Computing Toolbox™, можно обучить все модели (All) одновременно, нажав кнопку Use Parallel в разделе Training перед нажатием Train. После нажатия кнопки Train открывается диалоговое окно Открытие параллельного пула, которое остается открытым, пока приложение открывает параллельный пул работников. В течение этого времени вы не можете взаимодействовать с программным обеспечением. После открытия пула приложение обучает модели одновременно.
Отсортируйте обученные модели на основе средней квадратичной невязки корня валидации (RMSE). На панели Models откройте список Sort by и выберите RMSE (Validation)
.
На панели Models щелкните значки звезды рядом с тремя моделями с самой низкой валидацией RMSE. Приложение выделяет самый низкий RMSE валидации, описывая его в кубе. В этом примере обученная модель Rational Quadratic GPR имеет самый низкий RMSE валидации.
Приложение отображает график отклика данных о автомобиле. Синие точки являются истинными значениями, а желтые - предсказанными значениями. На Models панели слева показан RMSE валидации для каждой модели.
Примечание
Валидация вводит некоторую случайность в результаты. Результаты валидации вашей модели могут отличаться от результатов, показанных в этом примере.
Проверьте эффективность тестового набора наиболее эффективных моделей. Начните с импорта тестовых данных в приложение.
На вкладке Regression Learner, в разделе Testing, нажмите Test Data и выберите From Workspace.
В диалоговом окне Import Test Data выберите cartableTest
таблица из списка Test Data Set Variable.
Как показано в диалоговом окне, приложение идентифицирует переменные отклика и предиктора.
Нажмите Import.
Вычислите RMSE лучших предустановленных моделей на cartableTest
данные. Для удобства вычислите тестовый набор RMSE сразу для всех моделей. На вкладке Regression Learner, в разделе Testing, нажмите Test All и выберите Test All. Приложение вычисляет эффективность тестового набора модели, обученной на полном наборе данных, включая данные обучения и валидации.
Отсортируйте модели на основе тестового набора RMSE. На панели Models откройте список Sort by и выберите RMSE (Test)
. Приложение все еще очерчивает метрику для модели с самой низкой валидацией RMSE, несмотря на отображение тестового RMSE.
Визуально проверьте эффективность тестового набора моделей. На вкладке Regression Learner, в разделе Plots, нажмите Predicted vs. Actual и выберите Test Data. Можно переключаться между моделями, чтобы сравнить их эффективность.
В этом примере обученная Medium Gaussian SVM работает с данными тестового набора лучше, чем две другие модели с звездами.
Сравните валидацию и тестирование RMSE для обученной модели Medium Gaussian SVM. На панели Current Model Summary сравните значение RMSE (Validation) под Training Results со значением RMSE (Test) под Test Results. В этом примере два значения близки, что указывает на то, что RMSE валидации является хорошей оценкой тестового RMSE для этой модели.