После обучения регрессионных моделей в Regression Learner можно сравнить модели на основе статистики модели, визуализировать результаты на графике отклика или путем построения графика фактического от предсказанного отклика и оценить модели с помощью остаточного графика.
Если вы используете перекрестную валидацию k-fold, то приложение вычисляет статистику модели с помощью наблюдений в складках k валидации и сообщает средние значения. Он делает предсказания по наблюдениям в складках валидации, и графики показывают эти предсказания. Он также вычисляет невязки наблюдений в складках валидации.
Примечание
Когда вы импортируете данные в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную валидацию. Дополнительные сведения см. в разделе Выбор схемы валидации.
Если вы используете валидацию удержания, приложение вычисляет статистику модели с помощью наблюдений в валидационной складке и делает предсказания на этих наблюдениях. Приложение использует эти предсказания на графиках, а также вычисляет невязки на основе предсказаний.
Если вы используете валидацию реституции, счета являются статистикой моделей реституции, основанной на всех обучающих данных, и предсказания являются предсказаниями реституции.
После обучения модели в Regression Learner, проверьте панель Models, чтобы увидеть, какая модель имеет лучший общий счет. Лучшее RMSE (Validation) подсвечивается в кубе. Этот счет является корневой средней квадратной ошибкой (RMSE) на наборе валидации. Счет оценивает эффективность обученной модели на новых данных. Используйте счет, чтобы помочь вам выбрать лучшую модель.
Для перекрестной валидации счет является RMSE для всех наблюдений, считая каждое наблюдение, когда оно находилось в удержанной (валидационной) складке.
Для валидации holdout, счет является RMSE на удержанных наблюдениях.
Для валидации реституции счет является RMSE реституции на всех обучающих данных.
Лучший общий счет может быть не лучшей моделью для вашего гола. Иногда модель с немного более низким общим счетом является лучшей моделью для вашей цели. Вы хотите избежать избыточной подгонки, и вы, возможно, захотите исключить некоторые предикторы, где набор данных является дорогим или трудным.
Можно просмотреть статистику модели на панели Current Model Summary и использовать эту статистику для оценки и сравнения моделей. Статистика Training Results вычисляется на наборе валидации. Статистика Test Results, если она отображается, вычисляется на импортированном тестовом наборе. Для получения дополнительной информации смотрите Оценка производительности модели набора тестов.
Чтобы скопировать информацию на панели Current Model Summary, щелкните правой кнопкой мыши на панели и выберите Copy text.
Статистика моделей
Статистическая величина | Описание | Совет |
---|---|---|
RMSE | Корневая средняя квадратная ошибка. RMSE всегда положителен, и его модули совпадают с модулями вашего ответа. | Проверьте меньшие значения RMSE. |
R-квадрат | Коэффициент детерминации. R-квадрат всегда меньше 1 и обычно больше 0. Он сравнивает обученную модель с моделью, где реакция постоянна и равна среднему значению реакции обучения. Если ваша модель хуже этой постоянной модели, то R-квадрат отрицателен. | Найдите R-квадрат, близкий к 1. |
MSE | Средняя квадратичная невязка. MSE является квадратом RMSE. | Проверьте меньшие значения MSE. |
БОЛЬШЕ | Средняя абсолютная ошибка. MAE всегда положителен и похож на RMSE, но менее чувствителен к выбросам. | Проверьте меньшие значения MAE. |
Можно отсортировать модели на основе другой статистики модели. Чтобы выбрать статистику для сортировки модели, используйте список Sort by в верхней части панели Models.
Можно также удалить нежелательные модели, перечисленные на панели Models. Выберите модель, которую вы хотите удалить, и нажмите кнопку Delete selected model в правом верхнем углу панели или щелкните правой кнопкой мыши модель и выберите Delete model. Вы не можете удалить последнюю оставшуюся модель на панели Models.
На графике отклика просмотрите результаты регрессионной модели. После обучения регрессионной модели график отклика отображает предсказанную характеристику в зависимости от номера записи. Если вы используете holdout или перекрестную валидацию, то эти предсказания являются предсказаниями на удержанных (валидационных) наблюдениях. Другими словами, каждое предсказание получается с использованием модели, которая была обучена, не используя соответствующее наблюдение. Чтобы исследовать результаты, используйте элементы управления справа. Вы можете:
Постройте предсказанные и/или истинные отклики. Установите флажки под Plot для выбора.
Покажите ошибки предсказания, нарисованные как вертикальные линии между предсказанным и истинным откликами, установив флажок Errors.
Выберите переменную для построения графика на x -оси под X-axis. Вы можете выбрать либо номер записи, либо одну из переменных предиктора.
Постройте график отклика как маркеры или как прямоугольный график под Style. Выбрать Box plot можно только в том случае, если переменная на оси x имеет несколько уникальных значений .
На прямоугольном графике отображаются типичные значения отклика и любые возможные выбросы. Центральная метка указывает медиану, а нижний и верхние края коробки - 25-й и 75-й процентили соответственно. Вертикальные линии, называемые усами, простираются от коробок до самых экстремальных точек данных, которые не считаются выбросами. Выбросы строятся индивидуально с помощью '+'
символ. Для получения дополнительной информации о коробчатых графиках, см. boxplot
.
Чтобы экспортировать графики отклика, созданные вами в приложении, в рисунки, смотрите Экспортировать графики в приложении Regression Learner.
Используйте график Предсказанный и Фактический, чтобы проверить производительность модели. Используйте этот график, чтобы понять, насколько хорошо регрессионая модель делает предсказания для различных значений отклика. Чтобы просмотреть график Предсказанный и Фактический после обучения модели, на вкладке Regression Learner, в разделе Plots, нажмите Predicted vs. Actual и выберите Validation Data.
Когда вы открываете график, предсказанная реакция вашей модели строится относительно фактической, истинной характеристики. Идеальная регрессионая модель имеет предсказанную реакцию, равную истинной реакции, поэтому все точки лежат на диагональной линии. Расстояние по вертикали от линии до любой точки является ошибкой предсказания для этой точки. Хорошая модель имеет небольшие ошибки, и поэтому предсказания разбросаны около линии.
Обычно хорошая модель имеет точки, разбросанные примерно симметрично вокруг диагональной линии. Если вы можете увидеть какие-либо четкие шаблоны на графике, вероятно, что вы можете улучшить свою модель. Попробуйте обучить другой тип модели или сделать текущий тип модели более гибким, используя опции Advanced в Model Type разделе. Если вы не можете улучшить свою модель, возможно, вам нужно больше данных или вам не хватает важного предиктора.
Чтобы экспортировать графики Предсказанные и Фактические, созданные в приложении, в рисунки, смотрите Графики Экспорта в Приложении Regression Learner.
Используйте график невязок, чтобы проверить производительность модели. Чтобы просмотреть невязки на графике после обучения модели, на вкладке Regression Learner, в разделе Plots, нажмите Residuals и выберите Validation Data. График невязок отображает различие между предсказанной и истинной характеристиками. Выберите переменную для построения графика на x -оси под X-axis. Выберите или истинную реакцию, предсказанную реакцию, номер записи или один из ваших предикторов.
Обычно хорошая модель имеет невязки, рассеянные примерно симметрично около 0. Если вы можете увидеть какие-либо четкие шаблоны в невязках, вероятно, что вы можете улучшить свою модель. Проверьте следующие шаблоны:
Невязки не распределены симметрично вокруг 0.
Невязки значительно изменяются в размере слева направо на графике.
Выбросы происходят, то есть невязки, которые намного больше, чем остальные невязки.
Очистить, нелинейный шаблон появляется в невязках.
Попробуйте обучить другой тип модели или сделать текущий тип модели более гибким, используя опции Advanced в Model Type разделе. Если вы не можете улучшить свою модель, возможно, вам нужно больше данных или вам не хватает важного предиктора.
Чтобы экспортировать невязки, созданные вами в приложении, в рисунки, смотрите Экспортировать графики в приложении Regression Learner.
После обучения модели в Regression Learner можно оценить производительность модели на тестовом наборе в приложении. Этот процесс позволяет вам проверить, обеспечивают ли метрики валидации хорошие оценки производительности модели на новых данных.
Импортируйте набор тестовых данных в Regression Learner.
Если набор тестовых данных находится в MATLAB® затем в разделе Testing на вкладке Regression Learner нажмите Test Data и выберите From Workspace.
Если набор тестовых данных находится в файле, то в разделе Testing нажмите Test Data и выберите From File. Выберите тип файла в списке, например, электронную таблицу, текстовый файл или значения, разделенные запятыми (.csv
) файл, или выберите All Files, чтобы просмотреть другие типы файлов, такие как .dat
.
В диалоговом окне Import Test Data выберите набор тестовых данных из списка Test Data Set Variable. Тестовый набор должен иметь те же переменные, что и предикторы, импортированные для обучения и валидации.
Вычислите метрики тестового набора.
Чтобы вычислить тестовые метрики для одной модели, выберите обученную модель на панели Models. На вкладке Regression Learner, в разделе Testing, нажмите Test All и выберите Test Selected.
Чтобы вычислить тестовые метрики для всех обученных моделей, нажмите Test All и выберите Test All в разделе Testing.
Приложение вычисляет эффективность тестового набора каждой модели, обученной на полном наборе данных, включая данные обучения и валидации.
Сравните метрики валидации с тестовыми метриками.
На панели Current Model Summary приложение отображает метрики валидации и тестовые метрики в разделе Training Results и Test Results разделе, соответственно. Можно проверить, дают ли метрики валидации хорошие оценки для тестовых метрик.
Можно также визуализировать результаты тестирования с помощью графиков.
Отобразите предсказанный и фактический график. В разделе Plots на вкладке Regression Learner нажмите Predicted vs. Actual Plot и выберите Test Data.
Отобразите график невязок. В Plots разделе щелкните Residuals Plot и выберите Test Data.
Например, смотрите Проверку производительности модели Используя тестовый набор в Regression Learner App.Для примера, который использует метрики тестового набора в гипероптимизацию параметров управления рабочем процессе оптимизации, смотрите Train Регрессионую модель Используя Гипероптимизации параметров управления Оптимизацию в Приложении Regression Learner.