После учебных моделей регрессии в Regression Learner можно сравнить модели на основе статистики модели, визуализировать результаты, в ответ строят, или путем графического вывода фактический по сравнению с предсказанным ответом, и оценивают модели с помощью остаточного графика.
Если вы используете перекрестную проверку k-сгиба, то приложение вычисляет статистику модели с помощью наблюдений в k валидации, сворачивает и сообщает о средних значениях. Это делает предсказания на наблюдениях в сгибах валидации, и графики показывают эти предсказания. Это также вычисляет остаточные значения наблюдений в сгибах валидации.
Примечание
Когда вы импортируете данные в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную проверку. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.
Если вы используете валидацию затяжки, приложение вычисляет статистику модели с помощью наблюдений в сгибе валидации и делает предсказания на этих наблюдениях. Приложение использует эти предсказания в графиках и также вычисляет остаточные значения на основе предсказаний.
Если вы используете валидацию перезамены, баллы являются статистикой моделей перезамены на основе всех обучающих данных, и предсказания являются предсказаниями перезамены.
После обучения модель в Regression Learner проверяйте панель Models, чтобы видеть, какая модель имеет лучшую общую оценку. Лучший RMSE (Validation) подсвечен в поле. Этот счет является среднеквадратичной ошибкой (RMSE) на наборе валидации. Счет оценивает эффективность обученной модели на новых данных. Используйте счет, чтобы помочь вам выбрать лучшую модель.
Для перекрестной проверки счет является RMSE на всех наблюдениях, считая каждое наблюдение, когда это был в протянутом (валидация) сгиб.
Для валидации затяжки счет является RMSE на протянутых наблюдениях.
Для валидации перезамены счет является перезаменой RMSE на всех обучающих данных.
Лучшая общая оценка не может быть лучшей моделью для вашей цели. Иногда модель с немного более низкой общей оценкой является лучшей моделью для вашей цели. Вы не хотите сверхсоответствовать, и вы можете хотеть исключить некоторые предикторы, где сбор данных является дорогим или трудным.
Можно просмотреть статистику модели в панели Current Model Summary и использовать эти статистические данные, чтобы оценить и сравнить модели. Статистические данные Training Results вычисляются на набор валидации. Статистические данные Test Results, если отображено, вычисляются на импортированный набор тестов. Для получения дополнительной информации смотрите, Оценивают Производительность модели Набора тестов.
Чтобы скопировать информацию в панели Current Model Summary, можно щелкнуть правой кнопкой в панель и выбрать Copy text.
Статистика модели
Статистическая величина | Описание | Совет |
---|---|---|
RMSE | Среднеквадратичная ошибка. RMSE всегда положителен, и его модули совпадают с модулями вашего ответа. | Ищите меньшие значения RMSE. |
R-Squared | Коэффициент детерминации. R-squared всегда меньше, чем 1 и обычно больше, чем 0. Это сравнивает обученную модель с моделью, где ответ является постоянным и равняется среднему значению учебного ответа. Если ваша модель хуже, чем эта постоянная модель, то R-Squared отрицателен. | Ищите R-Squared близко к 1. |
MSE | Среднеквадратическая ошибка. MSE является квадратом RMSE. | Ищите меньшие значения MSE. |
MAE | Средняя абсолютная погрешность. MAE всегда положителен и похож на RMSE, но менее чувствителен к выбросам. | Ищите меньшие значения MAE. |
Можно отсортировать модели на основе различной статистики модели. Чтобы выбрать статистическую величину для сортировки модели, используйте список Sort by наверху панели Models.
Можно также удалить нежелательные модели, перечисленные в панели Models. Выберите модель, вы хотите удалить и нажать кнопку Delete selected model в верхнем правом углу панели, или щелкнуть правой кнопкой по модели и выбрать Delete model. Вы не можете удалить последнюю остающуюся модель в панели Models.
В графике отклика просмотрите результаты модели регрессии. После того, как вы обучите модель регрессии, график отклика отображает предсказанный ответ по сравнению с номером записи. Если вы используете затяжку или перекрестную проверку, то эти предсказания являются предсказаниями на протянутом (валидация) наблюдения. Другими словами, каждое предсказание получено с помощью модели, которая была обучена, не используя соответствующее наблюдение. Чтобы исследовать ваши результаты, используйте средства управления справа. Вы можете:
Постройте предсказанные и/или истинные ответы. Используйте флажки под Plot, чтобы сделать ваш выбор.
Покажите ошибки предсказания, чертившие как вертикальные линии между предсказанными и истинными ответами, путем установки флажка Errors.
Выберите переменную, чтобы построить на x - ось под X-axis. Можно выбрать или номер записи или один из переменных предикторов.
Постройте ответ как маркеры, или как диаграмма под Style. Можно только выбрать Box plot, когда переменная на x - ось имеет немного уникальных значений.
Диаграмма отображает типичные значения ответа и любых возможных выбросов. Центральная метка указывает на медиану, и нижняя часть и верхние края поля являются 25-ми и 75-ми процентилями, соответственно. Вертикальные линии, названные контактными усиками, расширяют от полей до самых экстремальных точек данных, которые не рассматриваются выбросами. Выбросы построены индивидуально с помощью '+'
символ. Для получения дополнительной информации о диаграммах, смотрите boxplot
.
Чтобы экспортировать графики отклика, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Regression Learner.
Используйте Предсказанный по сравнению с Фактическим графиком проверять производительность модели. Используйте этот график изучить, как хорошо модель регрессии делает предсказания для различных значений отклика. Чтобы просмотреть Предсказанный по сравнению с Фактическим графиком после обучения, модель, на вкладке Regression Learner, в разделе Plots, нажимает Predicted vs. Actual и выбирает Validation Data.
Когда вы открываете график, предсказанный ответ вашей модели построен против фактического, истинного ответа. Совершенная модель регрессии имеет предсказанный ответ, равный истинному ответу, таким образом, все точки лежат на диагональной линии. Вертикальное расстояние от линии до любой точки является ошибкой предсказания для той точки. Хорошая модель имеет небольшие ошибки, и таким образом, предсказания рассеиваются около линии.
Обычно хорошая модель имеет точки, рассеянные примерно симметрично вокруг диагональной линии. Если вы видите какие-либо ясные шаблоны в графике, вероятно, что можно улучшить модель. Попробуйте обучение различный тип модели или то, чтобы заставлять вашу текущую модель ввести более гибкое использование опций Advanced в разделе Model Type. Если вы не можете улучшить свою модель, возможно, что вам нужно больше данных, или что вы пропускаете важный предиктор.
Чтобы экспортировать Предсказанный по сравнению с Фактическими графиками, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Regression Learner.
Используйте график остаточных значений проверять производительность модели. Чтобы просмотреть график остаточных значений после обучения, модель, на вкладке Regression Learner, в разделе Plots, нажимает Residuals и выбирает Validation Data. График остаточных значений отображает различие между предсказанными и истинными ответами. Выберите переменную, чтобы построить на x - ось под X-axis. Выберите или истинный ответ, предсказанный ответ, номер записи или один из ваших предикторов.
Обычно хорошей модели рассеивали остаточные значения примерно симметрично приблизительно 0. Если вы видите какие-либо ясные шаблоны в остаточных значениях, вероятно, что можно улучшить модель. Ищите эти шаблоны:
Остаточные значения симметрично не распределяются приблизительно 0.
Остаточные значения значительно изменяются в размере слева направо в графике.
Выбросы происходят, то есть, остаточные значения, которые намного больше, чем остальная часть остаточных значений.
Очиститесь, нелинейный шаблон появляется в остаточных значениях.
Попробуйте обучение различный тип модели или то, чтобы заставлять вашу текущую модель ввести более гибкое использование опций Advanced в разделе Model Type. Если вы не можете улучшить свою модель, возможно, что вам нужно больше данных, или что вы пропускаете важный предиктор.
Чтобы экспортировать графики остаточных значений, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Regression Learner.
После обучения модель в Regression Learner можно оценить производительность модели на наборе тестов в приложении. Этот процесс позволяет вам проверять, обеспечивают ли метрики валидации хорошие оценки для производительности модели на новых данных.
Импортируйте набор тестовых данных в Regression Learner.
Если набор тестовых данных находится в рабочей области MATLAB®, то в разделе Testing по вкладке Regression Learner, нажмите Test Data и выберите From Workspace.
Если набор тестовых данных находится в файле, то в разделе Testing, нажмите Test Data и выберите From File. Выберите тип файла в списке, таком как электронная таблица, текстовый файл или разделенные от запятой значения (.csv
) файл, или выбирают All Files, чтобы просмотреть другие типы файлов, такие как .dat
.
В диалоговом окне Import Test Data выберите набор тестовых данных из списка Test Data Set Variable. Набор тестов должен иметь те же переменные как предикторы, импортированные для обучения и валидации.
Вычислите метрики набора тестов.
Чтобы вычислить тестовые метрики для одной модели, выберите обученную модель в панели Models. На вкладке Regression Learner, в разделе Testing, нажимают Test All и выбирают Test Selected.
Чтобы вычислить тестовые метрики для всех обученных моделей, нажмите Test All и выберите Test All в разделе Testing.
Приложение вычисляет эффективность набора тестов каждой модели, обученной на полном наборе данных, включая данные об обучении и валидации.
Сравните метрики валидации с тестовыми метриками.
В панели Current Model Summary, отображения приложения метрики валидации и тестовые метрики под разделом Training Results и разделом Test Results, соответственно. Можно проверять, дают ли метрики валидации хорошие оценки для тестовых метрик.
Можно также визуализировать результаты испытаний с помощью графиков.
Отобразите предсказанный по сравнению с фактическим графиком. В разделе Plots по вкладке Regression Learner нажмите Predicted vs. Actual Plot и выберите Test Data.
Отобразите график остаточных значений. В разделе Plots нажмите Residuals Plot и выберите Test Data.
Для примера смотрите, что Производительность модели Проверки Использует Набор тестов в Приложении Regression Learner. Для примера, который использует метрики набора тестов в рабочем процессе гипероптимизации параметров управления, смотрите, Обучают Модель Регрессии Используя Гипероптимизацию параметров управления в Приложении Regression Learner.