exponenta event banner

Оценка производительности модели у учащегося с регрессией

После обучения регрессионным моделям в Regression Learner можно сравнить модели на основе статистики модели, визуализировать результаты на графике ответа или путем построения графика фактического и прогнозируемого ответа, а также оценить модели с помощью остаточного графика.

  • Если вы используете k-кратную перекрестную проверку, то приложение вычисляет статистику модели, используя наблюдения в k-образных складках проверки и сообщает средние значения. Он делает прогнозы по наблюдениям в валидационных складках, и графики показывают эти прогнозы. Он также вычисляет остатки на наблюдениях в складках проверки.

    Примечание

    При импорте данных в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную проверку. Дополнительные сведения см. в разделе Выбор схемы проверки.

  • Если вы используете проверку удержания, приложение вычисляет статистику модели, используя наблюдения в валидации и делает прогнозы по этим наблюдениям. Приложение использует эти прогнозы на графиках, а также вычисляет остатки на основе прогнозов.

  • Если используется проверка повторного замещения, оценки представляют собой статистику моделей повторного замещения на основе всех данных обучения, а прогнозы представляют собой прогнозы повторного замещения.

Проверка производительности в области моделей

После обучения модели в Regression Learner проверьте панель Модели, чтобы узнать, какая модель имеет лучший общий балл. Лучший RMSE (проверка) выделен в рамке. Эта оценка представляет собой среднеквадратическую ошибку (RMSE) в наборе проверки. Оценка оценивает эффективность обученной модели на новых данных. Используйте оценку, чтобы выбрать лучшую модель.

  • Для перекрестной проверки оценка является RMSE по всем наблюдениям, считая каждое наблюдение, когда оно было в задержанном (валидационном) масштабе.

  • Для проверки удержания баллом является RMSE по задержанным наблюдениям.

  • Для проверки повторной субституции баллом является RMSE повторной субституции по всем учебным данным.

Лучший общий балл может быть не лучшей моделью для вашего гола. Иногда модель с немного более низким общим баллом является лучшей моделью для вашей цели. Вы хотите избежать переоборудования, и вы можете исключить некоторые предикторы, где сбор данных является дорогостоящим или сложным.

Просмотр и сравнение статистики модели

Статистику модели можно просмотреть на панели Сводка текущей модели (Current Model Summary) и использовать эту статистику для оценки и сравнения моделей. Статистика результатов обучения рассчитывается на основе набора проверки. Статистика результатов испытаний, если она отображается, рассчитывается на импортированном наборе тестов. Дополнительные сведения см. в разделе Оценка производительности модели тестового набора.

Sample Current Model Summary pane

Чтобы скопировать информацию на панели Сводка текущей модели (Current Model Summary), можно щелкнуть правой кнопкой мыши на панели и выбрать Копировать текст (Copy text).

Статистика модели

Статистическая величинаОписаниеСовет
RMSEСреднеквадратическая ошибка. RMSE всегда положителен, и его единицы измерения соответствуют единицам отклика.Найдите меньшие значения RMSE.
R-квадратКоэффициент определения. R-квадрат всегда меньше 1 и обычно больше 0. Он сравнивает обученную модель с моделью, где ответ является постоянным и равен среднему значению ответа на обучение. Если модель хуже этой постоянной, то R-квадрат отрицателен.Ищите R-квадрат, близкий к 1.
MSEСредняя квадратичная ошибка. MSE является квадратом RMSE.Найдите меньшие значения MSE.
БОЛЬШЕСредняя абсолютная ошибка. MAE всегда положителен и похож на RMSE, но менее чувствителен к отклонениям.Найдите меньшие значения MAE.

Можно сортировать модели на основе различных статистических данных модели. Чтобы выбрать статистику для сортировки модели, используйте список Сортировать по (Sort by) в верхней части панели Модели (Models).

Можно также удалить нежелательные модели, перечисленные на панели Модели (Models). Выберите модель, которую требуется удалить, и нажмите кнопку Удалить выбранную модель (Delete selected model) в верхней правой части панели или щелкните модель правой кнопкой мыши и выберите Удалить модель (Delete model). Нельзя удалить последнюю оставшуюся модель на панели Модели (Models).

Изучение данных и результатов на графике ответа

На графике ответа просмотрите результаты регрессионной модели. После обучения регрессионной модели график отклика отображает прогнозируемый отклик в сравнении с числом записей. Если вы используете удержание или перекрестную проверку, то эти прогнозы являются прогнозами по задержанным (проверке) наблюдениям. Другими словами, каждый прогноз получают с использованием модели, которая была обучена без использования соответствующего наблюдения. Чтобы исследовать результаты, используйте элементы управления справа. Вы можете:

  • График предсказанных и/или истинных ответов. Установите флажки в разделе «Печать», чтобы сделать выбор.

  • Показать ошибки прогнозирования, построенные в виде вертикальных линий между прогнозируемыми и истинными ответами, установив флажок Ошибки (Errors).

  • Выберите переменную для построения графика по оси X под осью X. Можно выбрать номер записи или одну из переменных предиктора.

  • Постройте график ответа как маркеры или как рамочный график в разделе «Стиль». Можно выбрать график Box, только если переменная на оси X имеет несколько уникальных значений.

    Рамочный график отображает типичные значения отклика и любые возможные отклонения. Центральная отметка обозначает медиану, а нижний и верхний края рамки - 25-й и 75-й процентили соответственно. Вертикальные линии, называемые усы, простираются от полей до самых крайних точек данных, которые не считаются отклонениями. Отклонения строятся по отдельности с помощью '+' символ. Дополнительные сведения о оконных графиках см. в разделе boxplot.

Чтобы экспортировать графики ответов, созданные в приложении, в рисунки, см. раздел Экспорт графиков в приложении для учащихся с регрессией.

Прогнозируемый график в сравнении с фактическим ответом

Для проверки производительности модели используйте график «Прогнозируемый и фактический». Используйте этот график, чтобы понять, насколько хорошо регрессионная модель делает прогнозы для различных значений отклика. Чтобы просмотреть график «Спрогнозировано или фактически» после обучения модели, на вкладке «Обучающийся регрессии» в разделе «Графики» щелкните «Спрогнозировано или фактически» и выберите «Данные проверки».

При открытии графика прогнозируемый отклик модели отображается в соответствии с фактическим истинным откликом. Идеальная регрессионная модель имеет прогнозируемый отклик, равный истинному отклику, поэтому все точки лежат на диагональной прямой. Вертикальное расстояние от линии до любой точки является ошибкой прогноза для этой точки. Хорошая модель имеет небольшие ошибки, и поэтому прогнозы разбросаны вблизи линии.

Обычно хорошая модель имеет точки, разбросанные примерно симметрично вокруг диагональной линии. Если на графике можно увидеть какие-либо четкие узоры, вероятно, модель можно улучшить. Попробуйте обучить другой тип модели или сделать текущий тип модели более гибким с помощью дополнительных опций в разделе Тип модели. Если вы не можете улучшить свою модель, возможно, что вам нужно больше данных или что вы упускаете важный предиктор.

Сведения об экспорте прогнозируемых и фактических графиков, созданных в приложении, в рисунки см. в разделе Экспорт графиков в приложение для учащихся с регрессией.

Расчет модели с помощью графика остатков

Используйте график остатков для проверки производительности модели. Чтобы просмотреть график остатков после обучения модели, на вкладке Обучающийся регрессии (Regression Learner) в разделе Графики (Plots) щелкните Остатки (Reseuals) и выберите Данные проверки (Validation Data). График остатков отображает разницу между предсказанными и истинными откликами. Выберите переменную для построения графика по оси X под осью X. Выберите истинный ответ, прогнозируемый ответ, число записей или один из предикторов.

Обычно хорошая модель имеет остатки, разбросанные приблизительно симметрично вокруг 0. Если в остатках можно увидеть какие-либо четкие узоры, вероятно, модель можно улучшить. Ищите следующие шаблоны:

  • Остатки не распределены симметрично вокруг 0.

  • Остатки значительно изменяются в размере слева направо на графике.

  • Возникают отклонения, то есть остатки, которые намного больше остальных остатков.

  • В остатках появляется четкий нелинейный шаблон.

Попробуйте обучить другой тип модели или сделать текущий тип модели более гибким с помощью дополнительных опций в разделе Тип модели. Если вы не можете улучшить свою модель, возможно, что вам нужно больше данных или что вы упускаете важный предиктор.

Чтобы экспортировать графики остаточных значений, созданные в приложении, в фигуры, см. раздел Экспорт графиков в приложении для учащихся с регрессией.

Оценка производительности модели тестового набора

После обучения модели в Regression Learner можно оценить производительность модели на наборе тестов в приложении. Этот процесс позволяет проверить, дают ли метрики проверки хорошие оценки производительности модели на новых данных.

  1. Импорт набора тестовых данных в Regression Learner.

    • Если набор тестовых данных находится в рабочей области MATLAB ®, то в разделе Тестирование на вкладке Обучающийся регрессии щелкните Тестовые данные и выберите Из рабочей области.

    • Если набор тестовых данных находится в файле, то в разделе Тестирование щелкните Тестовые данные и выберите Из файла. Выберите тип файла в списке, например электронную таблицу, текстовый файл или разделенные запятыми значения (.csv) файл или выберите «Все файлы» для поиска других типов файлов, таких как .dat.

    В диалоговом окне Import Test Data выберите набор тестовых данных из списка Test Data Set Variable. Набор тестов должен иметь те же переменные, что и предикторы, импортированные для обучения и проверки.

  2. Вычислите метрики тестового набора.

    • Чтобы вычислить метрики теста для одной модели, выберите обученную модель на панели Модели (Models). На вкладке Обучающийся регрессии в разделе Тестирование щелкните Проверить все и выберите Проверить выбранные.

    • Чтобы вычислить метрики теста для всех обученных моделей, щелкните Проверить все (Test All) и выберите Проверить все (Test All) в разделе Тестирование (Testing).

    Приложение вычисляет производительность тестового набора каждой модели, обученной на полном наборе данных, включая данные обучения и проверки.

  3. Сравните метрики проверки с метриками теста.

    На панели Сводка по текущей модели приложение отображает метрики проверки и показатели тестирования в разделах Результаты обучения и Результаты тестирования соответственно. Можно проверить, дают ли метрики проверки хорошие оценки метрики теста.

    Можно также визуализировать результаты теста с помощью графиков.

    • Отображение прогнозируемого или фактического графика. В разделе «Графики» на вкладке «Обучающийся регрессии» щелкните «Прогнозируемый или фактический график» и выберите «Тестовые данные».

    • Отображение графика остаточных значений. В разделе «Графики» щелкните «Остатки» «Печать» и выберите «Тестовые данные».

Пример см. в разделе Проверка производительности модели с использованием тестового набора в приложении для учащегося по регрессии. Пример использования метрик тестового набора в рабочем процессе оптимизации гиперпараметров см. в разделе Модель регрессии с использованием гиперпараметрической оптимизации в приложении для учащегося по регрессии.

Связанные темы