При построении высококачественной регрессионной модели важно выбрать правильные функции (или предикторы), настроить гиперпараметры (параметры модели не соответствуют данным) и оценить допущения модели с помощью остаточной диагностики.
Можно настроить гиперпараметры путем итерации между выбором значений для них и перекрестной валидацией модели с помощью ваших вариантов. Этот процесс приводит к нескольким моделям, и лучшая модель среди них может быть той, которая минимизирует предполагаемую ошибку обобщения. Например, чтобы настроить модель SVM, выберите набор прямоугольных ограничений и шкал ядра, перекрестно проверьте модель для каждой пары значений, а затем сравните их 10-кратные перекрестные валидированные оценки среднеквадратичной ошибки.
Некоторые непараметрические регрессионные функции в Statistics and Machine Learning Toolbox™ дополнительно предлагают автоматическую настройку гиперпараметра через байесовскую оптимизацию, поиск по сетке или случайный поиск. Однако, bayesopt
, которая является основной функцией для реализации байесовской оптимизации, достаточно гибка для многих других приложений. Для получения дополнительной информации см. Bayesian Optimization Workflow.
Чтобы автоматически выбрать модель с настроенными гиперпараметрами, используйте fitrauto
. Функция пробует выбор типов регрессионной модели с различными значениями гиперзначений параметров и возвращает окончательную модель, которая, как ожидается, будет работать хорошо. Использовать fitrauto
когда вы не уверены, какие типы регрессионной модели лучше всего соответствуют вашим данным.
Чтобы создавать и оценивать модели регрессии в интерактивном режиме, используйте приложение Regression Learner.
Чтобы интерпретировать регрессионую модель, можно использовать lime
, shapley
, и plotPartialDependence
.
Regression Learner | Обучите регрессионные модели прогнозировать данные с помощью машинного обучения с учителем |
Обучите регрессионные модели в приложении Regression Learner
Рабочий процесс для обучения, сравнения и улучшения регрессионых моделей, включая автоматизированное, ручное и параллельное обучение.
Выберите опции регрессионной модели
В Regression Learner автоматически обучите выбор моделей, или сравните и настройте опции линейных регрессионых моделей, регрессионых деревьев, машин опорных векторов, регрессионых моделей Гауссова процесса, ансамблей регрессионых деревьев и регрессионных нейронных сетей.
Выбор признаков и преобразование функций с помощью приложения Regression Learner
Идентифицируйте полезные предикторы с помощью графиков, вручную выбирайте функции для включения и преобразуйте функции с помощью PCA в Regression Learner.
Оцените производительность модели в Regression Learner
Сравните статистику модели и визуализируйте результаты.
Узнайте об алгоритмах выбора признаков и исследуйте функции, доступные для выбора объектов.
Последовательный выбор признаков
В этом разделе описывается последовательный выбор признаков и приводится пример, который выбирает функции последовательно с помощью пользовательского критерия и sequentialfs
функция.
Анализ компонентов по соседству (NCA) Выбора признаков
Анализ компонента окрестности (NCA) является непараметрическим методом для выбора функций с целью максимизации точности предсказания алгоритмов регрессии и классификации.
Робастный выбор признаков с использованием NCA для регрессии
Выполните выбор признаков, который является устойчивым к выбросам, используя пользовательскую функцию устойчивых потерь в NCA.
Выберите предикторы для случайных лесов
Выберите предикторы разделения для случайных лесов с помощью алгоритма тестирования взаимодействия.
Автоматический выбор регрессионной модели с байесовской оптимизацией
Использовать fitrauto
чтобы автоматически попробовать выбор типов регрессионной модели с различными значениями гиперзначений параметров, учитывая обучающие данные предиктора и отклика.
Рабочий процесс Байесовской оптимизации
Выполните байесовскую оптимизацию с помощью функции аппроксимации или путем вызова bayesopt
непосредственно.
Переменные для байесовской оптимизации
Создайте переменные для байесовской оптимизации.
Байесовские целевые функции оптимизации
Создайте целевую функцию для байесовской оптимизации.
Ограничения в байесовской оптимизации
Установите различные типы ограничений для байесовской оптимизации.
Оптимизируйте бустерный регрессионый ансамбль
Минимизируйте потери регрессионного ансамбля при перекрестной валидации.
Байесовские Функции построения графика оптимизации
Визуально контролируйте байесовскую оптимизацию.
Байесовские выходные функции оптимизации
Отслеживайте байесовскую оптимизацию.
Байесовский алгоритм оптимизации
Осмыслите базовые алгоритмы байесовской оптимизации.
Параллельная байесовская оптимизация
Как байесовская оптимизация работает параллельно.
Интерпретируйте модели машинного обучения
Объясните предсказания модели с помощью lime
, shapley
, и plotPartialDependence
.
Значения Shapley для модели машинного обучения
Вычислите значения Шепли для модели машинного обучения с помощью двух алгоритмов: kernelSHAP и расширения до kernelSHAP.
Реализуйте перекрестную валидацию с помощью параллельных вычислений
Ускорите перекрестную валидацию с помощью параллельных вычислений.
Интерпретируйте результаты линейной регрессии
Отображение и интерпретация статистики выхода линейной регрессии.
Подбирайте линейную регрессионую модель и исследуйте результат.
Линейная регрессия с эффектами взаимодействия
Создайте и проанализируйте линейную регрессионую модель с эффектами взаимодействия и интерпретируйте результаты.
Сводные данные статистики Выхода и диагностики
Оцените подобранную модель с помощью свойств модели и функций объекта.
F-статистические и t-статистические
В линейной регрессии F-statistic является тестовой статистикой для подхода дисперсионного анализа (ANOVA), чтобы проверить значимость модели или компонентов в модели. t-statistic полезна для вывода о коэффициентах регрессии.
Коэффициент детерминации (R-квадрат)
Коэффициент детерминации (R-квадрат) указывает пропорциональное количество изменения переменной отклика y объясняемое независимыми переменными, X в линейной регрессионой модели.
Стандартные ошибки коэффициентов и доверительные интервалы
Предполагаемые отклонения коэффициентов и ковариации фиксируют точность оценок коэффициентов регрессии.
Невязки полезны для обнаружения отдаленных значений y и проверки допущений линейной регрессии относительно термина ошибки в регрессионой модели.
Тест Дурбина-Ватсона оценивает, существует ли автокорреляция среди невязок данных временных рядов.
Расстояние Кука полезно для идентификации выбросов в X значениях (наблюдения для переменных).
Матрица шляп обеспечивает меру рычага.
Delete-1 изменение ковариации (CovRatio
) определяет наблюдения, которые влиятельны в регрессионной подгонке.
Обобщенные линейные модели используют методы Linear, чтобы описать потенциально нелинейную связь между терминами предиктора и переменной отклика.
Параметрические нелинейные модели представляют отношение между переменной непрерывного отклика и одной или несколькими непрерывными переменными предиктора.