При построении высококачественной регрессионной модели важно выбрать правильные особенности (или предикторы), настроить гиперпараметры (параметры модели, не соответствующие данным) и оценить предположения модели с помощью остаточной диагностики.
Гиперпараметры можно настроить путем итерации между выбором значений для них и перекрестной проверкой модели с помощью вариантов. Этот процесс дает несколько моделей, и лучшей из них может быть модель, которая минимизирует предполагаемую ошибку обобщения. Например, чтобы настроить модель SVM, выберите набор ограничений бокса и шкал ядра, выполните перекрестную проверку модели для каждой пары значений, а затем сравните их 10-кратные оценки среднеквадратичных ошибок.
Некоторые непараметрические функции регрессии в Toolbox™ статистики и машинного обучения дополнительно предлагают автоматическую гиперпараметрическую настройку через байесовскую оптимизацию, поиск по сетке или случайный поиск. Однако bayesopt, которая является основной функцией для реализации байесовской оптимизации, является достаточно гибкой для многих других приложений. Дополнительные сведения см. в разделе Рабочий процесс байесовской оптимизации.
Чтобы автоматически выбрать модель с настроенными гиперпараметрами, используйте fitrauto. Функция пытается выбрать типы регрессионных моделей с различными значениями гиперпараметров и возвращает окончательную модель, которая, как ожидается, будет работать хорошо. Использовать fitrauto когда вы не уверены, какие типы регрессионной модели лучше всего подходят для ваших данных.
Для создания и оценки регрессионных моделей в интерактивном режиме используйте приложение Regression Learner.
Для интерпретации регрессионной модели можно использовать lime, shapley, и plotPartialDependence.
| Обучающийся регрессии | Обучение регрессионных моделей прогнозированию данных с использованием контролируемого машинного обучения |
Обучайте регрессионные модели в приложении для учащегося регрессии
Рабочий процесс для обучения, сравнения и совершенствования регрессионных моделей, включая автоматизированное, ручное и параллельное обучение.
Выбрать опции регрессионной модели
В Regression Learner автоматически обучайте выбор моделей или сравнивайте и настраивайте опции линейных регрессионных моделей, регрессионных деревьев, векторных машин поддержки, гауссовых регрессионных моделей процессов, ансамблей регрессионных деревьев и регрессионных нейронных сетей.
Выбор и преобразование функций с помощью приложения для учащихся с регрессией
Определите полезные предикторы с помощью графиков, вручную выберите элементы для включения и преобразуйте элементы с помощью PCA в программе Regression Learner.
Оценка производительности модели у учащегося с регрессией
Сравнение статистики модели и визуализация результатов.
Узнайте о алгоритмах выбора элементов и изучите функции, доступные для выбора элементов.
Выбор последовательного элемента
В этом разделе описывается последовательный выбор элементов и приводится пример последовательного выбора элементов с использованием пользовательского критерия и sequentialfs функция.
Выбор элементов для анализа компонентов соседства (NCA)
Анализ компонентов окрестности (NCA) - непараметрический метод выбора признаков с целью максимизации точности прогнозирования алгоритмов регрессии и классификации.
Надежный выбор элементов с использованием NCA для регрессии
Выбор элементов, устойчивых к отклонениям, выполняется с помощью пользовательской функции устойчивых потерь в NCA.
Выбор предикторов для случайных лесов
Выберите предикторы разделения для случайных лесов с помощью алгоритма тестирования взаимодействия.
Автоматический выбор регрессионной модели с байесовской оптимизацией
Использовать fitrauto чтобы автоматически попробовать выбор типов регрессионной модели с различными значениями гиперпараметров, учитывая обучающий предиктор и данные ответа.
Рабочий процесс байесовской оптимизации
Выполните байесовскую оптимизацию с помощью функции аппроксимации или путем вызова bayesopt непосредственно.
Переменные для байесовской оптимизации
Создайте переменные для байесовской оптимизации.
Байесовские целевые функции оптимизации
Создайте целевую функцию для байесовской оптимизации.
Ограничения байесовской оптимизации
Задайте различные типы ограничений для байесовской оптимизации.
Оптимизация усиленного ансамбля регрессии
Минимизация потерь при перекрестной проверке ансамбля регрессии.
Функции графика байесовской оптимизации
Визуальный мониторинг байесовской оптимизации.
Байесовские функции вывода оптимизации
Мониторинг байесовской оптимизации.
Байесовский алгоритм оптимизации
Ознакомьтесь с основными алгоритмами байесовской оптимизации.
Параллельная байесовская оптимизация
Как байесовская оптимизация работает параллельно.
Интерпретировать модели машинного обучения
Объяснение прогнозов модели с помощью lime, shapley, и plotPartialDependence.
Ценности Shapley для модели машинного обучения
Вычислите значения Shapley для модели машинного обучения с помощью двух алгоритмов: kernelSHAP и расширения к kernelSHAP.
Внедрение перекрестной проверки с использованием параллельных вычислений
Ускорение перекрестной проверки с помощью параллельных вычислений.
Интерпретация результатов линейной регрессии
Отображение и интерпретация выходной статистики линейной регрессии.
Подгоните модель линейной регрессии и изучите результат.
Линейная регрессия с эффектами взаимодействия
Создайте и проанализируйте модель линейной регрессии с эффектами взаимодействия и интерпретируйте результаты.
Сводка выходных и диагностических статистических данных
Вычислите подогнанную модель с помощью свойств модели и функций объекта.
В линейной регрессии F-статистика является тестовой статистикой для подхода анализа дисперсии (ANOVA) для проверки значимости модели или компонентов в модели. T-статистика полезна для вывода коэффициентов регрессии.
Коэффициент определения (R-квадрат)
Коэффициент определения (R-квадрат) указывает пропорциональную величину вариации в переменной ответа y, объясненной независимыми переменными X в модели линейной регрессии.
Стандартные ошибки коэффициентов и доверительные интервалы
Оцененные дисперсии коэффициентов и ковариации фиксируют точность оценок коэффициентов регрессии.
Остатки полезны для обнаружения значений y и проверки предположений линейной регрессии относительно члена ошибки в регрессионной модели.
Тест Дурбина-Уотсона оценивает, существует или нет автокорреляция среди остатков данных временных рядов.
Расстояние Кука полезно для выявления отклонений в значениях X (наблюдения для переменных предиктора).
Матрица hat обеспечивает меру рычагов.
Delete-1 изменение ковариации (CovRatio) идентифицирует наблюдения, которые оказывают влияние на регрессионную подгонку.
Обобщенные линейные модели используют линейные методы для описания потенциально нелинейной взаимосвязи между членами предиктора и переменной отклика.
Параметрические нелинейные модели представляют взаимосвязь между переменной непрерывного отклика и одной или несколькими переменными непрерывного предиктора.