Построение моделей и оценка

Выбор признаков, выбор модели, оптимизация гипероптимизации параметров управления, перекрестная валидация, остаточная диагностика и графики

При построении высококачественной регрессионной модели важно выбрать правильные функции (или предикторы), настроить гиперпараметры (параметры модели не соответствуют данным) и оценить допущения модели с помощью остаточной диагностики.

Можно настроить гиперпараметры путем итерации между выбором значений для них и перекрестной валидацией модели с помощью ваших вариантов. Этот процесс приводит к нескольким моделям, и лучшая модель среди них может быть той, которая минимизирует предполагаемую ошибку обобщения. Например, чтобы настроить модель SVM, выберите набор прямоугольных ограничений и шкал ядра, перекрестно проверьте модель для каждой пары значений, а затем сравните их 10-кратные перекрестные валидированные оценки среднеквадратичной ошибки.

Некоторые непараметрические регрессионные функции в Statistics and Machine Learning Toolbox™ дополнительно предлагают автоматическую настройку гиперпараметра через байесовскую оптимизацию, поиск по сетке или случайный поиск. Однако, bayesopt, которая является основной функцией для реализации байесовской оптимизации, достаточно гибка для многих других приложений. Для получения дополнительной информации см. Bayesian Optimization Workflow.

Чтобы автоматически выбрать модель с настроенными гиперпараметрами, используйте fitrauto. Функция пробует выбор типов регрессионной модели с различными значениями гиперзначений параметров и возвращает окончательную модель, которая, как ожидается, будет работать хорошо. Использовать fitrauto когда вы не уверены, какие типы регрессионной модели лучше всего соответствуют вашим данным.

Чтобы создавать и оценивать модели регрессии в интерактивном режиме, используйте  приложение Regression Learner.

Чтобы интерпретировать регрессионую модель, можно использовать lime, shapley, и plotPartialDependence.

Приложения

Regression LearnerОбучите регрессионные модели прогнозировать данные с помощью машинного обучения с учителем

Функции

расширить все

fsrftestОдномерный рейтинг функций для регрессии с использованием F -tests
fsrncaВыбор признаков с помощью анализа компонента окрестности для регрессии
oobPermutedPredictorImportanceОценки важности предиктора путем сочетания наблюдений предиктора вне мешка для случайного леса деревьев регрессии
partialDependenceВычисление частичной зависимости
plotPartialDependenceСоздайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
predictorImportanceОценки предикторной важности для дерева регрессии
predictorImportanceОценки предикторной важности для регрессионого ансамбля
relieffОцените важность предикторов, использующих алгоритм ReliefF или RReliefF
sequentialfsПоследовательный выбор признаков с использованием пользовательского критерия
stepwiselmВыполните ступенчатую регрессию
stepwiseglmСоздайте обобщенную линейную регрессионую модель путем ступенчатой регрессии
fitrautoАвтоматически выберите регрессионую модель с оптимизированными гиперпараметрами
bayesoptВыберите оптимальные гиперпараметры машинного обучения с помощью байесовской оптимизации
hyperparametersОписание переменных для оптимизации функции аппроксимации
optimizableVariableОписание переменной для bayesopt или другие оптимизаторы
crossvalОцените потери с помощью перекрестной проверки
cvpartitionДанные секционирования для перекрестной проверки
repartitionДанные о перераспределении для перекрестной проверки
testТестовые индексы для перекрестной проверки
trainingИндексы обучения для перекрестной проверки

Интерпретируемая модель-агностические объяснения (LIME)

limeЛокальные интерпретируемые модели-агностические объяснения (LIME)
fitПодгонка простой модели локальных интерпретируемых объяснений модели-агностики (LIME)
plotПостроение графиков результатов локальных интерпретируемых объяснений модели-агностики (LIME)

Значения Шепли

shapleyЗначения Shapley
fitВычислите значения Shapley для точки запроса
plotГрафическое изображение значений Шепли

Частичная зависимость

partialDependenceВычисление частичной зависимости
plotPartialDependenceСоздайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
coefCIДоверительные интервалы оценок коэффициентов линейной регрессионой модели
coefTestЛинейный тест гипотезы на коэффициентах линейной регрессионой модели
dwtestТест Дурбина-Ватсона с объектом модели линейной регрессии
plotГрафик поля точек или добавленный переменный график линейной регрессионой модели
plotAddedДобавлен переменный график линейной регрессионой модели
plotAdjustedResponseСкорректированный график отклика линейной регрессионой модели
plotDiagnosticsГрафик диагностики наблюдений линейной регрессионой модели
plotEffectsПостройте графики основных эффектов предикторов в линейной регрессионой модели
plotInteractionПостройте эффекты взаимодействия двух предикторов в линейной регрессионой модели
plotResidualsПостройте графики невязок линейной регрессионой модели
plotSliceГрафик срезов через установленную линейную регрессионую поверхность
coefCIДоверительные интервалы оценок коэффициентов обобщенной линейной регрессионой модели
coefTestЛинейный тест гипотезы на обобщенных коэффициентах линейной регрессионой модели
devianceTestАнализ отклонения для обобщенной линейной регрессионой модели
plotDiagnosticsПостройте диагностику наблюдений обобщенной линейной регрессионой модели
plotResidualsПостройте невязки обобщенной линейной регрессионой модели
plotSliceГрафик срезов через подобранную обобщенную линейную регрессионую поверхность
coefCIДоверительные интервалы оценок коэффициентов нелинейной регрессионой модели
coefTestЛинейный тест гипотезы на коэффициентах нелинейной регрессионой модели
plotDiagnosticsГрафик диагностики нелинейной регрессионой модели
plotResidualsПостройте невязки нелинейной регрессионой модели
plotSliceГрафик срезов через подобранную нелинейную регрессионую поверхность
linhyptestЛинейный тест гипотезы

Объекты

расширить все

FeatureSelectionNCARegressionВыбор признаков для регрессии с использованием анализа соседних компонентов (NCA)
BayesianOptimizationБайесовские результаты оптимизации

Темы

Рабочий процесс приложения Regression Learner

Обучите регрессионные модели в приложении Regression Learner

Рабочий процесс для обучения, сравнения и улучшения регрессионых моделей, включая автоматизированное, ручное и параллельное обучение.

Выберите опции регрессионной модели

В Regression Learner автоматически обучите выбор моделей, или сравните и настройте опции линейных регрессионых моделей, регрессионых деревьев, машин опорных векторов, регрессионых моделей Гауссова процесса, ансамблей регрессионых деревьев и регрессионных нейронных сетей.

Выбор признаков и преобразование функций с помощью приложения Regression Learner

Идентифицируйте полезные предикторы с помощью графиков, вручную выбирайте функции для включения и преобразуйте функции с помощью PCA в Regression Learner.

Оцените производительность модели в Regression Learner

Сравните статистику модели и визуализируйте результаты.

Выбор признаков

Введение в выбор признаков

Узнайте об алгоритмах выбора признаков и исследуйте функции, доступные для выбора объектов.

Последовательный выбор признаков

В этом разделе описывается последовательный выбор признаков и приводится пример, который выбирает функции последовательно с помощью пользовательского критерия и sequentialfs функция.

Анализ компонентов по соседству (NCA) Выбора признаков

Анализ компонента окрестности (NCA) является непараметрическим методом для выбора функций с целью максимизации точности предсказания алгоритмов регрессии и классификации.

Робастный выбор признаков с использованием NCA для регрессии

Выполните выбор признаков, который является устойчивым к выбросам, используя пользовательскую функцию устойчивых потерь в NCA.

Выберите предикторы для случайных лесов

Выберите предикторы разделения для случайных лесов с помощью алгоритма тестирования взаимодействия.

Автоматический выбор модели

Автоматический выбор регрессионной модели с байесовской оптимизацией

Использовать fitrauto чтобы автоматически попробовать выбор типов регрессионной модели с различными значениями гиперзначений параметров, учитывая обучающие данные предиктора и отклика.

Гипероптимизация параметров управления

Рабочий процесс Байесовской оптимизации

Выполните байесовскую оптимизацию с помощью функции аппроксимации или путем вызова bayesopt непосредственно.

Переменные для байесовской оптимизации

Создайте переменные для байесовской оптимизации.

Байесовские целевые функции оптимизации

Создайте целевую функцию для байесовской оптимизации.

Ограничения в байесовской оптимизации

Установите различные типы ограничений для байесовской оптимизации.

Оптимизируйте бустерный регрессионый ансамбль

Минимизируйте потери регрессионного ансамбля при перекрестной валидации.

Байесовские Функции построения графика оптимизации

Визуально контролируйте байесовскую оптимизацию.

Байесовские выходные функции оптимизации

Отслеживайте байесовскую оптимизацию.

Байесовский алгоритм оптимизации

Осмыслите базовые алгоритмы байесовской оптимизации.

Параллельная байесовская оптимизация

Как байесовская оптимизация работает параллельно.

Интерпретация модели

Интерпретируйте модели машинного обучения

Объясните предсказания модели с помощью lime, shapley, и plotPartialDependence.

Значения Shapley для модели машинного обучения

Вычислите значения Шепли для модели машинного обучения с помощью двух алгоритмов: kernelSHAP и расширения до kernelSHAP.

Перекрестная валидация

Реализуйте перекрестную валидацию с помощью параллельных вычислений

Ускорите перекрестную валидацию с помощью параллельных вычислений.

Диагностика линейной модели

Интерпретируйте результаты линейной регрессии

Отображение и интерпретация статистики выхода линейной регрессии.

Линейная регрессия

Подбирайте линейную регрессионую модель и исследуйте результат.

Линейная регрессия с эффектами взаимодействия

Создайте и проанализируйте линейную регрессионую модель с эффектами взаимодействия и интерпретируйте результаты.

Сводные данные статистики Выхода и диагностики

Оцените подобранную модель с помощью свойств модели и функций объекта.

F-статистические и t-статистические

В линейной регрессии F-statistic является тестовой статистикой для подхода дисперсионного анализа (ANOVA), чтобы проверить значимость модели или компонентов в модели. t-statistic полезна для вывода о коэффициентах регрессии.

Коэффициент детерминации (R-квадрат)

Коэффициент детерминации (R-квадрат) указывает пропорциональное количество изменения переменной отклика y объясняемое независимыми переменными, X в линейной регрессионой модели.

Стандартные ошибки коэффициентов и доверительные интервалы

Предполагаемые отклонения коэффициентов и ковариации фиксируют точность оценок коэффициентов регрессии.

Невязки

Невязки полезны для обнаружения отдаленных значений y и проверки допущений линейной регрессии относительно термина ошибки в регрессионой модели.

Тест Дурбина-Ватсона

Тест Дурбина-Ватсона оценивает, существует ли автокорреляция среди невязок данных временных рядов.

Расстояние Кука

Расстояние Кука полезно для идентификации выбросов в X значениях (наблюдения для переменных).

Матрица шляп и рычаги

Матрица шляп обеспечивает меру рычага.

Delete-1 статистики

Delete-1 изменение ковариации (CovRatio) определяет наблюдения, которые влиятельны в регрессионной подгонке.

Обобщенная диагностика линейной модели

Обобщенные линейные модели

Обобщенные линейные модели используют методы Linear, чтобы описать потенциально нелинейную связь между терминами предиктора и переменной отклика.

Нелинейная диагностика модели

Нелинейная регрессия

Параметрические нелинейные модели представляют отношение между переменной непрерывного отклика и одной или несколькими непрерывными переменными предиктора.