Ступенчатая регрессия

Что такое Stepwise?

Используйте функции Stepwise, чтобы помочь вам найти хорошую модель подгонки. Цель пошагового поиска - минимизировать PRESS. Минимизация Предсказанной Суммы Ошибок Квадратов (PRESS) является хорошим методом для работы в направлении регрессионой модели, которая обеспечивает хорошую прогнозирующую способность в экспериментальном факторном пространстве. См. PRESS statistic.

Использование PRESS является ключевым показателем прогнозирующего качества модели. Предсказанная ошибка использует предсказания, вычисленные без использования наблюдаемого значения для этого наблюдения. PRESS известен как Delete-1 статистика в продукте Statistics and Machine Learning Toolbox™. См. также Двухэтапные модели для двигателей.

Вы можете выбрать автоматический пошаговый во время настройки модели или ручное управление с помощью окна Stepwise.

Используйте меню Stepwise в диалоговых окнах Настройка модели (Model Setup), чтобы автоматически запустить пошагово при построении линейных моделей.
Откройте ступенчатую регрессию окно через значок на панели инструментов, когда вы находитесь в представлении глобального уровня. Инструмент Stepwise предоставляет ряд методов выбора членов модели, которые должны быть включены.

Автоматический пошаговый

Можно задать стандартные программы выбора "Минимизировать" PRESS, "" Вперед "и" Назад "для автоматического выполнения без необходимости ввода ступенчатого рисунка.

Можно задать эти опции в диалоговом окне Настройка модели (Model Setup), когда вы первоначально настраивали план тестирования, или с глобального уровня следующим образом:

Выберите Model > Set Up.
Диалоговое окно Настройка глобальной модели (Global Model Setup) имеет раскрывающийся Stepwise меню с опциями None, Minimize PRESS, Forward selection, и Backward selection.

Использование окна ступенчатой регрессии

Используйте пошаговые командные кнопки в нижней части окна (также доступные в Regression меню) следующим образом:
- Щелкните Min. PRESS (обозначенный как 1 на следующем рисунке), чтобы автоматически включить или удалить условия, чтобы минимизировать PRESS. Эта процедура предоставляет модель с улучшенной прогнозирующей способностью.
- Include All членов в модели (кроме терминов, помеченных Status как Never). Эта опция используется в сочетании с Min. PRESS и обратным выбором. Например, сначала нажмите Include All, затем Min. PRESS. Затем можно нажать Include All еще раз, затем Backwards, чтобы сравнить, который дает лучший результат.
- Remove All членов в модели (кроме терминов, помеченных Status как Always). Эта опция используется в сочетании с прямым выбором (нажмите Remove All, затем Forwards).
- Forwards выбор добавляет все условия в модель, что приведет к статистически значимым терминам в % уровень (см. Шаг 4 для альфа). Сложение членов повторяется до тех пор, пока все члены в модели не будут статистически значимыми.
- Backwards выбор удаляет все условия из модели, которые не являются статистически значимыми на уровне%. Удаление членов повторяется до тех пор, пока все члены в модели не будут статистически значимыми.
Условия также могут быть включены вручную или удалены из модели, нажав на Term, Next PRESS или линию строки ошибки коэффициента (обозначенной 2 на следующем рисунке).
Доверительные интервалы для всех коэффициентов показаны справа от таблицы. Обратите внимание, что интервал для постоянного члена не отображается, так как значение этого коэффициента часто значительно больше, чем другие коэффициенты.
Термины, которые в настоящее время не включены в модель, отображаются красным цветом. Заголовки столбца см. в разделе «Пошаговая таблица».
История PRESS и итоговая статистика показаны справа от ступенчатого рисунка. Можно вернуться к предыдущей модели, щелкнув элемент в списке или точке на графике Stepwise PRESS History (обозначенном как 3 на следующем рисунке).
Критические значения для проверки, статистически ли коэффициент отличается от нуля в % уровень отображается в нижней правой части ступенчатого рисунка. Можно ввести значение в поле редактирования (обозначенное 4 на следующем рисунке) слева от критических значений. Значение по умолчанию является 5%. Таблица ANOVA показана для текущей модели.

Любые изменения, внесенные в пошаговый рисунок, автоматически обновляют диагностические графики в Model Browser.

Можно вернуться к стартовой модели при закрытии окна Stepwise. Когда вы выходите из окна Stepwise, диалоговое окно Confirm Stepwise Exit спрашивает Do you want to update regression results? Можно кликнуть Yes (по умолчанию), No (чтобы вернуться к стартовой модели) или Cancel (чтобы вернуться к пошаговому окну).

Ступенчатая таблица

Термин	Метка для коэффициента
Статус	Всегда. Пошагово не удаляет этот термин. Никогда. Пошагово не добавляет этого термина. Шаг. Stepwise рассматривает этот термин для сложения или удаления.
B	Значение коэффициента. Когда термин не находится в модели, значение коэффициента, если он добавлен к модели, отображается красным цветом.
stdB	Стандартная ошибка коэффициента.
t	значение t, чтобы проверить, статистически ли коэффициент отличается от нуля. Значение t подсвечивается синим цветом, если оно меньше критического значения, заданного в `%` окно редактирования (внизу справа).
Следующий PRESS	Значение PRESS, если включение или исключение этого термина изменено при следующей итерации. Желтая подсвеченная камера указывает на следующий рекомендуемый термин для изменения. Включение или исключение выделенного термина (в зависимости от его текущего состояния) приведет к наибольшему уменьшению значения PRESS. Если желтая подсветка отсутствует, это означает, что значение PRESS уже минимизировано. Если есть желтая камера, заголовок столбца также желтый, чтобы предупредить вас, что вы можете сделать изменение, чтобы достичь меньшего значения PRESS. Заголовок столбца подсвечивается, так как для поиска желтой камеры может потребоваться прокрутка.

В предыдущей таблице описываются значения заголовков столбца в окне Ступенчатая регрессия.

Пошагово в процессе построения моделей

После настройки модели необходимо создать несколько альтернативных моделей, использовать функции Stepwise и изучить диагностическую статистику для поиска хорошей модели подгонки. Для каждой функции отклика,

Начнем с проведения ступенчатого поиска.
Это можно сделать автоматически или с помощью окна Stepwise.
Цель пошагового поиска - минимизировать PRESS. Обычно не одно, а несколько модели кандидатов на ответ функций возникнуть, каждый с очень похожим PRESS R². Прогнозирующая способность модели с PRESS R² 0,91 не может считаться превосходящим в любом значимом инженерном смысле модель с PRESS R² 0,909. Кроме того, характер процесса построения моделей заключается в том, что «улучшение» в PRESS R² предлагаемые последние несколько сроков часто очень малы. Следовательно, может возникнуть несколько моделей кандидата. Можно хранить каждую из моделей кандидата и связанную диагностическую информацию отдельно для последующего рассмотрения. Выполните это путем выбора дочерних узлов для функции отклика.
Однако опыт показал, что модель с PRESS R² менее 0,8, скажем, мало используется в качестве прогнозирующего инструмента для целей отображения двигателя. Этот критерий следует рассматривать с осторожностью. Низкое давление R² значения могут быть результатом плохого выбора исходных факторов, а также наличия отдаленных или влиятельных точек в наборе данных. Вместо того, чтобы полагаться на PRESS R² в одиночку более безопасной стратегией является изучение диагностической информации модели для определения характера любых фундаментальных проблем и последующего принятия соответствующих корректирующих мер.
Когда пошаговый процесс будет завершен, диагностические данные должны быть рассмотрены для каждой модели кандидата.
Возможно, только этих данных достаточно для обеспечения средства выбора одной модели. Это было бы, если бы одна модель явно показала более идеальное поведение, чем другие. Помните, что интерпретация диагностических графиков субъективна.
Также следует удалить внешние данные на данном этапе. Можно задать критерии для обнаружения отдаленных данных. Критерий по умолчанию является любым случаем, когда абсолютное значение внешнего исследуемой невязки больше 3.
После удаления удаленных данных продолжите процесс построения моделей в попытке удалить дальнейшие условия.
Условия высокого порядка могли быть сохранены в модели в попытке следовать окружающим данным. Даже после удаления отдаленных данных нет гарантии, что диагностические данные позволят предположить, что была найдена подходящая модель кандидата. При таких обстоятельствах,
Преобразование функции отклика может оказаться полезным.
Полезный набор преобразований обеспечивает семейство Box и Cox, см. Преобразование Box-Cox. Обратите внимание, что алгоритм Box-Cox зависит от модели и как таковой всегда выполняется с помощью (Nxq) регрессионой матрицы X.
После выбора преобразования необходимо повторить пошаговый поиск PRESS и выбрать подходящее подмножество моделей кандидата.
После этого вы должны проанализировать соответствующие диагностические данные для каждой модели.
Может быть неясно, почему исходный пошаговый поиск проводился в естественной метрике. Почему бы не приступить непосредственно к преобразованию? Это кажется разумным, когда понятно, что алгоритм Box-Cox часто, но не всегда, предполагает, что применяется контрастное преобразование, такое как квадратный корень или журнал. Для этого существуют две основные причины:
- Основной причиной выбора функций отклика является то, что они обладают естественной инженерной интерпретацией. Маловероятно, что поведение трансформированной версии функции отклика так интуитивно легко понять.
- Внешние данные могут сильно повлиять на тип выбранного преобразования. Применение преобразования, позволяющего модели хорошо подгонять плохие данные, не кажется разумной стратегией. По «плохим» данным принято, что данные действительно ненормальны, и была обнаружена причина, почему данные находятся за пределами; для примера «Анализатор выбросов продувался, пока результаты принимались».

Наконец, если вы не можете найти подходящую модель кандидата по завершении пошагового поиска с преобразованной метрикой, то серьезная проблема существует либо с данными, либо с текущим уровнем инженерных знаний системы. Увеличение модели или альтернативная стратегия эксперимента или моделирования должны применяться в этих обстоятельствах.

После этих шагов наиболее полезно проверить свою модель на соответствие другим данным (если таковые имеются). См. Окно оценки модели.

Смотрите также эти страницы руководства со ссылками на информацию о каждом из шагов, связанных с созданием одной и двухэтапных моделей, а затем поиском наилучшей подгонки:

Рекомендуемый общий пошаговый процесс лучше всего просматривать графически, как показано на следующем графике потока.

Обратите внимание, что процесс, изображенный на предыдущей схеме, должен быть выполнен для каждого представителя набора функций отклика, сопоставленных с заданным ответом, и затем повторен для остальных ответов.

PRESS statistic

При n запусках в наборе данных уравнение модели подгоняется к n-1 запускам и предсказанию, взятому из этой модели для оставшейся. Различие между записанным значением данных и значением, заданным моделью (по значению опущенного запуска), называется предсказанием невязки. PRESS - это сумма квадратов невязок предсказания. Квадратным корнем PRESS/n является PRESS RMSE (среднеквадратичная ошибка предсказания).

Обратите внимание, что невязка предсказания отличается от обыкновенной невязки, который является различием между записанным значением и значением модели, когда он подгоняется ко всему набору данных.

Статистика PRESS дает хорошее указание на прогнозирующую степень вашей модели, из-за чего минимизация PRESS желательна. Полезно сравнить PRESS RMSE с RMSE, поскольку это может указывать на проблемы с сверхподбором кривой. RMSE минимизируется, когда модель очень близко подходит к каждой точке данных; поэтому «погоня» за данными улучшит RMSE. Однако погоня за данными может иногда привести к сильным колебаниям в модели между точками данных; это поведение может дать хорошие значения RMSE, но не является репрезентативным для данных и не даст надежных значений предсказания там, где у вас еще нет данных. PRESS RMSE защищает от этого, проверяя, насколько хорошо текущая модель предсказывает каждую из точек в наборе данных (в свою очередь), если они не были включены в регрессию. Получение небольшого PRESS RMSE обычно указывает, что модель не слишком чувствительна к какой-либо одной точке данных.

Для получения дополнительной информации смотрите Руководства по выбору оптимальной модели подгонки, ступенчатой регрессии и терминов и определений статистики тулбокса.

Обратите внимание, что вычисление PRESS для двухэтапной модели применяет тот же принцип (подгонка модели к запуски и взятие предсказания из этой модели для оставшейся), но в этом случае предсказанные значения сначала найдены для функций отклика вместо точек данных. Оценено предсказанное значение, опускающее каждый тест в свою очередь, для каждой функции отклика. Предсказанные функции отклика затем используются, чтобы восстановить локальную кривую для теста, и эта кривая используется, чтобы получить двухэтапные предсказания. Это применяется следующим образом:

Для вычисления двух этапов PRESS:

Для каждого теста S выполните следующие шаги:
- Для каждой из характеристик отклика вычислите, каковы будут предсказания признаков отклика для S (с удаленными из вычисления функциями отклика для S).
- Это дает локальную кривую предсказания C, основанную на всех тестах, кроме S.
- Для каждой точки данных в тесте вычислите различие между наблюдаемым значением и значением, предсказанным C.
Повторите для всех тестов.

Суммируйте квадрат всех найденных различий и разделите его на общее количество точек данных.

Документация