step

Улучшите модель линейной регрессии путем добавления или удаления терминов

Описание

NewMdl = step(mdl) возвращает линейную регрессию, основанную на модели на mdl использование ступенчатой регрессии, чтобы добавить или удалить один предиктор.

пример

NewMdl = step(mdl,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, можно задать критерий, чтобы использовать, чтобы добавить или удалить термины и максимальное количество шагов, чтобы взять.

Примеры

свернуть все

Подбирайте модель линейной регрессии и используйте step улучшить модель путем добавления или удаления терминов. Этот пример также описывает как step функционируйте обрабатывает категориальный предиктор.

Загрузите carsmall набор данных, и составляет таблицу с помощью Weight, Model_Year, и MPG переменные.

load carsmall
tbl1 = table(MPG,Weight);
tbl1.Year = categorical(Model_Year);

Создайте модель линейной регрессии MPG в зависимости от Weight.

mdl1 = fitlm(tbl1,'MPG ~ Weight')
mdl1 = 
Linear regression model:
    MPG ~ 1 + Weight

Estimated Coefficients:
                    Estimate        SE         tStat       pValue  
                   __________    _________    _______    __________

    (Intercept)        49.238       1.6411     30.002    2.7015e-49
    Weight         -0.0086119    0.0005348    -16.103    1.6434e-28


Number of observations: 94, Error degrees of freedom: 92
Root Mean Squared Error: 4.13
R-squared: 0.738,  Adjusted R-Squared: 0.735
F-statistic vs. constant model: 259, p-value = 1.64e-28

Настройте модель, чтобы включать до 'quadratic' термины при помощи step. Задайте 'NSteps' как 5, чтобы позволить самое большее 5 шагов ступенчатой регрессии. Задайте 'Verbose' как 2, чтобы отобразить процесс оценки и решение, принятое на каждом шаге.

NewMdl1 = step(mdl1,'Upper','quadratic','NSteps',5,'Verbose',2)
   pValue for adding Year is 8.2284e-15
   pValue for adding Weight^2 is 0.15454
1. Adding Year, FStat = 47.5136, pValue = 8.22836e-15
   pValue for adding Weight:Year is 0.0071637
   pValue for adding Weight^2 is 0.0022303
2. Adding Weight^2, FStat = 9.9164, pValue = 0.0022303
   pValue for adding Weight:Year is 0.19519
   pValue for removing Year is 2.9042e-16
NewMdl1 = 
Linear regression model:
    MPG ~ 1 + Weight + Year + Weight^2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        54.206        4.7117     11.505    2.6648e-19
    Weight          -0.016404     0.0031249    -5.2493    1.0283e-06
    Year_76            2.0887       0.71491     2.9215     0.0044137
    Year_82            8.1864       0.81531     10.041    2.6364e-16
    Weight^2       1.5573e-06    4.9454e-07      3.149     0.0022303


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.78
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 172, p-value = 5.52e-41

step создает две переменные индикатора, Year_76 и Year_82, потому что Year включает три отличных значения. step не рассматривает квадратные члены переменных индикатора, потому что квадрат переменной индикатора самостоятельно.

Поскольку 'Verbose' 2, step отображения процесс оценки:

  • step вычисляет p-значения для добавления Year или Weight^2. P-значение для Year меньше обоих p-значение для Weight^2 и пороговое значение по умолчанию 0,05; поэтому, step добавляет Year к модели.

  • step вычисляет p-значения для добавления Weight:Year или Weight^2. Поскольку p-значение для Weight^2 меньше p-значения для Weight:Year, step функция добавляет Weight^2 к модели.

  • После добавления квадратичного термина, step вычисляет p-значение для добавления Weight:Year снова, но p-значение больше порогового значения. Поэтому step не добавляет термин к модели. step не исследует добавляющий Weight^3 из-за верхней границы, заданной 'Upper' аргумент пары "имя-значение".

  • step ищет термины, чтобы удалить. step уже исследованный Weight^2, таким образом, это вычисляет только p-значение для удаления Year. Поскольку p-значение меньше порогового значения по умолчанию 0,10, step не удаляет термин.

  • Несмотря на то, что максимальное позволенное количество шагов равняется 5, step отключает процесс после двух шагов, потому что модель не улучшается путем добавления или удаления термина.

step обрабатывает две переменные индикатора как один переменный предиктор и добавляет Year за один шаг. Чтобы обработать две переменные индикатора как два отличных переменных предиктора, используйте dummyvar создать отдельные категориальные переменные.

temp_Year = dummyvar(tbl1.Year);
Year_76 = temp_Year(:,2);
Year_82 = temp_Year(:,3);

Составьте таблицу, содержащую MPG, Weight, Year_76, и Year_82.

tbl2 = table(MPG,Weight,Year_76,Year_82);

Создайте модель линейной регрессии MPG в зависимости от Weight, и используйте step улучшить модель.

mdl2 = fitlm(tbl2,'MPG ~ Weight');
NewMdl2 = step(mdl2,'Upper','quadratic','NSteps',5)
1. Adding Year_82, FStat = 83.1956, pValue = 1.76163e-14
2. Adding Weight:Year_82, FStat = 8.0641, pValue = 0.0055818
3. Adding Year_76, FStat = 8.1284, pValue = 0.0054157
NewMdl2 = 
Linear regression model:
    MPG ~ 1 + Year_76 + Weight*Year_82

Estimated Coefficients:
                       Estimate         SE         tStat       pValue  
                      __________    __________    _______    __________

    (Intercept)           38.844        1.5294     25.397     1.503e-42
    Weight             -0.006272    0.00042673    -14.698    1.5622e-25
    Year_76               2.0395       0.71537      2.851     0.0054157
    Year_82               19.607        3.8731     5.0623    2.2163e-06
    Weight:Year_82    -0.0046268     0.0014979    -3.0888     0.0026806


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.79
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 171, p-value = 6.54e-41

Модель NewMdl2 включает период взаимодействия Weight:Year_82 вместо Weight^2, термин включен в NewMdl1.

Входные параметры

свернуть все

Модель линейной регрессии в виде LinearModel объект создал использование fitlm или stepwiselm.

Можно использовать step только если вы создаете mdl при помощи fitlm с 'RobustOpts' набор аргумента пары "имя-значение" к 'off' по умолчанию.

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Criterion','aic','Upper','quadratic','Verbose',2 сообщает step чтобы использовать критерий информации о Akaike, включайте (самое большее) квадратичные члены в модели и отобразите процесс оценки и решение, принятое на каждом шаге.

Критерий, чтобы добавить или удалить термины в виде разделенной запятой пары, состоящей из 'Criterion' и одно из этих значений:

  • 'sse'p - значение для F - тест изменения в сумме квадратичной невязки, которая следует из добавления или удаления термина

  • 'aic' — Изменитесь в значении Критерия информации о Akaike (AIC)

  • 'bic' — Изменитесь в значении Байесового информационного критерия (BIC)

  • 'rsquared' — Увеличение значения R2

  • 'adjrsquared' — Увеличение значения настроенного R2

Пример: 'Criterion','bic'

Спецификация модели, описывающая термины, которые не могут быть удалены из модели в виде разделенной запятой пары, состоящей из 'Lower' и одно из этих значений:

  • Вектор символов или строковый скаляр, называющий модель.

    ЗначениеТип модели
    'constant'Модель содержит только константу (точка пересечения) термин.
    'linear'Модель содержит точку пересечения и линейный член для каждого предиктора.
    'interactions'Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар отличных предикторов (никакие термины в квадрате).
    'purequadratic'Модель содержит термин точки пересечения и линейный и придает терминам квадратную форму для каждого предиктора.
    'quadratic'Модель содержит термин точки пересечения, линейный, и придает квадратную форму терминам для каждого предиктора и всем продуктам пар отличных предикторов.
    'polyijk'Модель является полиномом со всеми терминами до степени i в первом предикторе, степень j во втором предикторе, и так далее. Задайте максимальную степень для каждого предиктора при помощи цифр 0 хотя 9. Модель содержит периоды взаимодействия, но степень каждого периода взаимодействия не превышает максимальное значение заданных степеней. Например, 'poly13' имеет точку пересечения и x 1, x 2, x 22x2 3, x 1*x2, и x 1*x22 термины, где x 1 и x 2 является первыми и вторыми предикторами, соответственно.
  • t (p + 1) матрица или Матрица Условий, задавая члены в модели, где t является количеством терминов, p, является количеством переменных предикторов и +1 счетом на переменную отклика. Матрица терминов удобна, когда количество предикторов является большим, и вы хотите сгенерировать термины программно.

  • Вектор символов или Формула строкового скаляра в форме

    'Y ~ terms',

    где terms находятся в Обозначении Уилкинсона. Именами переменных в формуле должен быть допустимый MATLAB® идентификаторы.

Пример: 'Lower','linear'

Типы данных: single | double | char | string

Максимальное количество шагов, чтобы взять в виде разделенной запятой пары, состоящей из 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

Порог для критерия, чтобы добавить термин в виде разделенной запятой пары, состоящей из 'PEnter' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.05Если p - значение F - статистическая величина меньше PEnter (p - значение, чтобы войти), добавляет термин к модели.
'AIC'0Если изменение в AIC модели меньше PEnter, добавьте термин в модель.
'BIC'0Если изменение в BIC модели меньше PEnter, добавьте термин в модель.
'Rsquared'0.1Если увеличение значения R-squared модели больше PEnter, добавьте термин в модель.
'AdjRsquared'0Если увеличение настроенного значения R-squared модели больше PEnter, добавьте термин в модель.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PEnter',0.075

Порог для критерия, чтобы удалить термин в виде разделенной запятой пары, состоящей из 'PRemove' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.10Если p - значение F - статистическая величина больше PRemove (p - значение, чтобы удалить), удалите термин из модели.
'AIC'0.01Если изменение в AIC модели больше PRemove, удалите термин из модели.
'BIC'0.01Если изменение в BIC модели больше PRemove, удалите термин из модели.
'Rsquared'0.05Если увеличение значения R-squared модели меньше PRemove, удалите термин из модели.
'AdjRsquared'-0.05Если увеличение настроенного значения R-squared модели меньше PRemove, удалите термин из модели.

На каждом шаге, step функционируйте также проверяет, является ли термин избыточным (линейно зависимый) с другими терминами в текущей модели. Когда любой термин линейно зависим с другими терминами в текущей модели, step функция удаляет избыточный термин, независимо от значения критерия.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PRemove',0.05

Спецификация модели, описывающая самый большой набор терминов в подгонке в виде разделенной запятой пары, состоящей из 'Upper' и одно из этих значений:

  • Вектор символов или строковый скаляр, называющий модель.

    ЗначениеТип модели
    'constant'Модель содержит только константу (точка пересечения) термин.
    'linear'Модель содержит точку пересечения и линейный член для каждого предиктора.
    'interactions'Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар отличных предикторов (никакие термины в квадрате).
    'purequadratic'Модель содержит термин точки пересечения и линейный и придает терминам квадратную форму для каждого предиктора.
    'quadratic'Модель содержит термин точки пересечения, линейный, и придает квадратную форму терминам для каждого предиктора и всем продуктам пар отличных предикторов.
    'polyijk'Модель является полиномом со всеми терминами до степени i в первом предикторе, степень j во втором предикторе, и так далее. Задайте максимальную степень для каждого предиктора при помощи цифр 0 хотя 9. Модель содержит периоды взаимодействия, но степень каждого периода взаимодействия не превышает максимальное значение заданных степеней. Например, 'poly13' имеет точку пересечения и x 1, x 2, x 22x2 3, x 1*x2, и x 1*x22 термины, где x 1 и x 2 является первыми и вторыми предикторами, соответственно.
  • t (p + 1) матрица или Матрица Условий, задавая члены в модели, где t является количеством терминов, p, является количеством переменных предикторов и +1 счетом на переменную отклика. Матрица терминов удобна, когда количество предикторов является большим, и вы хотите сгенерировать термины программно.

  • Вектор символов или Формула строкового скаляра в форме

    'Y ~ terms',

    где terms находятся в Обозначении Уилкинсона. Имена переменных в формуле должны быть допустимыми идентификаторами MATLAB.

Пример: 'Upper','quadratic'

Типы данных: single | double | char | string

Управляйте для отображения информации в виде разделенной запятой пары, состоящей из 'Verbose' и одно из этих значений:

  • 0 — Подавите все отображение.

  • 1 — Отобразите меры, принятые на каждом шаге.

  • 2 — Отобразите процесс оценки и меры, принятые на каждом шаге.

Пример: 'Verbose',2

Выходные аргументы

свернуть все

Модель линейной регрессии, возвращенная как LinearModel объект

Перезаписывать входной параметр mdl, присвойте новую модель mdl.

mdl = step(mdl);

Больше о

свернуть все

Матрица условий

Матрица терминов T t (p + 1) матричные термины определения в модели, где t является количеством терминов, p является количеством переменных предикторов и +1 счетом на переменную отклика. Значение T(i,j) экспонента переменной j в термине i.

Например, предположите, что вход включает три переменных предиктора x1x2 , и x3 и переменная отклика y в порядке x1x2 , x3, и y. Каждая строка T представляет один термин:

  • [0 0 0 0] — Постоянный термин или точка пересечения

  • [0 1 0 0] x2 ; эквивалентно, x1^0 * x2^1 * x3^0

  • [1 0 1 0]x1*x3

  • [2 0 0 0]x1^2

  • [0 1 2 0]x2*(x3^2)

0 в конце каждого термина представляет переменную отклика. В общем случае вектор-столбец из нулей в матрице терминов представляет положение переменной отклика. Если у вас есть переменные прогноза и переменные отклика в матрице и вектор-столбце, то необходимо включать 0 для переменной отклика в последнем столбце каждой строки.

Формула

Формула для спецификации модели является вектором символов или строковым скаляром формы 'y ~ terms'.

  • y имя ответа.

  • terms представляет термины предиктора в модели с помощью обозначения Уилкинсона.

Чтобы представлять переменные прогноза и переменные отклика, используйте имена переменных табличного входа tbl или имена переменных заданы при помощи VarNames. Значение по умолчанию VarNames {'x1','x2',...,'xn','y'}.

Например:

  • 'y ~ x1 + x2 + x3' задает линейную модель с тремя переменными с точкой пересечения.

  • 'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без точки пересечения. Обратите внимание на то, что формулы включают константу (точка пересечения) термин по умолчанию. Чтобы исключить постоянный термин из модели, необходимо включать –1 в формуле.

Формула включает постоянный термин, если вы явным образом не удаляете термин с помощью –1.

Обозначение Уилкинсона

Обозначение Уилкинсона описывает термины, существующие в модели. Обозначение относится к терминам, существующим в модели, не ко множителям (коэффициенты) тех терминов.

Обозначение Уилкинсона использует эти символы:

  • + средние значения включают следующую переменную.

  • средние значения не включают следующую переменную.

  • : задает взаимодействие, которое является продуктом терминов.

  • * задает взаимодействие и все термины более низкоуровневые.

  • ^ возводит предиктор в степень, точно так же, как в * повторный, таким образом, ^ включает термины более низкоуровневые также.

  • () термины групп.

Эта таблица показывает типичные примеры обозначения Уилкинсона.

Обозначение УилкинсонаУсловия в стандартном обозначении
1Постоянный (точка пересечения) термин
x1^k, где k положительное целое числоx1x1 2x1 k
x1 + x2x1x2
x1*x2x1x2 x1, x2
x1:x2x1*x2 только
–x2Не включайте x2
x1*x2 + x3x1x2 , x3x1, x2
x1 + x2 + x3 + x1:x2x1x2 , x3x1, x2
x1*x2*x3 – x1:x2:x3x1x2 , x3x1, x2 , x1*x3, x2*x3
x1*(x2 + x3)x1x2 , x3x1, x2 , x1*x3

Для получения дополнительной информации смотрите Обозначение Уилкинсона.

Алгоритмы

  • Stepwise regression является систематическим методом для добавления и удаления терминов от линейного или обобщенного линейного, основанного на модели на их статистическом значении в объяснении переменной отклика. Метод начинается с первоначальной модели, заданное использование modelspec, и затем сравнивает объяснительную силу инкрементно больших и меньших моделей.

    step функционируйте использование прямая и обратная ступенчатая регрессия, чтобы определить итоговую модель. На каждом шаге функция ищет термины, чтобы добавить к модели или удалить из основанного на модели на значении 'Criterion' аргумент пары "имя-значение".

    Значение по умолчанию 'Criterion' для линейной регрессии моделью является 'sse'. В этом случае, stepwiselm и step из LinearModel используйте p - значение F - статистическая величина к тестовым моделям с и без потенциального термина на каждом шаге. Если бы термин не находится в настоящее время в модели, нулевая гипотеза - то, что термин имел бы нулевой коэффициент, если добавлено к модели. Если существуют достаточные доказательства, чтобы отклонить нулевую гипотезу, функция добавляет термин в модель. С другой стороны, если термин находится в настоящее время в модели, нулевая гипотеза - то, что термин имеет нулевой коэффициент. Если существуют недостаточные доказательства, чтобы отклонить нулевую гипотезу, функция удаляет термин из модели.

    Ступенчатая регрессия делает эти шаги когда 'Criterion' 'sse':

    1. Подбирайте первоначальную модель.

    2. Исследуйте набор доступных терминов не в модели. Если какой-либо из терминов имеет p - значения меньше, чем допуск входа (то есть, если бы маловероятно, что термин имел бы нулевой коэффициент, если добавлено к модели), добавьте термин с самым маленьким p - значение и повторите этот шаг; в противном случае перейдите к шагу 3.

    3. Если какой-либо из доступных членов в модели имеет p - значения, больше, чем выходной допуск (то есть, гипотеза нулевого коэффициента не может быть отклонена), удалите термин с самым большим p - значение и возвратитесь к шагу 2; в противном случае закончите процесс.

    На любом этапе функция не добавит термин высшего порядка, если модель не будет также включать все термины более низкоуровневые, которые являются подмножествами термина высшего порядка. Например, функция не попытается добавить термин X1:X2^2 если оба X1 и X2^2 уже находятся в модели. Точно так же функция не удалит термины более низкоуровневые, которые являются подмножествами терминов высшего порядка, которые остаются в модели. Например, функция не попытается удалить X1 или X2^2 если X1:X2^2 остается в модели.

    Значение по умолчанию 'Criterion' поскольку обобщенной линейной моделью является 'Deviance'. stepwiseglm и step из GeneralizedLinearModel выполните подобную процедуру для добавления или удаления терминов.

    Можно задать другие критерии при помощи 'Criterion' аргумент пары "имя-значение". Например, можно задать изменение в значении критерия информации о Akaike, Байесового информационного критерия, R-squared или настроенного R-squared как критерий, чтобы добавить или удалить термины.

    В зависимости от терминов, включенных в первоначальную модель и порядок, в котором функция добавляет и удаляет термины, функциональная сила создает различные модели от того же набора потенциальных терминов. Функция завершает работу, когда никакой один шаг не улучшает модель. Однако различная первоначальная модель или различная последовательность шагов не гарантируют лучшую подгонку. В этом смысле пошаговые модели локально оптимальны, но не могут быть глобально оптимальными.

  • step обрабатывает категориальный предиктор можно следующим образом:

    • Модель с категориальным предиктором, который имеет уровни L (категории), включает   переменные индикатора L - 1. Модель использует первую категорию в качестве контрольного уровня, таким образом, это не включает переменную индикатора для контрольного уровня. Если типом данных категориального предиктора является categorical, затем можно проверять порядок категорий при помощи categories и переупорядочьте категории при помощи reordercats настроить контрольный уровень. Для получения дополнительной информации о создании переменных индикатора, смотрите Автоматическое Создание Фиктивных Переменных.

    • step обрабатывает группу   переменных индикатора L - 1 как одна переменная. Если вы хотите обработать переменные индикатора как отличные переменные предикторы, создайте переменные индикатора вручную при помощи dummyvar. Затем используйте переменные индикатора, кроме той, соответствующей контрольному уровню категориальной переменной, когда вы подберете модель. Для категориального предиктора X, если вы задаете все столбцы dummyvar(X) и термин точки пересечения как предикторы, затем матрица проекта становится неполным рангом.

    • Периоды взаимодействия между непрерывным предиктором и категориальным предиктором с уровнями L состоят из поэлементного произведения   переменных индикатора L - 1 с непрерывным предиктором.

    • Периоды взаимодействия между двумя категориальными предикторами с L и уровнями M состоят из (L – 1) *   переменные индикатора (M - 1), чтобы включать все возможные комбинации двух категориальных уровней предиктора.

    • Вы не можете задать термины высшего порядка для категориального предиктора, потому что квадрат индикатора равен себе.

    Поэтому, если step добавляет или удаляет категориальный предиктор, функция на самом деле добавляет или удаляет группу переменных индикатора за один шаг. Точно так же, если step добавляет или удаляет период взаимодействия с категориальным предиктором, функция на самом деле добавляет или удаляет группу периодов взаимодействия включая категориальный предиктор.

Альтернативная функциональность

  • Использование stepwiselm чтобы задать термины в стартовой модели и продолжить не улучшать модель до, никакой один шаг добавления или удаления термина не выгоден.

  • Используйте addTerms или removeTerms добавить или удалить определенные термины.

Расширенные возможности

Представленный в R2012a