step

Улучшите линейную регрессионую модель, добавив или удалив условия

Описание

NewMdl = step(mdl) возвращает линейную регрессионую модель, основанную на mdl использование ступенчатой регрессии для добавления или удаления одного предиктора.

пример

NewMdl = step(mdl,Name,Value) задает дополнительные опции, используя один или несколько аргументы пары "имя-значение". Для примера можно задать критерий, который будет использоваться для добавления или удаления терминов, и максимальное количество шагов, которые нужно предпринять.

Примеры

свернуть все

Подбор линейной регрессионой модели и использование step улучшить модель путем добавления или удаления терминов. Этот пример также описывает, как step функция обрабатывает категориальный предиктор.

Загрузите carsmall Данные задать и создать таблицу с помощью Weight, Model_Year, и MPG переменные.

load carsmall
tbl1 = table(MPG,Weight);
tbl1.Year = categorical(Model_Year);

Создайте линейную регрессионую модель MPG как функцию Weight.

mdl1 = fitlm(tbl1,'MPG ~ Weight')
mdl1 = 
Linear regression model:
    MPG ~ 1 + Weight

Estimated Coefficients:
                    Estimate        SE         tStat       pValue  
                   __________    _________    _______    __________

    (Intercept)        49.238       1.6411     30.002    2.7015e-49
    Weight         -0.0086119    0.0005348    -16.103    1.6434e-28


Number of observations: 94, Error degrees of freedom: 92
Root Mean Squared Error: 4.13
R-squared: 0.738,  Adjusted R-Squared: 0.735
F-statistic vs. constant model: 259, p-value = 1.64e-28

Настройте модель так, чтобы она включала до 'quadratic' условия при помощи step. Задайте 'NSteps' как 5, чтобы позволить самое большее 5 шагов ступенчатой регрессии. Задайте 'Verbose' 2 для отображения процесса оценки и решения, принимаемого на каждом шаге.

NewMdl1 = step(mdl1,'Upper','quadratic','NSteps',5,'Verbose',2)
   pValue for adding Year is 8.2284e-15
   pValue for adding Weight^2 is 0.15454
1. Adding Year, FStat = 47.5136, pValue = 8.22836e-15
   pValue for adding Weight:Year is 0.0071637
   pValue for adding Weight^2 is 0.0022303
2. Adding Weight^2, FStat = 9.9164, pValue = 0.0022303
   pValue for adding Weight:Year is 0.19519
   pValue for removing Year is 2.9042e-16
NewMdl1 = 
Linear regression model:
    MPG ~ 1 + Weight + Year + Weight^2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        54.206        4.7117     11.505    2.6648e-19
    Weight          -0.016404     0.0031249    -5.2493    1.0283e-06
    Year_76            2.0887       0.71491     2.9215     0.0044137
    Year_82            8.1864       0.81531     10.041    2.6364e-16
    Weight^2       1.5573e-06    4.9454e-07      3.149     0.0022303


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.78
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 172, p-value = 5.52e-41

step создает две переменные индикатора, Year_76 и Year_82, потому что Year включает три различных значения. step не рассматривает квадратные условия переменных индикатора, потому что квадрат переменной индикатора сам по себе.

Потому что 'Verbose' равен 2, step отображает процесс оценки:

  • step вычисляет значения p для добавления Year или Weight^2. Значение p для Year меньше, чем оба значения p для Weight^2 и пороговое значение по умолчанию 0,05; поэтому step добавляет Year в модель.

  • step вычисляет значения p для добавления Weight:Year или Weight^2. Потому что p-значение для Weight^2 меньше, чем p-значение для Weight:Year, а step функция добавляет Weight^2 в модель.

  • После добавления квадратичного термина step вычисляет p-значение для добавления Weight:Year снова, но значение p больше порогового значения. Поэтому step не добавляет термин к модели. step не исследует добавление Weight^3 из-за верхней границы, заданной 'Upper' аргумент пары "имя-значение".

  • step ищет условия, которые нужно удалить. step уже рассмотренные Weight^2, поэтому он вычисляет только p-значение для удаления Year. Поскольку p-значение меньше порогового значения по умолчанию 0,10, step не удаляет термин.

  • Хотя максимально допустимое количество шагов - 5, step завершает процесс после двух шагов, потому что модель не улучшается, добавляя или удаляя термин.

step рассматривает две переменные индикатора как одну переменную предиктора и добавляет Year за один шаг. Чтобы обработать две переменные индикатора как две различные переменные предиктора, используйте dummyvar для создания отдельных категориальных переменных.

temp_Year = dummyvar(tbl1.Year);
Year_76 = temp_Year(:,2);
Year_82 = temp_Year(:,3);

Составьте таблицу, содержащую MPG, Weight, Year_76, и Year_82.

tbl2 = table(MPG,Weight,Year_76,Year_82);

Создайте линейную регрессионую модель MPG как функцию Weight, и использовать step улучшить модель.

mdl2 = fitlm(tbl2,'MPG ~ Weight');
NewMdl2 = step(mdl2,'Upper','quadratic','NSteps',5)
1. Adding Year_82, FStat = 83.1956, pValue = 1.76163e-14
2. Adding Weight:Year_82, FStat = 8.0641, pValue = 0.0055818
3. Adding Year_76, FStat = 8.1284, pValue = 0.0054157
NewMdl2 = 
Linear regression model:
    MPG ~ 1 + Year_76 + Weight*Year_82

Estimated Coefficients:
                       Estimate         SE         tStat       pValue  
                      __________    __________    _______    __________

    (Intercept)           38.844        1.5294     25.397     1.503e-42
    Weight             -0.006272    0.00042673    -14.698    1.5622e-25
    Year_76               2.0395       0.71537      2.851     0.0054157
    Year_82               19.607        3.8731     5.0623    2.2163e-06
    Weight:Year_82    -0.0046268     0.0014979    -3.0888     0.0026806


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.79
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 171, p-value = 6.54e-41

Модель NewMdl2 включает термин взаимодействия Weight:Year_82 вместо Weight^2, термин, включенный в NewMdl1.

Входные параметры

свернуть все

Линейная регрессионая модель, заданная как LinearModel объект, созданный с помощью fitlm или stepwiselm.

Вы можете использовать step только если вы создаете mdl при помощи fitlm с 'RobustOpts' Аргумент пары "имя-значение" по умолчанию 'off'.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'Criterion','aic','Upper','quadratic','Verbose',2 инструктирует step чтобы использовать информационный критерий Akaike, включите (самое большее) квадратичные члены в модели и отобразите процесс оценки и решение, принятое на каждом шаге.

Критерий для добавления или удаления членов, заданный как разделенная разделенными запятой парами, состоящая из 'Criterion' и одно из следующих значений:

  • 'sse' - p -value для F -test изменения суммы квадратной ошибки, которое является результатом добавления или удаления термина

  • 'aic' - Изменение значения информационного критерия Akaike (AIC)

  • 'bic' - Изменение значения байесовского информационного критерия (BIC)

  • 'rsquared' - Увеличение стоимости R2

  • 'adjrsquared' - Увеличение значения скорректированных R2

Пример: 'Criterion','bic'

Спецификация модели, описывающая условия, которые не могут быть удалены из модели, заданная как разделенная разделенными запятой парами, состоящая из 'Lower' и одно из следующих значений:

  • Вектор символов или строковый скаляр с именем модели.

    ЗначениеТип модели
    'constant'Модель содержит только постоянный (перехват) термин.
    'linear'Модель содержит точку пересечения и линейный термин для каждого предиктора.
    'interactions'Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар различных предикторов (без квадратов членов).
    'purequadratic'Модель содержит термин точки пересечения и линейные и квадратные условия для каждого предиктора.
    'quadratic'Модель содержит член точки пересечения, линейные и квадратные условия для каждого предиктора и все продукты пар различных предикторов.
    'poly <reservedrangesplaceholder0>'Модель является полиномом со всеми терминами до степени i в первом предикторе, степень j во втором предикторе и так далее. Задайте максимальную степень для каждого предиктора с помощью цифр 0, хотя и 9. Модель содержит условия взаимодействия, но степень каждого термина взаимодействия не превышает максимальное значение заданных степеней. Для примера, 'poly13' имеет перехват и x 1, x 2, x 22, <reservedrangesplaceholder0> 23, x 1 * x 2 и x 1 * x 22 условия, где x 1 и x 2 являются первым и вторым предикторами, соответственно.
  • Матрица t -by-  (p + 1) или Матрица Терминов, задающая членов в модели, где t - количество членов, p - количество переменных предиктора, и + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико, и вы хотите сгенерировать условия программно.

  • Вектор символов или строковый скаляр Формула в форме

    'Y ~ terms',

    где terms находятся в Обозначении Уилкинсона. Имена переменных в формуле должны быть допустимыми MATLAB® идентификаторы.

Пример: 'Lower','linear'

Типы данных: single | double | char | string

Максимальное количество шагов, которые необходимо предпринять, заданное как разделенная разделенными запятой парами, состоящая из 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

Порог критерия для добавления термина, заданное как разделенная разделенными запятой парами, состоящая из 'PEnter' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.05Если p -value F -statistic меньше PEnter (p -значение для ввода), добавьте термин к модели .
'AIC'0Если изменение AIC модели меньше PEnter, добавить термин к модели.
'BIC'0Если изменение в BIC модели меньше PEnter, добавить термин к модели.
'Rsquared'0.1Если увеличение значения R-квадрат модели больше PEnter, добавить термин к модели.
'AdjRsquared'0Если увеличение скорректированного значения R-квадрат модели больше PEnter, добавить термин к модели.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PEnter',0.075

Порог критерия для удаления термина, заданное как разделенная разделенными запятой парами, состоящая из 'PRemove' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.10Если p -value F -statistic больше PRemove (p -значение, чтобы удалить), удалите термин из модели .
'AIC'0.01Если изменение AIC модели больше PRemove, удалите термин из модели.
'BIC'0.01Если изменение в BIC модели больше PRemove, удалите термин из модели.
'Rsquared'0.05Если увеличение значения R-квадрат модели меньше PRemove, удалите термин из модели.
'AdjRsquared'-0.05Если увеличение скорректированного значения R-квадрат модели меньше PRemove, удалите термин из модели.

На каждом шаге, step функция также проверяет, является ли термин избыточным (линейно зависимым) с другими терминами в текущей модели. Когда любой термин линейно зависит от других членов в текущей модели, step функция удаляет избыточный член независимо от значения критерия.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PRemove',0.05

Спецификация модели, описывающая самый большой набор членов в подгонке, заданная как разделенная разделенными запятой парами, состоящая из 'Upper' и одно из следующих значений:

  • Вектор символов или строковый скаляр с именем модели.

    ЗначениеТип модели
    'constant'Модель содержит только постоянный (перехват) термин.
    'linear'Модель содержит точку пересечения и линейный термин для каждого предиктора.
    'interactions'Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар различных предикторов (без квадратов членов).
    'purequadratic'Модель содержит термин точки пересечения и линейные и квадратные условия для каждого предиктора.
    'quadratic'Модель содержит член точки пересечения, линейные и квадратные условия для каждого предиктора и все продукты пар различных предикторов.
    'poly <reservedrangesplaceholder0>'Модель является полиномом со всеми терминами до степени i в первом предикторе, степень j во втором предикторе и так далее. Задайте максимальную степень для каждого предиктора с помощью цифр 0, хотя и 9. Модель содержит условия взаимодействия, но степень каждого термина взаимодействия не превышает максимальное значение заданных степеней. Для примера, 'poly13' имеет перехват и x 1, x 2, x 22, <reservedrangesplaceholder0> 23, x 1 * x 2 и x 1 * x 22 условия, где x 1 и x 2 являются первым и вторым предикторами, соответственно.
  • Матрица t -by-  (p + 1) или Матрица Терминов, задающая членов в модели, где t - количество членов, p - количество переменных предиктора, и + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико, и вы хотите сгенерировать условия программно.

  • Вектор символов или строковый скаляр Формула в форме

    'Y ~ terms',

    где terms находятся в Обозначении Уилкинсона. Имена переменных в формуле должны быть допустимыми идентификаторами MATLAB.

Пример: 'Upper','quadratic'

Типы данных: single | double | char | string

Управление отображением информации, заданное как разделенная разделенными запятой парами, состоящая из 'Verbose' и одно из следующих значений:

  • 0 - Подавить отображение всех элементов.

  • 1 - Отображать действие, выполняемое на каждом шаге.

  • 2 - Отображать процесс оценки и действия, предпринятые на каждом шаге.

Пример: 'Verbose',2

Выходные аргументы

свернуть все

Линейная регрессионая модель, возвращенная как LinearModel объект

Чтобы перезаписать входной параметр mdl, присвойте новую модель mdl.

mdl = step(mdl);

Подробнее о

свернуть все

Матрица терминов

Матрица терминов T является t -by-  (p + 1) матрицей, задающей условия в модели, где t - количество членов, p - количество переменных предиктора, и + 1 учитывает переменную отклика. Значение T(i,j) - экспонента переменной j в терминах i.

Например, предположим, что вход включает три переменные предиктора x1, x2, и x3 и переменной отклика y в порядке x1, x2, x3, и y. Каждая строка T представляет собой один термин:

  • [0 0 0 0] - Постоянный срок или точка пересечения

  • [0 1 0 0]x2; эквивалентно x1^0 * x2^1 * x3^0

  • [1 0 1 0]x1*x3

  • [2 0 0 0]x1^2

  • [0 1 2 0]x2*(x3^2)

The 0 в конце каждого термина представляет переменную отклика. В целом векторе-столбце из нулей в матрице терминов представляет положение переменной отклика. Если у вас есть переменные предиктора и отклика в матрице и векторе-столбце, то вы должны включать 0 для переменной отклика в последнем столбце каждой строки.

Формула

Формула для спецификации модели является вектором символов или строковым скаляром вида 'y ~ <reservedrangesplaceholder0>'.

  • y - имя отклика.

  • terms представляет предикторные условия в модели, использующей обозначение Уилкинсона.

Чтобы представлять переменные предиктора и отклика, используйте имена переменных входных tbl таблицы или имена переменных, заданные при помощи VarNames. Значение по умолчанию VarNames является {'x1','x2',...,'xn','y'}.

Для примера:

  • 'y ~ x1 + x2 + x3' задает линейную модель с тремя переменными с точкой пересечения.

  • 'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без точки пересечения. Обратите внимание, что формулы включают постоянный (перехват) термин по умолчанию. Чтобы исключить постоянный термин из модели, вы должны включить –1 в формуле.

Формула включает в себя постоянный термин, если вы явным образом не удаляете термин используя –1.

Уилкинсон Обозначение

Уилкинсон обозначения описывает термины, присутствующие в модели. Обозначение относится к терминам, присутствующим в модели, а не к умножителям (коэффициентам) этих членов.

Уилкинсон обозначения использует эти символы:

  • + средства включают следующую переменную.

  • средства не включают следующую переменную.

  • : задает взаимодействие, которое является продуктом терминов.

  • * задает взаимодействие и все условия более низкого порядка.

  • ^ поднимает предиктор в степень, в точности как в * повторяется, так ^ включает также условия более низкого порядка.

  • () группы терминов.

Эта таблица показывает типичные примеры обозначению Уилкинсона.

Уилкинсон ОбозначениеТермины в стандартном обозначении
1Константа ( точку пересечения) термин
x1^k, где k является положительным целым числомx1, x12..., x1k
x1 + x2x1, x2
x1*x2x1, x2, x1*x2
x1:x2x1*x2 только
–x2Не включать x2
x1*x2 + x3x1, x2, x3, x1*x2
x1 + x2 + x3 + x1:x2x1, x2, x3, x1*x2
x1*x2*x3 – x1:x2:x3x1, x2, x3, x1*x2, x1*x3, x2*x3
x1*(x2 + x3)x1, x2, x3, x1*x2, x1*x3

Для получения дополнительной информации см. Обозначение Уилкинсона.

Алгоритмы

  • Stepwise regression является систематическим методом для добавления и удаления членов из линейной или обобщенной линейной модели, основанной на их статистической значимости в объяснении переменной отклика. Метод начинается с начальной модели, заданной с помощью modelspec, а затем сравнивает объяснительную степень пошагово больших и меньших моделей.

    step функция использует прямую и обратную ступенчатую регрессию, чтобы определить окончательную модель. На каждом шаге функция ищет условия, чтобы добавить к модели или удалить из модели на основе значения 'Criterion' аргумент пары "имя-значение".

    Значение по умолчанию 'Criterion' для линейной регрессионой модели 'sse'. В этом случае, stepwiselm и step от LinearModel используйте p -value F -statistic для экспериментальных моделей с потенциальным термином и без него на каждом шаге. Если термин не находится в модели в данный момент, нулевая гипотеза заключается в том, что термин будет иметь нулевой коэффициент, если добавлен к модели. Если существует достаточное количество доказательств, чтобы отклонить нулевую гипотезу, функция добавляет термин к модели. И наоборот, если член в данный момент находится в модели, нулевая гипотеза заключается в том, что термин имеет нулевой коэффициент. Если нет достаточных доказательств, чтобы отклонить нулевую гипотезу, функция удаляет термин из модели.

    Ступенчатая регрессия делает эти шаги, когда 'Criterion' является 'sse':

    1. Подгонка начальной модели.

    2. Исследуйте набор доступных членов, не относящихся к модели. Если какой-либо из членов имеет p -значения меньше, чем допуск на вход (то есть, если это маловероятно, что термин будет иметь нулевой коэффициент, если добавлен к модели), добавьте термин с наименьшим p -значением и повторите этот шаг; в противном случае перейдите к шагу 3.

    3. Если любой из доступных членов в модели имеет p -значений, больше, чем выходной допуск (то есть гипотеза нулевого коэффициента не может быть отклонена), удалите член с самым большим p -значением и вернитесь к шагу 2; в противном случае завершите процесс.

    На любом этапе функция не будет добавлять термин более высокого порядка, если модель также не включает все условия более низкого порядка, которые являются подмножествами термина более высокого порядка. Для примера функция не будет пытаться добавить термин X1:X2^2 если только оба не X1 и X2^2 уже есть в модели. Точно так же функция не удалит условия более низкого порядка, которые являются подмножествами членов более высокого порядка, которые остаются в модели. Например, функция не будет пытаться удалить X1 или X2^2 если X1:X2^2 остается в модели.

    Значение по умолчанию 'Criterion' для обобщенной линейной модели 'Deviance'. stepwiseglm и step от GeneralizedLinearModel следуйте аналогичной процедуре для добавления или удаления терминов.

    Можно задать другие критерии при помощи 'Criterion' аргумент пары "имя-значение". Например, можно задать изменение значения информационного критерия Акайке, информационного критерия Байеса, R-квадрата или скорректированного R-квадрата в качестве критерия для добавления или удаления членов.

    В зависимости от членов, включенных в начальную модель, и порядка, в котором функция добавляет и удаляет условия, функция может создавать различные модели из одного и того же набора потенциальных членов. Функция прекращается, когда ни один шаг не улучшает модель. Однако другая начальная модель или другая последовательность шагов не гарантирует лучшую подгонку. В этом смысле ступенчатые модели являются локально оптимальными, но могут не быть глобально оптимальными.

  • step рассматривает категориальный предиктор следующим образом:

    • Модель с категориальным предиктором, которая имеет L уровни (категории), включает L - 1 переменные показателя. Модель использует первую категорию в качестве ссылочного уровня, поэтому она не включает переменную индикатора для ссылочного уровня. Если тип данных категориального предиктора categorical, затем можно проверить порядок категорий при помощи categories и переупорядочить категории при помощи reordercats для настройки уровня ссылки. Для получения дополнительной информации о создании переменных индикатора, смотрите Автоматическое создание переменных фиктива.

    • step рассматривает группу   переменных индикатора L-1 как одну переменную. Если вы хотите считать переменные индикатора отдельными переменными предиктора, создайте переменные индикатора вручную при помощи dummyvar. Затем используйте переменные индикатора, кроме той, которая соответствует ссылочному уровню категориальной переменной, когда вы подбираете модель. Для категориального предиктора X, если вы задаете все столбцы dummyvar(X) и точка пересечения член как предикторы, тогда матрица дизайна становится неполным рангом.

    • Условия взаимодействия между непрерывным предиктором и категориальным предиктором с L уровнями состоят из поэлементного произведения   переменных показателя L-1 с непрерывным предиктором.

    • Условия взаимодействия между двумя категориальными предикторами с L и M уровнями состоят из переменных (L - 1) *  (M - 1) индикатора, чтобы включать все возможные комбинации двух категориальных уровней предиктора.

    • Вы не можете задать условия более высокого порядка для категориального предиктора, потому что квадрат индикатора равен себе.

    Поэтому, если step добавляет или удаляет категориальный предиктор, функция фактически добавляет или удаляет группу переменных индикатора за один шаг. Точно так же, если step добавляет или удаляет термин взаимодействия с категориальным предиктором, функция фактически добавляет или удаляет группу членов взаимодействия, включая категориальный предиктор.

Альтернативная функциональность

  • Использовать stepwiselm задать условия в стартовой модели и продолжать улучшать модель, пока ни один шаг добавления или удаления термина не будет полезным.

  • Использование addTerms или removeTerms чтобы добавить или удалить определенные условия.

Расширенные возможности

Введенный в R2012a