exponenta event banner

шаг

Улучшение модели линейной регрессии путем добавления или удаления членов

Описание

NewMdl = step(mdl) возвращает модель линейной регрессии на основе mdl использование пошаговой регрессии для добавления или удаления одного предиктора.

пример

NewMdl = step(mdl,Name,Value) указывает дополнительные параметры, использующие один или несколько аргументов пары имя-значение. Например, можно указать критерий для добавления или удаления терминов и максимальное количество шагов.

Примеры

свернуть все

Подгонка модели линейной регрессии и использование step для улучшения модели путем добавления или удаления терминов. В этом примере также описывается, как step функция обрабатывает категориальный предиктор.

Загрузить carsmall и создайте таблицу с помощью Weight, Model_Year, и MPG переменные.

load carsmall
tbl1 = table(MPG,Weight);
tbl1.Year = categorical(Model_Year);

Создание модели линейной регрессии MPG как функция Weight.

mdl1 = fitlm(tbl1,'MPG ~ Weight')
mdl1 = 
Linear regression model:
    MPG ~ 1 + Weight

Estimated Coefficients:
                    Estimate        SE         tStat       pValue  
                   __________    _________    _______    __________

    (Intercept)        49.238       1.6411     30.002    2.7015e-49
    Weight         -0.0086119    0.0005348    -16.103    1.6434e-28


Number of observations: 94, Error degrees of freedom: 92
Root Mean Squared Error: 4.13
R-squared: 0.738,  Adjusted R-Squared: 0.735
F-statistic vs. constant model: 259, p-value = 1.64e-28

Настройте модель, чтобы включить до 'quadratic' термины с использованием step. Определить 'NSteps' как 5, чтобы обеспечить не более 5 стадий ступенчатой регрессии. Определить 'Verbose' 2 для отображения процесса оценки и решения, принятого на каждом шаге.

NewMdl1 = step(mdl1,'Upper','quadratic','NSteps',5,'Verbose',2)
   pValue for adding Year is 8.2284e-15
   pValue for adding Weight^2 is 0.15454
1. Adding Year, FStat = 47.5136, pValue = 8.22836e-15
   pValue for adding Weight:Year is 0.0071637
   pValue for adding Weight^2 is 0.0022303
2. Adding Weight^2, FStat = 9.9164, pValue = 0.0022303
   pValue for adding Weight:Year is 0.19519
   pValue for removing Year is 2.9042e-16
NewMdl1 = 
Linear regression model:
    MPG ~ 1 + Weight + Year + Weight^2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        54.206        4.7117     11.505    2.6648e-19
    Weight          -0.016404     0.0031249    -5.2493    1.0283e-06
    Year_76            2.0887       0.71491     2.9215     0.0044137
    Year_82            8.1864       0.81531     10.041    2.6364e-16
    Weight^2       1.5573e-06    4.9454e-07      3.149     0.0022303


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.78
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 172, p-value = 5.52e-41

step создает две переменные индикатора, Year_76 и Year_82, потому что Year включает три различных значения. step не учитывает квадратные члены переменных индикатора, поскольку квадрат переменной индикатора сам по себе.

Поскольку 'Verbose' равно 2, step отображает процесс оценки:

  • step вычисляет значения p для добавления Year или Weight^2. Значение p для Year меньше, чем оба значения p для Weight^2 и пороговое значение по умолчанию 0,05; следовательно, step добавляет Year к модели.

  • step вычисляет значения p для добавления Weight:Year или Weight^2. Потому что значение p для Weight^2 меньше значения p для Weight:Year, step функция добавляет Weight^2 к модели.

  • После добавления квадратичного члена step вычисляет значение p для добавления Weight:Year опять же, но значение p больше порогового значения. Поэтому step не добавляет термин в модель. step не проверяет добавление Weight^3 из-за верхней границы, указанной 'Upper' аргумент пары имя-значение.

  • step ищет термины для удаления. step уже проверено Weight^2, поэтому вычисляет только значение p для удаления Year. Поскольку значение p меньше порогового значения по умолчанию, равного 0,10, step не удаляет термин.

  • Хотя максимально допустимое число шагов равно 5, step завершает процесс после двух шагов, поскольку модель не улучшается путем добавления или удаления термина.

step обрабатывает две индикаторные переменные как одну предикторную переменную и добавляет Year в один шаг. Чтобы рассматривать две индикаторные переменные как две различные предикторные переменные, используйте dummyvar для создания отдельных категориальных переменных.

temp_Year = dummyvar(tbl1.Year);
Year_76 = temp_Year(:,2);
Year_82 = temp_Year(:,3);

Создание таблицы, содержащей MPG, Weight, Year_76, и Year_82.

tbl2 = table(MPG,Weight,Year_76,Year_82);

Создание модели линейной регрессии MPG как функция Weightи использовать step для улучшения модели.

mdl2 = fitlm(tbl2,'MPG ~ Weight');
NewMdl2 = step(mdl2,'Upper','quadratic','NSteps',5)
1. Adding Year_82, FStat = 83.1956, pValue = 1.76163e-14
2. Adding Weight:Year_82, FStat = 8.0641, pValue = 0.0055818
3. Adding Year_76, FStat = 8.1284, pValue = 0.0054157
NewMdl2 = 
Linear regression model:
    MPG ~ 1 + Year_76 + Weight*Year_82

Estimated Coefficients:
                       Estimate         SE         tStat       pValue  
                      __________    __________    _______    __________

    (Intercept)           38.844        1.5294     25.397     1.503e-42
    Weight             -0.006272    0.00042673    -14.698    1.5622e-25
    Year_76               2.0395       0.71537      2.851     0.0054157
    Year_82               19.607        3.8731     5.0623    2.2163e-06
    Weight:Year_82    -0.0046268     0.0014979    -3.0888     0.0026806


Number of observations: 94, Error degrees of freedom: 89
Root Mean Squared Error: 2.79
R-squared: 0.885,  Adjusted R-Squared: 0.88
F-statistic vs. constant model: 171, p-value = 6.54e-41

Модель NewMdl2 включает в себя термин взаимодействия Weight:Year_82 вместо Weight^2, термин, включенный в NewMdl1.

Входные аргументы

свернуть все

Модель линейной регрессии, заданная как LinearModel объект, созданный с помощью fitlm или stepwiselm.

Вы можете использовать step только при создании mdl с помощью fitlm с 'RobustOpts' аргумент пары имя-значение установлен в значение по умолчанию 'off'.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'Criterion','aic','Upper','quadratic','Verbose',2 инструктирует step для использования информационного критерия Акайке включить (максимум) квадратичные термины в модель и отобразить процесс оценки и решение, принятое на каждом шаге.

Критерий для добавления или удаления терминов, указанный как разделенная запятыми пара, состоящая из 'Criterion' и одно из этих значений:

  • 'sse' - p-значение для F-теста изменения суммы квадратичной ошибки, которая возникает в результате добавления или удаления члена

  • 'aic' - Изменение значения информационного критерия Акаике (АПК)

  • 'bic' - Изменение значения байесовского информационного критерия (BIC)

  • 'rsquared' - Увеличение стоимости R2

  • 'adjrsquared' - Увеличение величины скорректированного R2

Пример: 'Criterion','bic'

Спецификация модели, описывающая термины, которые нельзя удалить из модели, указанная как разделенная запятыми пара, состоящая из 'Lower' и одно из этих значений:

  • Символьный вектор или строковое скалярное имя модели.

    СтоимостьТип модели
    'constant'Модель содержит только константу (пересечение).
    'linear'Модель содержит пересечение и линейный член для каждого предиктора.
    'interactions'Модель содержит пересечение, линейный член для каждого предиктора и все произведения пар различных предикторов (без квадратов).
    'purequadratic'Модель содержит член пересечения и линейные и квадратные члены для каждого предиктора.
    'quadratic'Модель содержит член пересечения, линейные и квадратные члены для каждого предиктора и все произведения пар различных предикторов.
    'polyijk'Модель - многочлен со всеми членами до степени i в первом предикторе, степень j во втором предикторе и так далее. Укажите максимальную степень для каждого предиктора, используя цифры от 0 до 9. Модель содержит члены взаимодействия, но степень каждого члена взаимодействия не превышает максимального значения указанных степеней. Например, 'poly13' имеет члены перехвата и x1, x2, x22, x23, x1 * x2 и x1 * x22, где x1 и x2 являются первым и вторым предикторами соответственно.
  • Матрица t-by- ( p + 1), или Terms Matrix, задающая члены в модели, где t - количество членов, p - количество переменных предиктора, а + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико и нужно создать термины программно.

  • Вектор символов или строковая скалярная формула в форме

    'Y ~ terms',

    где terms в Нотации Уилкинсона. Имена переменных в формуле должны быть допустимыми идентификаторами MATLAB ®.

Пример: 'Lower','linear'

Типы данных: single | double | char | string

Максимальное количество шагов, указанных как разделенная запятыми пара, состоящая из: 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

Пороговое значение критерия для добавления термина, определяемого как пара, разделенная запятыми, состоящая из 'PEnter' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.05Если p-значение F-статистики меньше, чем PEnter (введите значение p), добавьте термин в модель.
'AIC'0Если изменение AIC модели меньше PEnter, добавьте термин в модель.
'BIC'0Если изменение BIC модели меньше PEnter, добавьте термин в модель.
'Rsquared'0.1Если увеличение значения R-квадрата модели больше, чем PEnter, добавьте термин в модель.
'AdjRsquared'0Если увеличение скорректированного значения R-квадрата модели больше, чем PEnter, добавьте термин в модель.

Дополнительные сведения см. в разделе Criterion аргумент пары имя-значение.

Пример: 'PEnter',0.075

Порог для критерия удаления члена, определяемого как разделенная запятыми пара, состоящая из 'PRemove' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'SSE'0.10Если p-значение F-статистики больше, чем PRemove (удаляемое значение p), удалите термин из модели.
'AIC'0.01Если изменение AIC модели больше, чем PRemove, удалите термин из модели.
'BIC'0.01Если изменение BIC модели больше, чем PRemove, удалите термин из модели.
'Rsquared'0.05Если увеличение значения R-квадрата модели меньше PRemove, удалите термин из модели.
'AdjRsquared'-0.05Если увеличение скорректированного значения R-квадрата модели меньше PRemove, удалите термин из модели.

На каждом шаге step функция также проверяет, является ли член избыточным (линейно зависимым) с другими членами в текущей модели. Когда любой член линейно зависит от других терминов в текущей модели, step функция удаляет избыточный член независимо от значения критерия.

Дополнительные сведения см. в разделе Criterion аргумент пары имя-значение.

Пример: 'PRemove',0.05

Спецификация модели, описывающая наибольший набор членов в посадке, указанный как разделенная запятыми пара, состоящая из 'Upper' и одно из этих значений:

  • Символьный вектор или строковое скалярное имя модели.

    СтоимостьТип модели
    'constant'Модель содержит только константу (пересечение).
    'linear'Модель содержит пересечение и линейный член для каждого предиктора.
    'interactions'Модель содержит пересечение, линейный член для каждого предиктора и все произведения пар различных предикторов (без квадратов).
    'purequadratic'Модель содержит член пересечения и линейные и квадратные члены для каждого предиктора.
    'quadratic'Модель содержит член пересечения, линейные и квадратные члены для каждого предиктора и все произведения пар различных предикторов.
    'polyijk'Модель - многочлен со всеми членами до степени i в первом предикторе, степень j во втором предикторе и так далее. Укажите максимальную степень для каждого предиктора, используя цифры от 0 до 9. Модель содержит члены взаимодействия, но степень каждого члена взаимодействия не превышает максимального значения указанных степеней. Например, 'poly13' имеет члены перехвата и x1, x2, x22, x23, x1 * x2 и x1 * x22, где x1 и x2 являются первым и вторым предикторами соответственно.
  • Матрица t-by- ( p + 1), или Terms Matrix, задающая члены в модели, где t - количество членов, p - количество переменных предиктора, а + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико и нужно создать термины программно.

  • Вектор символов или строковая скалярная формула в форме

    'Y ~ terms',

    где terms в Нотации Уилкинсона. Имена переменных в формуле должны быть допустимыми идентификаторами MATLAB.

Пример: 'Upper','quadratic'

Типы данных: single | double | char | string

Управление отображением информации, указанной как разделенная запятыми пара, состоящая из 'Verbose' и одно из этих значений:

  • 0 - Подавить все отображение.

  • 1 - отображение действий, выполняемых на каждом шаге.

  • 2 - просмотр процесса оценки и действий, выполняемых на каждом шаге.

Пример: 'Verbose',2

Выходные аргументы

свернуть все

Модель линейной регрессии, возвращенная как LinearModel объект

Перезапись входного аргумента mdl, назначить новую модель mdl.

mdl = step(mdl);

Подробнее

свернуть все

Матрица терминов

Матрица терминов T представляет собой матрицу t-by- ( p + 1), задающую члены в модели, где t - число членов, p - число переменных предиктора, и + 1 учитывает переменную отклика. Значение T(i,j) - экспонента переменной j в термине i.

Например, предположим, что входные данные включают три прогнозирующие переменные. x1, x2, и x3 и переменная ответа y в порядке x1, x2, x3, и y. Каждая строка T представляет собой один термин:

  • [0 0 0 0] - Постоянный термин или перехват

  • [0 1 0 0]x2; эквивалентно, x1^0 * x2^1 * x3^0

  • [1 0 1 0]x1*x3

  • [2 0 0 0]x1^2

  • [0 1 2 0]x2*(x3^2)

0 в конце каждого члена представляет переменную ответа. В общем случае вектор-столбец нулей в матрице членов представляет положение переменной отклика. Если в матрице и векторе столбца имеются переменные предиктора и отклика, то необходимо включить 0 для переменной ответа в последнем столбце каждой строки.

Формула

Формула для спецификации модели - это вектор символов или строковый скаляр формы 'y ~ terms'.

  • y - имя ответа.

  • terms представляет предикторные термины в модели, использующей нотацию Уилкинсона.

Для представления переменных предиктора и ответа используйте имена переменных ввода таблицы tbl или имена переменных, указанные с помощью VarNames. Значение по умолчанию VarNames является {'x1','x2',...,'xn','y'}.

Например:

  • 'y ~ x1 + x2 + x3' задает трехвариантную линейную модель с пересечением.

  • 'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без пересечения. Обратите внимание, что формулы по умолчанию включают константу (пересечение). Чтобы исключить постоянный термин из модели, необходимо включить –1 в формуле.

Формула включает постоянный термин, если вы явно не удалите этот термин с помощью –1.

Нотация Уилкинсона

Нотация Уилкинсона описывает термины, присутствующие в модели. Обозначение относится к терминам, присутствующим в модели, а не к умножителям (коэффициентам) этих терминов.

Нотация Уилкинсона использует следующие символы:

  • + средства включают следующую переменную.

  • означает не включать следующую переменную.

  • : определяет взаимодействие, которое является продуктом терминов.

  • * определяет взаимодействие и все термины нижнего порядка.

  • ^ поднимает предиктор в степень, точно как в * повторяется, так ^ включает также термины более низкого порядка.

  • () группирует термины.

В этой таблице приведены типичные примеры нотации Уилкинсона.

Нотация УилкинсонаТермины в стандартной нотации
1Член константы (перехвата)
x1^k, где k является положительным целым числомx1, x12, ..., x1k
x1 + x2x1, x2
x1*x2x1, x2, x1*x2
x1:x2x1*x2 только
–x2Не включать x2
x1*x2 + x3x1, x2, x3, x1*x2
x1 + x2 + x3 + x1:x2x1, x2, x3, x1*x2
x1*x2*x3 – x1:x2:x3x1, x2, x3, x1*x2, x1*x3, x2*x3
x1*(x2 + x3)x1, x2, x3, x1*x2, x1*x3

Дополнительные сведения см. в статье Нотация Уилкинсона.

Алгоритмы

  • Ступенчатая регрессия - это систематический метод добавления и удаления членов из линейной или обобщенной линейной модели на основе их статистической значимости при объяснении переменной ответа. Метод начинается с начальной модели, указанной с помощью modelspec, а затем сравнивает объяснительную силу инкрементально больших и меньших моделей.

    step функция использует пошаговую регрессию вперед и назад для определения окончательной модели. На каждом шаге функция выполняет поиск терминов для добавления в модель или удаления из модели на основе значения 'Criterion' аргумент пары имя-значение.

    Значение по умолчанию 'Criterion' для модели линейной регрессии 'sse'. В этом случае stepwiselm и step из LinearModel использовать значение p F-статистики для тестирования моделей с потенциальным термином и без него на каждом шаге. Если член в настоящее время не находится в модели, нулевая гипотеза состоит в том, что член будет иметь нулевой коэффициент при добавлении к модели. Если имеется достаточно доказательств для отклонения нулевой гипотезы, функция добавляет термин к модели. И наоборот, если член в настоящее время находится в модели, нулевая гипотеза состоит в том, что член имеет нулевой коэффициент. Если доказательств для отклонения нулевой гипотезы недостаточно, функция удаляет член из модели.

    Пошаговая регрессия делает эти шаги, когда 'Criterion' является 'sse':

    1. Подгоните исходную модель.

    2. Проверьте набор доступных терминов, отсутствующих в модели. Если какой-либо из терминов имеет p-значения, меньшие, чем входной допуск (то есть если маловероятно, что член будет иметь нулевой коэффициент при добавлении в модель), добавьте член с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.

    3. Если какой-либо из доступных терминов в модели имеет p-значения, превышающие допуск выхода (то есть гипотеза о нулевом коэффициенте не может быть отвергнута), удалите член с наибольшим p-значением и вернитесь к шагу 2; в противном случае завершите процесс.

    На любом этапе функция не будет добавлять член более высокого порядка, если модель не включает также все члены более низкого порядка, которые являются подмножествами члена более высокого порядка. Например, функция не будет пытаться добавить термин X1:X2^2 если только оба X1 и X2^2 уже находятся в модели. Аналогично, функция не удалит члены более низкого порядка, которые являются подмножествами членов более высокого порядка, которые остаются в модели. Например, функция не будет пытаться удалить X1 или X2^2 если X1:X2^2 остается в модели.

    Значение по умолчанию 'Criterion' для обобщенной линейной модели 'Deviance'. stepwiseglm и step из GeneralizedLinearModel выполните аналогичную процедуру для добавления или удаления терминов.

    Можно указать другие критерии с помощью 'Criterion' аргумент пары имя-значение. Например, можно указать изменение значения информационного критерия Акаике, байесовского информационного критерия, R-квадрата или скорректированного R-квадрата в качестве критерия для добавления или удаления членов.

    В зависимости от терминов, включенных в начальную модель, и порядка, в котором функция добавляет и удаляет термины, функция может создавать различные модели из одного и того же набора потенциальных терминов. Функция завершается, когда ни один шаг не улучшает модель. Однако другая начальная модель или другая последовательность шагов не гарантирует лучшего соответствия. В этом смысле пошаговые модели являются локально оптимальными, но могут не быть глобально оптимальными.

  • step рассматривает категориальный предиктор следующим образом:

    • Модель с категориальным предиктором, имеющим уровни (категории) L, включает   переменные индикатора L-1. Модель использует первую категорию в качестве опорного уровня, поэтому она не включает переменную индикатора для опорного уровня. Если типом данных категориального предиктора является categorical, то можно проверить порядок категорий с помощью categories и изменить порядок категорий с помощью reordercats для настройки опорного уровня. Дополнительные сведения о создании переменных индикаторов см. в разделе Автоматическое создание фиктивных переменных.

    • step рассматривает группу   переменных индикатора L-1 как одну переменную. Если необходимо рассматривать переменные индикатора как отдельные переменные предиктора, создайте переменные индикатора вручную с помощью dummyvar. Затем при подгонке модели используйте переменные индикатора, за исключением той, которая соответствует опорному уровню категориальной переменной. Для категориального предиктора X, если указаны все столбцы dummyvar(X) и член перехвата в качестве предикторов, тогда матрица дизайна становится дефицитной по рангу.

    • Термины взаимодействия между непрерывным предиктором и категориальным предиктором с уровнями L состоят из элементного произведения   переменных индикатора L-1 с непрерывным предиктором.

    • Термины взаимодействия между двумя категориальными предикторами с уровнями L и M состоят из (L-1)   *  (M-1 ) индикаторных переменных для включения всех возможных комбинаций двух категориальных предикторных уровней.

    • Для категориального предиктора нельзя указать термины более высокого порядка, поскольку квадрат индикатора равен самому себе.

    Следовательно, если step добавляет или удаляет категориальный предиктор, функция фактически добавляет или удаляет группу переменных индикатора за один шаг. Аналогично, если step добавляет или удаляет член взаимодействия с категориальным предиктором, функция фактически добавляет или удаляет группу терминов взаимодействия, включая категориальный предиктор.

Альтернативная функциональность

  • Использовать stepwiselm указать термины в начальной модели и продолжать совершенствовать модель до тех пор, пока не будет полезен ни один шаг добавления или удаления термина.

  • Использовать addTerms или removeTerms для добавления или удаления определенных терминов.

Расширенные возможности

Представлен в R2012a