exponenta event banner

stepwiseglm

Создание обобщенной модели линейной регрессии путем пошаговой регрессии

Описание

mdl = stepwiseglm(tbl) создание обобщенной линейной модели таблицы или массива наборов данных tbl использование пошаговой регрессии для добавления или удаления предикторов, начиная с постоянной модели. stepwiseglm использует последнюю переменную tbl в качестве переменной ответа. stepwiseglm использует пошаговую регрессию вперед и назад для определения окончательной модели. На каждом шаге функция выполняет поиск терминов для добавления модели в модель или удаления из нее на основе значения 'Criterion' аргумент.

пример

mdl = stepwiseglm(X,y) создает обобщенную линейную модель откликов y в матрицу данных X.

mdl = stepwiseglm(___,modelspec) задает начальную модель modelspec используя любую из комбинаций входных аргументов в предыдущих синтаксисах.

пример

mdl = stepwiseglm(___,modelspec,Name,Value) указывает дополнительные параметры, использующие один или несколько аргументов пары имя-значение. Например, можно указать категориальные переменные, наименьший или наибольший набор терминов для использования в модели, максимальное количество шагов или критерий, который stepwiseglm используется для добавления или удаления терминов.

Примеры

свернуть все

Создайте данные ответа, используя только три из 20 предикторов, и создайте обобщенную линейную модель, используя пошаговый алгоритм, чтобы увидеть, использует ли она только правильные предикторы.

Создайте данные с 20 предикторами и ответом Пуассона, используя только три предиктора плюс константу.

rng('default') % for reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);

Подгонка обобщенной линейной модели с использованием распределения Пуассона.

mdl =  stepwiseglm(X,y,...
    'constant','upper','linear','Distribution','poisson')
1. Adding x5, Deviance = 134.439, Chi2Stat = 52.24814, PValue = 4.891229e-13
2. Adding x15, Deviance = 106.285, Chi2Stat = 28.15393, PValue = 1.1204e-07
3. Adding x10, Deviance = 95.0207, Chi2Stat = 11.2644, PValue = 0.000790094
mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x5 + x10 + x15
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)     1.0115     0.064275    15.737    8.4217e-56
    x5             0.39508     0.066665    5.9263    3.0977e-09
    x10            0.18863      0.05534    3.4085     0.0006532
    x15            0.29295     0.053269    5.4995    3.8089e-08


100 observations, 96 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 91.7, p-value = 9.61e-20

Начальная модель является постоянной моделью. stepwiseglm по умолчанию использует отклонение модели в качестве критерия. Это сначала добавляет x5 в модель, как значение p для статистики теста, отклонение (различия в отклонениях двух моделей) меньше порогового значения по умолчанию 0,05. Затем добавляет x15 потому что дано x5 находится в модели, когда x15 добавляют, значение p для критерия хи-квадрата меньше 0,05. Затем добавляет x10 потому что дано x5 и x15 находятся в модели, когда x10 добавляют, значение p для статистики теста хи-квадрат снова меньше 0,05.

Входные аргументы

свернуть все

Входные данные, включающие переменные предиктора и ответа, указанные как таблица или массив наборов данных. Переменные предиктора и переменная ответа могут быть числовыми, логическими, категориальными, символьными или строковыми. Переменная ответа может иметь тип данных, отличный от числового, только если 'Distribution' является 'binomial'.

  • По умолчанию stepwiseglm принимает последнюю переменную в качестве переменной ответа, а другие - в качестве переменных предиктора.

  • Чтобы задать другой столбец в качестве переменной ответа, используйте ResponseVar аргумент пары имя-значение.

  • Чтобы использовать подмножество столбцов в качестве предикторов, используйте PredictorVars аргумент пары имя-значение.

  • Чтобы определить спецификацию модели, задайте modelspec аргумент, использующий формулу или матрицу терминов. Формула или матрица терминов определяет, какие столбцы использовать в качестве предикторов или переменных ответа.

Имена переменных в таблице не обязательно должны быть допустимыми идентификаторами MATLAB ®. Однако если имена недопустимы, нельзя использовать формулу при подгонке или корректировке модели; например:

  • Невозможно указать modelspec используя формулу.

  • Нельзя использовать формулу, чтобы указать термины для добавления или удаления при использовании addTerms функции или removeTerms функция, соответственно.

  • Нельзя использовать формулу для указания нижней и верхней границ модели при использовании step или stepwiseglm функция с аргументами пары имя-значение 'Lower' и 'Upper'соответственно.

Имена переменных можно проверить в tbl с помощью isvarname функция. Если имена переменных недопустимы, их можно преобразовать с помощью matlab.lang.makeValidName функция.

Переменные предиктора, определенные как матрица n-by-p, где n - количество наблюдений, а p - количество переменных предиктора. Каждый столбец X представляет одну переменную, а каждая строка представляет одно наблюдение.

По умолчанию в модели существует постоянный член, если его явно не удалить, поэтому не включайте столбец 1 в X.

Типы данных: single | double

Переменная ответа, заданная как вектор или матрица.

  • Если 'Distribution' не является 'binomial', то y должен быть вектором n-by-1, где n - число наблюдений. Каждая запись в y является ответом для соответствующей строки X. Тип данных должен быть одинарным или двойным.

  • Если 'Distribution' является 'binomial', то y может быть вектором n-by-1 или матрицей n-by-2 со счетчиками в столбце 1 и BinomialSize в столбце 2.

Типы данных: single | double | logical | categorical

Начальная модель для stepwiseglm, указано как одно из следующих:

  • Символьный вектор или строковое скалярное имя модели.

    СтоимостьТип модели
    'constant'Модель содержит только константу (пересечение).
    'linear'Модель содержит пересечение и линейный член для каждого предиктора.
    'interactions'Модель содержит пересечение, линейный член для каждого предиктора и все произведения пар различных предикторов (без квадратов).
    'purequadratic'Модель содержит член пересечения и линейные и квадратные члены для каждого предиктора.
    'quadratic'Модель содержит член пересечения, линейные и квадратные члены для каждого предиктора и все произведения пар различных предикторов.
    'polyijk'Модель - многочлен со всеми членами до степени i в первом предикторе, степень j во втором предикторе и так далее. Укажите максимальную степень для каждого предиктора, используя цифры от 0 до 9. Модель содержит члены взаимодействия, но степень каждого члена взаимодействия не превышает максимального значения указанных степеней. Например, 'poly13' имеет члены перехвата и x1, x2, x22, x23, x1 * x2 и x1 * x22, где x1 и x2 являются первым и вторым предикторами соответственно.
  • Матрица t-by- ( p + 1), или Terms Matrix, задающая члены в модели, где t - число членов, а p - число переменных предиктора, и + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико и нужно создать термины программно.

  • Вектор символов или строковая скалярная формула в форме

    'y ~ terms',

    где terms в Нотации Уилкинсона. Имена переменных в формуле должны быть именами переменных в tbl или имена переменных, указанные Varnames. Кроме того, имена переменных должны быть допустимыми идентификаторами MATLAB.

    Программное обеспечение определяет порядок терминов в подогнанной модели, используя порядок терминов в tbl или X. Поэтому порядок членов в модели может отличаться от порядка членов в указанной формуле.

Если требуется указать наименьший или наибольший набор терминов в модели, stepwiselm подходит, используйте Lower и Upper аргументы пары имя-значение.

Типы данных: char | string | single | double

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'Criterion','aic','Distribution','poisson','Upper','interactions' задает информационный критерий Akaike в качестве критерия для добавления или удаления переменных в модель, распределение Пуассона в качестве распределения переменной ответа и модель со всеми возможными взаимодействиями в качестве самой большой модели, рассматриваемой в качестве аппроксимации.

Количество испытаний для биномиального распределения, то есть размер выборки, указанный как пара, разделенная запятыми, состоящая из 'BinomialSize' и имя переменной в tblчисловой скаляр или числовой вектор той же длины, что и отклик. Это параметр n для установленного биномиального распределения. BinomialSize применяется только в том случае, если Distribution параметр имеет значение 'binomial'.

Если BinomialSize является скалярным значением, что означает, что все наблюдения имеют одинаковое количество испытаний.

В качестве альтернативы BinomialSize, вы можете указать ответ как матрицу из двух столбцов со счетчиками в столбце 1 и BinomialSize в столбце 2.

Типы данных: single | double | char | string

Список категориальных переменных, указанный как разделенная запятыми пара, состоящая из 'CategoricalVars' и либо строковый массив, либо массив ячеек символьных векторов, содержащих имена категориальных переменных в таблице или массиве набора данных tblили вектор логического или числового индекса, указывающий, какие столбцы являются категориальными.

  • Если данные находятся в таблице или массиве наборов данных tbl, то по умолчанию, stepwiseglm рассматривает все категориальные значения, логические значения, символьные массивы, строковые массивы и массивы ячеек символьных векторов как категориальные переменные.

  • Если данные находятся в матрице X, то значение по умолчанию 'CategoricalVars' является пустой матрицей []. То есть никакая переменная не категорична, если не указать ее как категориальную.

Например, можно указать вторую и третью переменные из шести как категориальные, используя одно из следующих значений:

Пример: 'CategoricalVars',[2,3]

Пример: 'CategoricalVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

Критерий для добавления или удаления терминов, указанный как разделенная запятыми пара, состоящая из 'Criterion' и одно из этих значений:

  • 'Deviance' - p-значение для F-теста или критерия хи-квадрата изменения отклонения, которое является результатом добавления или удаления термина. F-тест проверяет одну модель, а тест хи-квадрат сравнивает две различные модели.

  • 'sse' - p-значение для F-теста изменения суммы квадратичной ошибки, которая является результатом добавления или удаления члена.

  • 'aic' - Изменение значения информационного критерия Акайке (АПК).

  • 'bic' - Изменение значения байесовского информационного критерия (BIC).

  • 'rsquared' - Увеличение стоимости R2.

  • 'adjrsquared' - Увеличение величины скорректированного R2.

Пример: 'Criterion','bic'

Индикатор для вычисления параметра дисперсии 'binomial' и 'poisson' распределения, указанные как пара, разделенная запятыми, состоящая из 'DispersionFlag' и одно из следующих.

trueОценка параметра дисперсии при вычислении стандартных ошибок. Оцененное значение параметра дисперсии представляет собой сумму возведенных в квадрат остатков Пирсона, деленную на степени свободы для ошибок (DFE).
falseПо умолчанию. Используйте теоретическое значение 1 при вычислении стандартных ошибок.

Функция аппроксимации всегда оценивает дисперсию для других распределений.

Пример: 'DispersionFlag',true

Распределение переменной ответа, указанной как разделенная запятыми пара, состоящая из 'Distribution' и одно из следующих.

'normal'Нормальное распределение
'binomial'Биномиальное распределение
'poisson'Распределение Пуассона
'gamma'Гамма-распределение
'inverse gaussian'Обратное гауссово распределение

Пример: 'Distribution','gamma'

Наблюдения для исключения из посадки, указанные как разделенная запятыми пара, состоящая из 'Exclude' и вектор логического или числового индекса, указывающий, какие наблюдения исключить из аппроксимации.

Например, можно исключить наблюдения 2 и 3 из 6, используя любой из следующих примеров.

Пример: 'Exclude',[2,3]

Пример: 'Exclude',logical([0 1 1 0 0 0])

Типы данных: single | double | logical

Индикатор для постоянного члена (перехвата) в посадке, определяемый как разделенная запятыми пара, состоящая из 'Intercept' и либо true для включения или false для удаления постоянного члена из модели.

Использовать 'Intercept' только при указании модели с использованием символьного вектора или строкового скаляра, а не формулы или матрицы.

Пример: 'Intercept',false

Спецификация модели, описывающая термины, которые нельзя удалить из модели, указанная как разделенная запятыми пара, состоящая из 'Lower' и один из вариантов для modelspec именование модели.

Пример: 'Lower','linear'

Максимальное количество шагов, указанных как разделенная запятыми пара, состоящая из: 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

Переменная смещения в посадке, заданная как разделенная запятыми пара, состоящая из 'Offset' и имя переменной в tbl или числовой вектор с той же длиной, что и отклик.

stepwiseglm использование Offset в качестве дополнительного предиктора со значением коэффициента, зафиксированным в 1. Другими словами, формула для подгонки

f (λ) = Offset + X*b,

где f - функция связи, λ - средний отклик, а X * b - линейная комбинация предикторов X. Offset предиктор имеет коэффициент 1.

Например, рассмотрим регрессионную модель Пуассона. Предположим, что число счетчиков известно по теоретическим причинам, чтобы быть пропорциональным предиктору A. С помощью функции log link и путем указания log(A) в качестве смещения можно принудительно использовать модель для удовлетворения этого теоретического ограничения.

Типы данных: single | double | char | string

Пороговое значение критерия для добавления термина, определяемого как пара, разделенная запятыми, состоящая из 'PEnter' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'Deviance'0.05Если p-значение F-статистики или хи-квадрата статистики меньше, чем PEnter (введите значение p), добавьте термин в модель.
'SSE'0.05Если p-значение F-статистики меньше, чем PEnter, добавьте термин в модель.
'AIC'0Если изменение AIC модели меньше PEnter, добавьте термин в модель.
'BIC'0Если изменение BIC модели меньше PEnter, добавьте термин в модель.
'Rsquared'0.1Если увеличение значения R-квадрата модели больше, чем PEnter, добавьте термин в модель.
'AdjRsquared'0Если увеличение скорректированного значения R-квадрата модели больше, чем PEnter, добавьте термин в модель.

Дополнительные сведения см. в разделе Criterion аргумент пары имя-значение.

Пример: 'PEnter',0.075

Переменные предиктора для использования в подгонке, указанные как пара, разделенная запятыми, состоящая из 'PredictorVars' и либо строковый массив, либо массив ячеек символьных векторов имен переменных в таблице или массиве наборов данных. tblили вектор логического или числового индекса, указывающий, какие столбцы являются переменными предиктора.

Строковые значения или векторы символов должны быть среди имен в tblили имена, указанные с помощью 'VarNames' аргумент пары имя-значение.

По умолчанию используются все переменные в Xили все переменные в tbl за исключением ResponseVar.

Например, можно указать вторую и третью переменные в качестве переменных предиктора, используя любой из следующих примеров.

Пример: 'PredictorVars',[2,3]

Пример: 'PredictorVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

Порог для критерия удаления члена, определяемого как разделенная запятыми пара, состоящая из 'PRemove' и скалярное значение, как описано в этой таблице.

КритерийЗначение по умолчаниюРешение
'Deviance'0.10Если p-значение F-статистики или хи-квадрата статистики больше, чем PRemove (удаляемое значение p), удалите термин из модели.
'SSE'0.10Если p-значение F-статистики больше, чем PRemove, удалите термин из модели.
'AIC'0.01Если изменение AIC модели больше, чем PRemove, удалите термин из модели.
'BIC'0.01Если изменение BIC модели больше, чем PRemove, удалите термин из модели.
'Rsquared'0.05Если увеличение значения R-квадрата модели меньше PRemove, удалите термин из модели.
'AdjRsquared'-0.05Если увеличение скорректированного значения R-квадрата модели меньше PRemove, удалите термин из модели.

На каждом шаге stepwiseglm функция также проверяет, является ли член избыточным (линейно зависимым) с другими членами в текущей модели. Когда член линейно зависит от других терминов в текущей модели, stepwiseglm функция удаляет избыточный член независимо от значения критерия.

Дополнительные сведения см. в разделе Criterion аргумент пары имя-значение.

Пример: 'PRemove',0.05

Переменная ответа для использования в посадке, заданная как пара, разделенная запятыми, состоящая из 'ResponseVar' и либо вектор символов, либо строковый скаляр, содержащий имя переменной в таблице или массиве наборов данных. tblили вектор логического или числового индекса, указывающий, какой столбец является переменной ответа. Как правило, необходимо использовать 'ResponseVar' при подборе таблицы или массива наборов данных tbl.

Например, можно указать четвертую переменную, скажем yield, как ответ из шести переменных, одним из следующих способов.

Пример: 'ResponseVar','yield'

Пример: 'ResponseVar',[4]

Пример: 'ResponseVar',logical([0 0 0 1 0 0])

Типы данных: single | double | logical | char | string

Спецификация модели, описывающая наибольший набор членов в посадке, указанный как разделенная запятыми пара, состоящая из 'Upper' и один из вариантов для modelspec именование модели.

Пример: 'Upper','quadratic'

Имена переменных, указанных как пара, разделенная запятыми, состоящая из 'VarNames' и строковый массив или массив ячеек символьных векторов, включающих имена столбцов X сначала и имя переменной ответа y последний.

'VarNames' неприменима к переменным в таблице или массиве набора данных, поскольку эти переменные уже имеют имена.

Имена переменных не обязательно должны быть допустимыми идентификаторами MATLAB. Однако если имена недопустимы, нельзя использовать формулу при подгонке или корректировке модели; например:

  • Нельзя использовать формулу, чтобы указать термины для добавления или удаления при использовании addTerms функции или removeTerms функция, соответственно.

  • Нельзя использовать формулу для указания нижней и верхней границ модели при использовании step или stepwiseglm функция с аргументами пары имя-значение 'Lower' и 'Upper'соответственно.

Перед указанием 'VarNames',varNames, можно проверить имена переменных в varNames с помощью isvarname функция. Если имена переменных недопустимы, их можно преобразовать с помощью matlab.lang.makeValidName функция.

Пример: 'VarNames',{'Horsepower','Acceleration','Model_Year','MPG'}

Типы данных: string | cell

Управление отображением информации, указанной как разделенная запятыми пара, состоящая из 'Verbose' и одно из этих значений:

  • 0 - Подавить все отображение.

  • 1 - отображение действий, выполняемых на каждом шаге.

  • 2 - просмотр процесса оценки и действий, выполняемых на каждом шаге.

Пример: 'Verbose',2

Веса наблюдения, указанные как разделенная запятыми пара, состоящая из 'Weights' и вектор n-by-1 неотрицательных скалярных значений, где n - число наблюдений.

Типы данных: single | double

Выходные аргументы

свернуть все

Обобщенная модель линейной регрессии, заданная как GeneralizedLinearModel объект, созданный с помощью fitglm или stepwiseglm.

Подробнее

свернуть все

Матрица терминов

Матрица терминов T представляет собой матрицу t-by- ( p + 1), задающую члены в модели, где t - число членов, p - число переменных предиктора, и + 1 учитывает переменную отклика. Значение T(i,j) - экспонента переменной j в термине i.

Например, предположим, что входные данные включают три прогнозирующие переменные. x1, x2, и x3 и переменная ответа y в порядке x1, x2, x3, и y. Каждая строка T представляет собой один термин:

  • [0 0 0 0] - Постоянный термин или перехват

  • [0 1 0 0]x2; эквивалентно, x1^0 * x2^1 * x3^0

  • [1 0 1 0]x1*x3

  • [2 0 0 0]x1^2

  • [0 1 2 0]x2*(x3^2)

0 в конце каждого члена представляет переменную ответа. В общем случае вектор-столбец нулей в матрице членов представляет положение переменной отклика. Если в матрице и векторе столбца имеются переменные предиктора и отклика, то необходимо включить 0 для переменной ответа в последнем столбце каждой строки.

Формула

Формула для спецификации модели - это вектор символов или строковый скаляр формы 'y ~ terms'.

  • y - имя ответа.

  • terms представляет предикторные термины в модели, использующей нотацию Уилкинсона.

Для представления переменных предиктора и ответа используйте имена переменных ввода таблицы tbl или имена переменных, указанные с помощью VarNames. Значение по умолчанию VarNames является {'x1','x2',...,'xn','y'}.

Например:

  • 'y ~ x1 + x2 + x3' задает трехвариантную линейную модель с пересечением.

  • 'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без пересечения. Обратите внимание, что формулы по умолчанию включают константу (пересечение). Чтобы исключить постоянный термин из модели, необходимо включить –1 в формуле.

Формула включает постоянный термин, если вы явно не удалите этот термин с помощью –1.

Нотация Уилкинсона

Нотация Уилкинсона описывает термины, присутствующие в модели. Обозначение относится к терминам, присутствующим в модели, а не к умножителям (коэффициентам) этих терминов.

Нотация Уилкинсона использует следующие символы:

  • + средства включают следующую переменную.

  • означает не включать следующую переменную.

  • : определяет взаимодействие, которое является продуктом терминов.

  • * определяет взаимодействие и все термины нижнего порядка.

  • ^ поднимает предиктор в степень, точно как в * повторяется, так ^ включает также термины более низкого порядка.

  • () группирует термины.

В этой таблице приведены типичные примеры нотации Уилкинсона.

Нотация УилкинсонаТермины в стандартной нотации
1Член константы (перехвата)
x1^k, где k является положительным целым числомx1, x12, ..., x1k
x1 + x2x1, x2
x1*x2x1, x2, x1*x2
x1:x2x1*x2 только
–x2Не включать x2
x1*x2 + x3x1, x2, x3, x1*x2
x1 + x2 + x3 + x1:x2x1, x2, x3, x1*x2
x1*x2*x3 – x1:x2:x3x1, x2, x3, x1*x2, x1*x3, x2*x3
x1*(x2 + x3)x1, x2, x3, x1*x2, x1*x3

Дополнительные сведения см. в статье Нотация Уилкинсона.

Каноническая функция

Функцией связи по умолчанию для обобщенной линейной модели является каноническая функция связи.

РаспределениеИмя канонической функции связиФункция связиСредняя (обратная) функция
'normal''identity'f (λ) = λλ = Xb
'binomial''logit'f (μ) = регистрация (μ/(1 - μ))λ = exp (Xb )/( 1 + exp (Xb))
'poisson''log'f (мкм) = log (мкм)λ = exp (Xb)
'gamma'-1f (λ) = 1/λλ = 1/( Xb)
'inverse gaussian'-2f (мк2) = 1/мк2λ = (Xb) -1/2

Совет

  • Обобщенная линейная модель mdl является стандартной линейной моделью, если не указано иное с помощью Distribution пара имя-значение.

  • Для других методов, таких как devianceTestили свойства GeneralizedLinearModel объект, см. GeneralizedLinearModel.

  • После обучения модели можно создать код C/C + +, который предсказывает ответы на новые данные. Для создания кода C/C + + требуется Coder™ MATLAB. Дополнительные сведения см. в разделе Введение в создание кода .

Алгоритмы

  • Ступенчатая регрессия - это систематический метод добавления и удаления членов из линейной или обобщенной линейной модели на основе их статистической значимости при объяснении переменной ответа. Метод начинается с начальной модели, указанной с помощью modelspec, а затем сравнивает объяснительную силу инкрементально больших и меньших моделей.

    stepwiseglm функция использует пошаговую регрессию вперед и назад для определения окончательной модели. На каждом шаге функция выполняет поиск терминов для добавления в модель или удаления из модели на основе значения 'Criterion' аргумент пары имя-значение.

    Значение по умолчанию 'Criterion' для модели линейной регрессии 'sse'. В этом случае stepwiselm и step из LinearModel использовать значение p F-статистики для тестирования моделей с потенциальным термином и без него на каждом шаге. Если член в настоящее время не находится в модели, нулевая гипотеза состоит в том, что член будет иметь нулевой коэффициент при добавлении к модели. Если имеется достаточно доказательств для отклонения нулевой гипотезы, функция добавляет термин к модели. И наоборот, если член в настоящее время находится в модели, нулевая гипотеза состоит в том, что член имеет нулевой коэффициент. Если доказательств для отклонения нулевой гипотезы недостаточно, функция удаляет член из модели.

    Пошаговая регрессия делает эти шаги, когда 'Criterion' является 'sse':

    1. Подгоните исходную модель.

    2. Проверьте набор доступных терминов, отсутствующих в модели. Если какой-либо из терминов имеет p-значения, меньшие, чем входной допуск (то есть если маловероятно, что член будет иметь нулевой коэффициент при добавлении в модель), добавьте член с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.

    3. Если какой-либо из доступных терминов в модели имеет p-значения, превышающие допуск выхода (то есть гипотеза о нулевом коэффициенте не может быть отвергнута), удалите член с наибольшим p-значением и вернитесь к шагу 2; в противном случае завершите процесс.

    На любом этапе функция не будет добавлять член более высокого порядка, если модель не включает также все члены более низкого порядка, которые являются подмножествами члена более высокого порядка. Например, функция не будет пытаться добавить термин X1:X2^2 если только оба X1 и X2^2 уже находятся в модели. Аналогично, функция не удалит члены более низкого порядка, которые являются подмножествами членов более высокого порядка, которые остаются в модели. Например, функция не будет пытаться удалить X1 или X2^2 если X1:X2^2 остается в модели.

    Значение по умолчанию 'Criterion' для обобщенной линейной модели 'Deviance'. stepwiseglm и step из GeneralizedLinearModel выполните аналогичную процедуру для добавления или удаления терминов.

    Можно указать другие критерии с помощью 'Criterion' аргумент пары имя-значение. Например, можно указать изменение значения информационного критерия Акаике, байесовского информационного критерия, R-квадрата или скорректированного R-квадрата в качестве критерия для добавления или удаления членов.

    В зависимости от терминов, включенных в начальную модель, и порядка, в котором функция добавляет и удаляет термины, функция может создавать различные модели из одного и того же набора потенциальных терминов. Функция завершается, когда ни один шаг не улучшает модель. Однако другая начальная модель или другая последовательность шагов не гарантирует лучшего соответствия. В этом смысле пошаговые модели являются локально оптимальными, но могут не быть глобально оптимальными.

  • stepwiseglm рассматривает категориальный предиктор следующим образом:

    • Модель с категориальным предиктором, имеющим уровни (категории) L, включает   переменные индикатора L-1. Модель использует первую категорию в качестве опорного уровня, поэтому она не включает переменную индикатора для опорного уровня. Если типом данных категориального предиктора является categorical, то можно проверить порядок категорий с помощью categories и изменить порядок категорий с помощью reordercats для настройки опорного уровня. Дополнительные сведения о создании переменных индикаторов см. в разделе Автоматическое создание фиктивных переменных.

    • stepwiseglm рассматривает группу   переменных индикатора L-1 как одну переменную. Если необходимо рассматривать переменные индикатора как отдельные переменные предиктора, создайте переменные индикатора вручную с помощью dummyvar. Затем при подгонке модели используйте переменные индикатора, за исключением той, которая соответствует опорному уровню категориальной переменной. Для категориального предиктора X, если указаны все столбцы dummyvar(X) и член перехвата в качестве предикторов, тогда матрица дизайна становится дефицитной по рангу.

    • Термины взаимодействия между непрерывным предиктором и категориальным предиктором с уровнями L состоят из элементного произведения   переменных индикатора L-1 с непрерывным предиктором.

    • Термины взаимодействия между двумя категориальными предикторами с уровнями L и M состоят из (L-1)   *  (M-1 ) индикаторных переменных для включения всех возможных комбинаций двух категориальных предикторных уровней.

    • Для категориального предиктора нельзя указать термины более высокого порядка, поскольку квадрат индикатора равен самому себе.

    Следовательно, если stepwiseglm добавляет или удаляет категориальный предиктор, функция фактически добавляет или удаляет группу переменных индикатора за один шаг. Аналогично, если stepwiseglm добавляет или удаляет член взаимодействия с категориальным предиктором, функция фактически добавляет или удаляет группу терминов взаимодействия, включая категориальный предиктор.

  • stepwiseglm рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в tbl, X, и Y для отсутствующих значений. stepwiseglm не использует наблюдения с отсутствующими значениями в подгонке. ObservationInfo свойство подогнанной модели указывает, stepwiseglm использует каждое наблюдение в подгонке.

Альтернативы

  • Использовать fitglm для создания модели с фиксированной спецификацией. Использовать step, addTerms, или removeTerms для настройки подогнанной модели.

Ссылки

[1] Коллетт, D. Моделирование двоичных данных. Нью-Йорк: Chapman & Hall, 2002.

[2] Добсон, А. Дж. Введение в обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[3] Маккалла, П. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

Представлен в R2013b