stepwiseglm

Создайте обобщенную линейную регрессионую модель путем ступенчатой регрессии

Синтаксис

mdl = stepwiseglm(tbl)

mdl = stepwiseglm(X,y)

mdl = stepwiseglm(___,modelspec)

mdl = stepwiseglm(___,modelspec,Name,Value)

Описание

mdl = stepwiseglm(tbl) создает обобщенную линейную модель таблицы или массива набора данных tbl использование ступенчатой регрессии для добавления или удаления предикторов, начиная с постоянной модели. stepwiseglm использует последнюю переменную tbl как переменная отклика. stepwiseglm использует прямую и обратную ступенчатую регрессию для определения конечной модели. На каждом шаге функция ищет условия, чтобы добавить модель в или удалить из модели, на основе значения 'Criterion' аргумент.

пример

mdl = stepwiseglm(X,y) создает обобщенную линейную модель откликов y в матрицу данных X.

mdl = stepwiseglm(___,modelspec) задает стартовую модель modelspec использование любой комбинации входных аргументов в предыдущих синтаксисах.

пример

mdl = stepwiseglm(___,modelspec,Name,Value) задает дополнительные опции, используя один или несколько аргументы пары "имя-значение". Например, можно задать категориальные переменные, наименьший или самый большой набор членов для использования в модели, максимальное количество шагов или критерий, который stepwiseglm используется для добавления или удаления терминов.

Примеры

свернуть все

Обобщенная линейная модель с использованием пошагового алгоритма

Открыть Live Script

Создайте данные отклика с помощью всего трех из 20 предикторов и создайте обобщенную линейную модель с помощью пошагового алгоритма, чтобы увидеть, использует ли она только правильные предикторы.

Создайте данные с 20 предикторами и реакцией Пуассона, используя всего три предиктора плюс константа.

rng('default') % for reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);

Подбор обобщенной линейной модели с помощью распределения Пуассона.

mdl =  stepwiseglm(X,y,...
    'constant','upper','linear','Distribution','poisson')

1. Adding x5, Deviance = 134.439, Chi2Stat = 52.24814, PValue = 4.891229e-13
2. Adding x15, Deviance = 106.285, Chi2Stat = 28.15393, PValue = 1.1204e-07
3. Adding x10, Deviance = 95.0207, Chi2Stat = 11.2644, PValue = 0.000790094

mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x5 + x10 + x15
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)     1.0115     0.064275    15.737    8.4217e-56
    x5             0.39508     0.066665    5.9263    3.0977e-09
    x10            0.18863      0.05534    3.4085     0.0006532
    x15            0.29295     0.053269    5.4995    3.8089e-08


100 observations, 96 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 91.7, p-value = 9.61e-20

Стартовая модель является постоянной моделью. stepwiseglm по умолчанию в качестве критерия используется отклонение модели. Сначала он добавляет x5 в модель, как $p$ -значение для тестовой статистики, отклонение (различия в отклонениях двух моделей), меньше порогового значения по умолчанию 0.05. Затем оно добавляет x15 потому что заданные x5 находится в модели, когда x15 добавляется, $p$ -значение для критерия хи-квадрат меньше 0,05. Затем он добавляет x10 потому что заданные x5 и x15 находятся в модели, когда x10 добавляется, $p$ -значение для хи-квадратной тестовой статистики снова меньше 0,05.

Входные параметры

свернуть все

`tbl` - Входные данные
таблица | массив набора данных

Входные данные, включая переменные предиктора и отклика, заданные как таблица или массив набора данных. Переменные предиктора и переменная отклика могут быть числовыми, логическими, категориальными, символьными или строковыми. Переменная отклика может иметь тип данных, отличный от числового, только если 'Distribution' является 'binomial'.

По умолчанию, stepwiseglm принимает последнюю переменную как переменную отклика, а другие как переменные предиктора.
Чтобы задать другой столбец в качестве переменной отклика, используйте ResponseVar аргумент пары "имя-значение".
Чтобы использовать подмножество столбцов в качестве предикторов, используйте PredictorVars аргумент пары "имя-значение".
Чтобы определить спецификацию модели, установите modelspec аргумент с использованием формулы или матрицы терминов. Матрица формул или терминов задает, какие столбцы использовать в качестве переменных предиктора или отклика.

Имена переменных в таблице не должны быть допустимыми MATLAB^® идентификаторы. Однако, если имена недопустимы, вы не можете использовать формулу, когда подбираете или корректируете модель; для примера:

Вы не можете задать modelspec использование формулы.
Вы не можете использовать формулу, чтобы задать условия, которые нужно добавить или удалить при использовании addTerms функцию или removeTerms функция, соответственно.
Вы не можете использовать формулу, чтобы задать нижнюю и верхнюю границы модели, когда вы используете step или stepwiseglm функция с аргументами пары "имя-значение" 'Lower' и 'Upper', соответственно.

Можно проверить имена переменных в tbl при помощи isvarname функция. Если имена переменных недопустимы, можно преобразовать их, используя matlab.lang.makeValidName функция.

`X` - Переменные предиктора
матрица

Переменные предиктора, заданные как n -by - p матрица, где n - количество наблюдений, а p - количество переменных предиктора. Каждый столбец X представляет одну переменную, и каждая строка представляет одно наблюдение.

По умолчанию существует постоянный член в модели, если вы явно не удаляете ее, поэтому не включайте столбец 1с в X.

Типы данных: single | double

`y` - Переменная отклика
вектор | матрица

Переменная отклика, заданная в виде вектора или матрицы.

Если 'Distribution' не 'binomial', затем y должен быть вектором n -by-1, где n количество наблюдений. Каждая запись в y - ответ для соответствующей строки X. Тип данных должен быть одинарным или двойным.
Если 'Distribution' является 'binomial', затем y может быть n вектором -by-1 или n матрицей -by-2 со счетчиками в столбцах 1 и BinomialSize в столбце 2.

Типы данных: single | double | logical | categorical

`modelspec` - Стартовая модель
`'constant'` (по умолчанию) | вектор символов или строковый скаляр с именем модели | t -by- (p + 1) терминов матрица | вектор символов или строковая скалярная формула в `форме 'y ~ terms'`

Стартовая модель для stepwiseglm, указанный как одно из следующего:

Вектор символов или строковый скаляр с именем модели.

Значение	Тип модели
`'constant'`	Модель содержит только постоянный (перехват) термин.
`'linear'`	Модель содержит точку пересечения и линейный термин для каждого предиктора.
`'interactions'`	Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар различных предикторов (без квадратов членов).
`'purequadratic'`	Модель содержит термин точки пересечения и линейные и квадратные условия для каждого предиктора.
`'quadratic'`	Модель содержит член точки пересечения, линейные и квадратные условия для каждого предиктора и все продукты пар различных предикторов.
`'poly <reservedrangesplaceholder0>'`	Модель является полиномом со всеми терминами до степени `i` в первом предикторе, степень `j` во втором предикторе и так далее. Задайте максимальную степень для каждого предиктора с помощью цифр 0, хотя и 9. Модель содержит условия взаимодействия, но степень каждого термина взаимодействия не превышает максимальное значение заданных степеней. Для примера, `'poly13'` имеет перехват и x 1, _x 2, x 2², <reservedrangesplaceholder0> 2³, x 1 _* x 2 и _x 1 * x 2² условия, где x 1 и _x 2 являются первым и вторым предикторами, соответственно.

Матрица t -by- (p + 1) или Матрица терминов, задающая членов в модели, где t количество членов, а p количество переменных предиктора, и + 1 учитывает переменную отклика. Матрица терминов удобна, когда количество предикторов велико, и вы хотите сгенерировать условия программно.
Вектор символов или строковый скаляр Формула в форме

'y ~ terms',
где terms находятся в Обозначении Уилкинсона. Имена переменных в формуле должны быть именами переменных в tbl или имена переменных, заданные Varnames. Кроме того, имена переменных должны быть допустимыми идентификаторами MATLAB.
Программа определяет порядок терминов в подобранной модели, используя порядок терминов в tbl или X. Поэтому порядок членов в модели может отличаться от порядка членов в указанной формуле.

Если вы хотите задать наименьший или самый большой набор членов в модели, который stepwiselm подходит, используйте Lower и Upper Аргументы пары "имя-значение".

Типы данных: char | string | single | double

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'Criterion','aic','Distribution','poisson','Upper','interactions' задает Информационный критерий Акайке как критерий для добавления или удаления переменных в модель, распределение Пуассона как распределение переменной отклика и модель со всеми возможными взаимодействиями как самую большую модель, которая рассматривается как подгонка.

`'BinomialSize'` - Количество испытаний для биномиального распределения
1 (по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

Количество испытаний биномиального распределения, то есть размер выборки, заданное как разделенная разделенными запятой парами, состоящая из 'BinomialSize' и имя переменной в tbl, числовой скаляр или числовой вектор той же длины, что и ответ. Это параметр n для установленного биномиального распределения. BinomialSize применяется только тогда, когда Distribution параметр 'binomial'.

Если BinomialSize является скалярным значением, что означает, что все наблюдения имеют одинаковое количество испытаний.

Как альтернатива BinomialSize, можно задать ответ как двухколоночную матрицу со счетчиками в столбцах 1 и BinomialSize в столбце 2.

Типы данных: single | double | char | string

`'CategoricalVars'` - Категориальный список переменных
строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

Категориальный список переменных, заданный как разделенная разделенными запятой парами, состоящая из 'CategoricalVars' и строковые массивы или массив ячеек векторов символов, содержащих категориальные имена переменных в таблице или массиве набора данных tbl, или логический или числовой вектор индекса, указывающий, какие столбцы являются категориальными.

Если данные находятся в таблице или массиве набора данных tbl, затем, по умолчанию, stepwiseglm Обработки все категориальные значения, логические значения, символьные массивы, строковые массивы и массивы ячеек векторов символов как категориальные переменные.
Если данные в матрице X, затем значение по умолчанию 'CategoricalVars' является пустой матрицей []. То есть никакая переменная не является категориальной, если вы не задаете ее как категориальную.

Для примера можно задать вторую и третью переменные из шести как категориальные с помощью одного из следующих:

Пример: 'CategoricalVars',[2,3]

Пример: 'CategoricalVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

`'Criterion'` - Критерий для добавления или удаления терминов
`'Deviance'` (по умолчанию) | `'sse'` | `'aic'` | `'bic'` | `'rsquared'` | `'adjrsquared'`

Критерий для добавления или удаления членов, заданный как разделенная разделенными запятой парами, состоящая из 'Criterion' и одно из следующих значений:

'Deviance' - p -value для F-теста или хи-квадратичного теста изменения отклонения, которое является результатом добавления или удаления термина. F-test проверяет одну модель, а тест хи-квадрат сравнивает две различные модели.
'sse' - p -value для F -test изменения суммы квадратной ошибки, которое является результатом добавления или удаления термина.
'aic' - Изменение значения информационного критерия Akaike (AIC).
'bic' - Изменение значения байесовского информационного критерия (BIC).
'rsquared' - Увеличение стоимости R².
'adjrsquared' - Увеличение значения скорректированных R².

Пример: 'Criterion','bic'

`'DispersionFlag'` - Индикатор для вычисления параметра дисперсии
`false` для `'binomial'` и `'poisson'` распределения (по умолчанию) | `true`

Индикатор для вычисления параметра дисперсии для 'binomial' и 'poisson' распределения, заданные как разделенная разделенными запятой парами, состоящая из 'DispersionFlag' и одно из следующих.

`true`	Оцените параметр дисперсии при вычислении стандартных ошибок. Оцененное значение параметров дисперсии является суммой квадратов невязок Пирсона, разделенных на степени свободы от ошибки (DFE).
`false`	По умолчанию. Используйте теоретическое значение 1 при вычислении стандартных ошибок.

Функция аппроксимации всегда оценивает дисперсию для других распределений.

Пример: 'DispersionFlag',true

`'Distribution'` - Распределение переменной отклика
`'normal'` (по умолчанию) | `'binomial'` | `'poisson'` | `'gamma'` | `'inverse gaussian'`

Распределение переменной отклика, заданное как разделенная разделенными запятой парами, состоящая из 'Distribution' и одно из следующих.

`'normal'`	Нормальное распределение
`'binomial'`	Биномиальное распределение
`'poisson'`	Распределение Пуассона
`'gamma'`	Гамма- распределение
`'inverse gaussian'`	Обратное Гауссово распределение

Пример: 'Distribution','gamma'

`'Exclude'` - Наблюдения, которые нужно исключить
логический или числовой вектор индекса

Наблюдения, чтобы исключить из подгонки, заданные как разделенная разделенными запятой парами, состоящая из 'Exclude' и логический или числовой вектор индекса, указывающий, какие наблюдения исключить из подгонки.

Например, можно исключить наблюдения 2 и 3 из 6, используя любой из следующих примеров.

Пример: 'Exclude',[2,3]

Пример: 'Exclude',logical([0 1 1 0 0 0])

Типы данных: single | double | logical

`'Intercept'` - Индикатор постоянного срока
`true` (по умолчанию) | `false`

Индикатор для постоянного термина (точка пересечения) в подгонке, заданный как разделенная разделенными запятой парами, состоящая из 'Intercept' и любой из них true включать или false чтобы удалить постоянный член из модели.

Использование 'Intercept' только при задании модели с помощью вектора символов или строкового скаляра, а не формулы или матрицы.

Пример: 'Intercept',false

`'Link'` - Функция Link
каноническая функция ссылки (по умолчанию) | скалярным значением | структурой

Функция Link для использования вместо канонической функции link, заданная как разделенная разделенными запятой парами, состоящая из 'Link' и одно из следующих.

Имя функции Link	Функция ссылки	Средняя (обратная) функция
`'identity'`	f (<reservedrangesplaceholder1>) = μ	μ = Xb
`'log'`	f (μ) = журнал (μ)	μ = exp (Xb)
`'logit'`	f (μ) = журнал (μ/( 1- μ))	μ = exp (Xb )/( 1 + exp (Xb))
`'probit'`	f (μ) =^–1(μ), где И является совокупной функцией распределения стандартного нормального распределения.	μ = И (Xb)
`'comploglog'`	f (μ) = журнал (-журнал (1 - μ))	μ = 1 - exp (-exp (Xb))
`'reciprocal'`	f (<reservedrangesplaceholder1>) = 1 / μ	μ = 1 / (<reservedrangesplaceholder0>)
`p` (a число)	f (μ) =^p	μ = Xb^1/p
`S` (а) с тремя полями. Каждое поле содержит указатель на функцию, который принимает вектор входов и возвращает вектор того же размера: `S.Link` - Функция ссылки `S.Inverse` - Функция обратной ссылки `S.Derivative` - Производная функции ссылки	f (<reservedrangesplaceholder1>) `= S.Link`(<reservedrangesplaceholder0>)	μ = `S.Inverse`(<reservedrangesplaceholder0>)

Функция ссылки задает отношение f (μ) = X * b между средней μ отклика и линейной комбинацией предикторов X * b.

Для получения дополнительной информации о канонических функциях ссылки см. «Каноническая функция».

Пример: 'Link','probit'

Типы данных: char | string | single | double | struct

`'Lower'` - Спецификация модели, описывающая термины, которые нельзя удалить из модели
`'constant'` (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

Спецификация модели, описывающая условия, которые не могут быть удалены из модели, заданная как разделенная разделенными запятой парами, состоящая из 'Lower' и один из опций modelspec именование модели.

Пример: 'Lower','linear'

`'NSteps'` - Максимальное количество шагов, которые необходимо предпринять
нет предела (по умолчанию) | положительного целого числа

Максимальное количество шагов, которые необходимо предпринять, заданное как разделенная разделенными запятой парами, состоящая из 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

`'Offset'` - Переменная смещения
[] (по умолчанию) | числовой вектор | вектор символов | строковый скаляр

Переменная смещения в подгонке, заданная как разделенная разделенными запятой парами, состоящая из 'Offset' и имя переменной в tbl или числовой вектор с той же длиной, что и ответ.

stepwiseglm использует Offset как дополнительный предиктор со значением коэффициента, фиксированным на 1. Другими словами, формула для подбора кривой

f (<reservedrangesplaceholder1>) = Offset + X*b,

где f - ссылка функция, μ - средняя характеристика, а X * b - линейная комбинация предикторов X. The Offset предиктор имеет коэффициент 1.

Например, рассмотрим регрессионую модель Пуассона. Предположим, что количество отсчётов известно по теоретическим причинам, что оно пропорционально предиктору A. При помощи функции log link и путем определения log(A) в качестве смещения можно заставить модель удовлетворить этому теоретическому ограничению.

Типы данных: single | double | char | string

`'PEnter'` - Порог критерия для добавления термина
скалярное значение

Порог критерия для добавления термина, заданное как разделенная разделенными запятой парами, состоящая из 'PEnter' и скалярное значение, как описано в этой таблице.

Критерий	Значение по умолчанию	Решение
`'Deviance'`	0.05	Если p -value F -statistic или хи-квадрат статистическая величина меньше `PEnter` (p -значение для ввода), добавьте термин к модели .
`'SSE'`	0.05	Если p -value F -statistic меньше `PEnter`, добавить термин к модели.
`'AIC'`	0	Если изменение AIC модели меньше `PEnter`, добавить термин к модели.
`'BIC'`	0	Если изменение в BIC модели меньше `PEnter`, добавить термин к модели.
`'Rsquared'`	0.1	Если увеличение значения R-квадрат модели больше `PEnter`, добавить термин к модели.
`'AdjRsquared'`	0	Если увеличение скорректированного значения R-квадрат модели больше `PEnter`, добавить термин к модели.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PEnter',0.075

`'PredictorVars'` - Переменные предиктора
строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

Переменные предиктора для использования в подгонку, заданные как разделенная разделенными запятой парами, состоящая из 'PredictorVars' и либо строковый массив, либо массив ячеек из векторов символов с именами переменных в таблице или массиве набора данных tbl, или логический или числовой вектор индекса, указывающий, какие столбцы являются переменными предиктора.

Строковые значения или векторы символов должны быть среди имен в tbl, или имена, которые вы задаете используя 'VarNames' аргумент пары "имя-значение".

По умолчанию все переменные в X, или все переменные в tbl кроме ResponseVar.

Например, можно задать вторую и третью переменные как переменные-предикторы, используя любой из следующих примеров.

Пример: 'PredictorVars',[2,3]

Пример: 'PredictorVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

`'PRemove'` - Порог критерия для удаления термина
скалярное значение

Порог критерия для удаления термина, заданное как разделенная разделенными запятой парами, состоящая из 'PRemove' и скалярное значение, как описано в этой таблице.

Критерий	Значение по умолчанию	Решение
`'Deviance'`	0.10	Если p -value F -statistic или хи-квадрат статистическая больше `PRemove` (p -значение, чтобы удалить), удалите термин из модели.
`'SSE'`	0.10	Если p -value F -statistic больше `PRemove`, удалите термин из модели.
`'AIC'`	0.01	Если изменение AIC модели больше `PRemove`, удалите термин из модели.
`'BIC'`	0.01	Если изменение в BIC модели больше `PRemove`, удалите термин из модели.
`'Rsquared'`	0.05	Если увеличение значения R-квадрат модели меньше `PRemove`, удалите термин из модели.
`'AdjRsquared'`	-0.05	Если увеличение скорректированного значения R-квадрат модели меньше `PRemove`, удалите термин из модели.

На каждом шаге, stepwiseglm функция также проверяет, является ли термин избыточным (линейно зависимым) с другими терминами в текущей модели. Когда термин линейно зависит от других членов в текущей модели, stepwiseglm функция удаляет избыточный член независимо от значения критерия.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PRemove',0.05

`'ResponseVar'` - Переменная отклика
последний столбец в `tbl` (по умолчанию) | вектор символов или строковый скаляр, содержащий имя переменной | логический или числовой вектор индекса

Переменная отклика для использования в подгонке, заданная как разделенная разделенными запятой парами, состоящая из 'ResponseVar' и либо вектор символов, либо строковый скаляр, содержащий имя переменной в таблице или массиве набора данных tbl, или логический или числовой вектор индекса, указывающий, какой столбец является переменной отклика. Обычно вам нужно использовать 'ResponseVar' при подгонке таблицы или массива набора данных tbl.

Для примера можно задать четвертую переменную, скажем yield, как ответ из шести переменных, одним из следующих способов.

Пример: 'ResponseVar','yield'

Пример: 'ResponseVar',[4]

Пример: 'ResponseVar',logical([0 0 0 1 0 0])

Типы данных: single | double | logical | char | string

`'Upper'` - Спецификация модели, описывающая наибольший набор терминов в подгонке
`'interactions'` (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

Спецификация модели, описывающая самый большой набор членов в подгонке, заданная как разделенная разделенными запятой парами, состоящая из 'Upper' и один из опций modelspec именование модели.

Пример: 'Upper','quadratic'

`'VarNames'` - Имена переменных
`{'x1','x2',...,'xn','y'}` (по умолчанию) | строковый массив | массивов ячеек из векторов символов

Имена переменных, заданные как разделенная разделенными запятой парами, состоящая из 'VarNames' и строковые массивы или массив ячеек из векторов символов, включая имена для столбцов X во-первых, и имя переменной отклика y последний.

'VarNames' не применяется к переменным в таблице или массиве набора данных, поскольку эти переменные уже имеют имена.

Имена переменных не должны быть допустимыми идентификаторами MATLAB. Однако, если имена недопустимы, вы не можете использовать формулу, когда подбираете или корректируете модель; для примера:

Вы не можете использовать формулу, чтобы задать условия, которые нужно добавить или удалить при использовании addTerms функцию или removeTerms функция, соответственно.
Вы не можете использовать формулу, чтобы задать нижнюю и верхнюю границы модели, когда вы используете step или stepwiseglm функция с аргументами пары "имя-значение" 'Lower' и 'Upper', соответственно.

Перед указанием 'VarNames',varNamesможно проверить имена переменных в varNames при помощи isvarname функция. Если имена переменных недопустимы, можно преобразовать их, используя matlab.lang.makeValidName функция.

Пример: 'VarNames',{'Horsepower','Acceleration','Model_Year','MPG'}

Типы данных: string | cell

`'Verbose'` - Управление отображением информации
`1` (по умолчанию) | `0` | `2`

Управление отображением информации, заданное как разделенная разделенными запятой парами, состоящая из 'Verbose' и одно из следующих значений:

0 - Подавить отображение всех элементов.
1 - Отображать действие, выполняемое на каждом шаге.
2 - Отображать процесс оценки и действия, предпринятые на каждом шаге.

Пример: 'Verbose',2

`'Weights'` - Веса наблюдений
`ones(n,1)` (по умолчанию) | n вектор -by-1 неотрицательных скалярных значений

Веса наблюдений, заданные как разделенная разделенными запятой парами, состоящая из 'Weights' и вектор n -by-1 неотрицательных скалярных значений, где n - количество наблюдений.

Типы данных: single | double

Выходные аргументы

свернуть все

`mdl` - Обобщенная линейная регрессионая модель
`GeneralizedLinearModel` объект

Обобщенная линейная регрессионая модель, заданная как GeneralizedLinearModel объект, созданный с помощью fitglm или stepwiseglm.

Подробнее о

свернуть все

Матрица терминов

Матрица терминов T является t -by- (p + 1) матрицей, задающей условия в модели, где t - количество членов, p - количество переменных предиктора, и + 1 учитывает переменную отклика. Значение T(i,j) - экспонента переменной j в терминах i.

Например, предположим, что вход включает три переменные предиктора x1, x2, и x3 и переменной отклика y в порядке x1, x2, x3, и y. Каждая строка T представляет собой один термин:

[0 0 0 0] - Постоянный срок или точка пересечения
[0 1 0 0] — x2; эквивалентно x1^0 * x2^1 * x3^0
[1 0 1 0] — x1*x3
[2 0 0 0] — x1^2
[0 1 2 0] — x2*(x3^2)

The 0 в конце каждого термина представляет переменную отклика. В целом векторе-столбце из нулей в матрице терминов представляет положение переменной отклика. Если у вас есть переменные предиктора и отклика в матрице и векторе-столбце, то вы должны включать 0 для переменной отклика в последнем столбце каждой строки.

Формула

Формула для спецификации модели является вектором символов или строковым скаляром вида 'y ~ <reservedrangesplaceholder0>'.

y - имя отклика.
terms представляет предикторные условия в модели, использующей обозначение Уилкинсона.

Чтобы представлять переменные предиктора и отклика, используйте имена переменных входных tbl таблицы или имена переменных, заданные при помощи VarNames. Значение по умолчанию VarNames является {'x1','x2',...,'xn','y'}.

Для примера:

'y ~ x1 + x2 + x3' задает линейную модель с тремя переменными с точкой пересечения.
'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без точки пересечения. Обратите внимание, что формулы включают постоянный (перехват) термин по умолчанию. Чтобы исключить постоянный термин из модели, вы должны включить –1 в формуле.

Формула включает в себя постоянный термин, если вы явным образом не удаляете термин используя –1.

Уилкинсон Обозначение

Уилкинсон обозначения описывает термины, существующие в модели. Обозначение относится к терминам, присутствующим в модели, а не к умножителям (коэффициентам) этих членов.

Уилкинсон обозначения использует эти символы:

+ средства включают следующую переменную.
– средства не включают следующую переменную.
: задает взаимодействие, которое является продуктом терминов.
* задает взаимодействие и все условия более низкого порядка.
^ поднимает предиктор в степень, в точности как в * повторяется, так ^ включает также условия более низкого порядка.
() группы терминов.

Эта таблица показывает типичные примеры обозначению Уилкинсона.

Уилкинсон Обозначение	Термины в стандартном обозначении
`1`	Константа ( точку пересечения) термин
`x1^k`, где `k` является положительным целым числом	`x1`, `x1²`..., `x1^k`
`x1 + x2`	`x1`, `x2`
`x1*x2`	`x1`, `x2`, `x1*x2`
`x1:x2`	`x1*x2` только
`–x2`	Не включать `x2`
`x1*x2 + x3`	`x1`, `x2`, `x3`, `x1*x2`
`x1 + x2 + x3 + x1:x2`	`x1`, `x2`, `x3`, `x1*x2`
`x1x2x3 – x1:x2:x3`	`x1`, `x2`, `x3`, `x1x2`, `x1x3`, `x2*x3`
`x1*(x2 + x3)`	`x1`, `x2`, `x3`, `x1x2`, `x1x3`

Для получения дополнительной информации см. Обозначение Уилкинсона.

Каноническая функция

Функция ссылки по умолчанию для обобщенной линейной модели является canonical link function.

Распределение	Канонические Ссылки Имени функции	Функция ссылки	Средняя (обратная) функция
`'normal'`	`'identity'`	f (<reservedrangesplaceholder1>) = μ	μ = Xb
`'binomial'`	`'logit'`	f (μ) = журнал (μ/( 1 - μ))	μ = exp (Xb )/( 1 + exp (Xb))
`'poisson'`	`'log'`	f (μ) = журнал (μ)	μ = exp (Xb)
`'gamma'`	`-1`	f (<reservedrangesplaceholder1>) = 1 / μ	μ = 1 / (<reservedrangesplaceholder0>)
`'inverse gaussian'`	`-2`	f (<reservedrangesplaceholder1>) = 1 / μ²	μ = (<reservedrangesplaceholder0>)^–1/2

Совет

Обобщенная линейная модель mdl является стандартной линейной моделью, если вы не задаете обратное со Distribution Пара "имя-значение".
Для других методов, таких как devianceTest, или свойства GeneralizedLinearModel объект, см. GeneralizedLinearModel.
После обучения модели можно сгенерировать код C/C + +, который предсказывает ответы для новых данных. Для генерации кода C/C + + требуется MATLAB Coder™. Для получения дополнительной информации смотрите Введение в генерацию кода .

Алгоритмы

Stepwise regression является систематическим методом для добавления и удаления членов из линейной или обобщенной линейной модели, основанной на их статистической значимости в объяснении переменной отклика. Метод начинается с начальной модели, заданной с помощью modelspec, а затем сравнивает объяснительную степень пошагово больших и меньших моделей.
stepwiseglm функция использует прямую и обратную ступенчатую регрессию, чтобы определить окончательную модель. На каждом шаге функция ищет условия, чтобы добавить к модели или удалить из модели на основе значения 'Criterion' аргумент пары "имя-значение".
Значение по умолчанию 'Criterion' для линейной регрессионой модели 'sse'. В этом случае, stepwiselm и step от LinearModel используйте p -value F -statistic для экспериментальных моделей с потенциальным термином и без него на каждом шаге. Если термин не находится в модели в данный момент, нулевая гипотеза заключается в том, что термин будет иметь нулевой коэффициент, если добавлен к модели. Если существует достаточное количество доказательств, чтобы отклонить нулевую гипотезу, функция добавляет термин к модели. И наоборот, если член в данный момент находится в модели, нулевая гипотеза заключается в том, что термин имеет нулевой коэффициент. Если нет достаточных доказательств, чтобы отклонить нулевую гипотезу, функция удаляет термин из модели.
Ступенчатая регрессия делает эти шаги, когда 'Criterion' является 'sse':
1. Подгонка начальной модели.
2. Исследуйте набор доступных членов, не относящихся к модели. Если какой-либо из членов имеет p -значения меньше, чем допуск на вход (то есть, если это маловероятно, что термин будет иметь нулевой коэффициент, если добавлен к модели), добавьте термин с наименьшим p -значением и повторите этот шаг; в противном случае перейдите к шагу 3.
3. Если любой из доступных членов в модели имеет p -значений, больше, чем выходной допуск (то есть гипотеза нулевого коэффициента не может быть отклонена), удалите член с самым большим p -значением и вернитесь к шагу 2; в противном случае завершите процесс.
На любом этапе функция не будет добавлять термин более высокого порядка, если модель также не включает все условия более низкого порядка, которые являются подмножествами термина более высокого порядка. Для примера функция не будет пытаться добавить термин X1:X2^2 если только оба не X1 и X2^2 уже есть в модели. Точно так же функция не удалит условия более низкого порядка, которые являются подмножествами членов более высокого порядка, которые остаются в модели. Например, функция не будет пытаться удалить X1 или X2^2 если X1:X2^2 остается в модели.
Значение по умолчанию 'Criterion' для обобщенной линейной модели 'Deviance'. stepwiseglm и step от GeneralizedLinearModel следуйте аналогичной процедуре для добавления или удаления терминов.
Можно задать другие критерии при помощи 'Criterion' аргумент пары "имя-значение". Например, можно задать изменение значения информационного критерия Акайке, информационного критерия Байеса, R-квадрата или скорректированного R-квадрата в качестве критерия для добавления или удаления членов.
В зависимости от членов, включенных в начальную модель, и порядка, в котором функция добавляет и удаляет условия, функция может создавать различные модели из одного и того же набора потенциальных членов. Функция прекращается, когда ни один шаг не улучшает модель. Однако другая начальная модель или другая последовательность шагов не гарантирует лучшую подгонку. В этом смысле ступенчатые модели являются локально оптимальными, но могут не быть глобально оптимальными.
stepwiseglm рассматривает категориальный предиктор следующим образом:
- Модель с категориальным предиктором, которая имеет L уровни (категории), включает L - 1 переменные показателя. Модель использует первую категорию в качестве ссылочного уровня, поэтому она не включает переменную индикатора для ссылочного уровня. Если тип данных категориального предиктора categorical, затем можно проверить порядок категорий при помощи categories и переупорядочить категории при помощи reordercats для настройки уровня ссылки. Для получения дополнительной информации о создании переменных индикатора, смотрите Автоматическое создание переменных фиктива.
- stepwiseglm рассматривает группу переменных индикатора L-1 как одну переменную. Если вы хотите считать переменные индикатора отдельными переменными предиктора, создайте переменные индикатора вручную при помощи dummyvar. Затем используйте переменные индикатора, кроме той, которая соответствует ссылочному уровню категориальной переменной, когда вы подбираете модель. Для категориального предиктора X, если вы задаете все столбцы dummyvar(X) и точка пересечения член как предикторы, тогда матрица дизайна становится неполным рангом.
- Условия взаимодействия между непрерывным предиктором и категориальным предиктором с L уровнями состоят из поэлементного произведения переменных показателя L-1 с непрерывным предиктором.
- Условия взаимодействия между двумя категориальными предикторами с L и M уровнями состоят из переменных (L - 1) * (M - 1) индикатора, чтобы включать все возможные комбинации двух категориальных уровней предиктора.
- Вы не можете задать условия более высокого порядка для категориального предиктора, потому что квадрат индикатора равен себе.
Поэтому, если stepwiseglm добавляет или удаляет категориальный предиктор, функция фактически добавляет или удаляет группу переменных индикатора за один шаг. Точно так же, если stepwiseglm добавляет или удаляет термин взаимодействия с категориальным предиктором, функция фактически добавляет или удаляет группу членов взаимодействия, включая категориальный предиктор.
stepwiseglm рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в tbl, X, и Y чтобы быть отсутствующими значениями. stepwiseglm не использует наблюдения с отсутствующими значениями в подгонке. The ObservationInfo свойство подобранной модели указывает, указывает или нет stepwiseglm использует каждое наблюдение в подгонке.

Альтернативы

Использовать fitglm для создания модели с фиксированной спецификацией. Использование step, addTerms, или removeTerms чтобы настроить подобранную модель.

Ссылки

[1] Collett, D. Modeling Binary Data. Нью-Йорк: Chapman & Hall, 2002.

[2] Добсон, А. Дж. Введение в обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[3] McCullagh, P., and J. A. Nelder. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

См. также

fitglm | GeneralizedLinearModel | predict

Темы

Введенный в R2013b

Документация

stepwiseglm

Синтаксис

Описание

Примеры

Обобщенная линейная модель с использованием пошагового алгоритма

Входные параметры

tbl - Входные данные таблица | массив набора данных

X - Переменные предиктора матрица

y - Переменная отклика вектор | матрица

Аргументы в виде пар имя-значение

'BinomialSize' - Количество испытаний для биномиального распределения 1 (по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

'CategoricalVars' - Категориальный список переменных строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

'Criterion' - Критерий для добавления или удаления терминов 'Deviance' (по умолчанию) | 'sse' | 'aic' | 'bic' | 'rsquared' | 'adjrsquared'

'DispersionFlag' - Индикатор для вычисления параметра дисперсии false для 'binomial' и 'poisson' распределения (по умолчанию) | true

'Distribution' - Распределение переменной отклика 'normal' (по умолчанию) | 'binomial' | 'poisson' | 'gamma' | 'inverse gaussian'

'Exclude' - Наблюдения, которые нужно исключить логический или числовой вектор индекса

'Intercept' - Индикатор постоянного срока true (по умолчанию) | false

'Link' - Функция Link каноническая функция ссылки (по умолчанию) | скалярным значением | структурой

'Lower' - Спецификация модели, описывающая термины, которые нельзя удалить из модели 'constant' (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

'NSteps' - Максимальное количество шагов, которые необходимо предпринять нет предела (по умолчанию) | положительного целого числа

'Offset' - Переменная смещения [] (по умолчанию) | числовой вектор | вектор символов | строковый скаляр

'PEnter' - Порог критерия для добавления термина скалярное значение

'PredictorVars' - Переменные предиктора строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

'PRemove' - Порог критерия для удаления термина скалярное значение

'Upper' - Спецификация модели, описывающая наибольший набор терминов в подгонке 'interactions' (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

'VarNames' - Имена переменных {'x1','x2',...,'xn','y'} (по умолчанию) | строковый массив | массивов ячеек из векторов символов

'Verbose' - Управление отображением информации 1 (по умолчанию) | 0 | 2

'Weights' - Веса наблюдений ones(n,1) (по умолчанию) | n вектор -by-1 неотрицательных скалярных значений

Выходные аргументы

mdl - Обобщенная линейная регрессионая модель GeneralizedLinearModel объект

Подробнее о

Матрица терминов

Формула

Уилкинсон Обозначение

Каноническая функция

Совет

Алгоритмы

Альтернативы

Ссылки

См. также

Темы

Statistics and Machine Learning Toolbox документация

Поддержка

`tbl` - Входные данные
таблица | массив набора данных

`X` - Переменные предиктора
матрица

`y` - Переменная отклика
вектор | матрица

`'BinomialSize'` - Количество испытаний для биномиального распределения
1 (по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

`'CategoricalVars'` - Категориальный список переменных
строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

`'Criterion'` - Критерий для добавления или удаления терминов
`'Deviance'` (по умолчанию) | `'sse'` | `'aic'` | `'bic'` | `'rsquared'` | `'adjrsquared'`

`'DispersionFlag'` - Индикатор для вычисления параметра дисперсии
`false` для `'binomial'` и `'poisson'` распределения (по умолчанию) | `true`

`'Distribution'` - Распределение переменной отклика
`'normal'` (по умолчанию) | `'binomial'` | `'poisson'` | `'gamma'` | `'inverse gaussian'`

`'Exclude'` - Наблюдения, которые нужно исключить
логический или числовой вектор индекса

`'Intercept'` - Индикатор постоянного срока
`true` (по умолчанию) | `false`

`'Link'` - Функция Link
каноническая функция ссылки (по умолчанию) | скалярным значением | структурой

`'Lower'` - Спецификация модели, описывающая термины, которые нельзя удалить из модели
`'constant'` (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

`'NSteps'` - Максимальное количество шагов, которые необходимо предпринять
нет предела (по умолчанию) | положительного целого числа

`'Offset'` - Переменная смещения
[] (по умолчанию) | числовой вектор | вектор символов | строковый скаляр

`'PEnter'` - Порог критерия для добавления термина
скалярное значение

`'PredictorVars'` - Переменные предиктора
строковые массивы | массив ячеек из векторов символов | логический или числовой вектор индекса

`'PRemove'` - Порог критерия для удаления термина
скалярное значение

`'Upper'` - Спецификация модели, описывающая наибольший набор терминов в подгонке
`'interactions'` (по умолчанию) | символьный вектор | строковый скаляр | матрица терминов

`'VarNames'` - Имена переменных
`{'x1','x2',...,'xn','y'}` (по умолчанию) | строковый массив | массивов ячеек из векторов символов

`'Verbose'` - Управление отображением информации
`1` (по умолчанию) | `0` | `2`

`'Weights'` - Веса наблюдений
`ones(n,1)` (по умолчанию) | n вектор -by-1 неотрицательных скалярных значений

`mdl` - Обобщенная линейная регрессионая модель
`GeneralizedLinearModel` объект