stepwiseglm

Создайте обобщенную линейную модель регрессии ступенчатой регрессией

Синтаксис

mdl = stepwiseglm(tbl)

mdl = stepwiseglm(X,y)

mdl = stepwiseglm(___,modelspec)

mdl = stepwiseglm(___,modelspec,Name,Value)

Описание

mdl = stepwiseglm(tbl) создает обобщенную линейную модель таблицы или массива набора данных tbl использование ступенчатой регрессии, чтобы добавить или удалить предикторы, запуск с постоянной модели. stepwiseglm использует последнюю переменную tbl как переменная отклика. stepwiseglm использование прямая и обратная ступенчатая регрессия, чтобы определить итоговую модель. На каждом шаге функция ищет термины, чтобы добавить модель в или удалить из модели, на основе значения 'Criterion' аргумент.

пример

mdl = stepwiseglm(X,y) создает обобщенную линейную модель ответов y к матрице данных X.

mdl = stepwiseglm(___,modelspec) задает стартовую модель modelspec использование любой из комбинаций входных аргументов в предыдущих синтаксисах.

пример

mdl = stepwiseglm(___,modelspec,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, можно задать категориальные переменные, самый маленький или самый большой набор терминов, чтобы использовать в модели, максимальном количестве шагов, чтобы взять, или критерий это stepwiseglm использование, чтобы добавить или удалить термины.

Примеры

свернуть все

Обобщенная линейная модель Используя пошаговый алгоритм

Скрипт Open Live Script

Создайте данные об ответе, использующие всего три из 20 предикторов, и создайте обобщенную линейную модель с помощью пошагового алгоритма, чтобы видеть, использует ли это только правильные предикторы.

Создайте данные с 20 предикторами и ответ Пуассона, использующий всего три из предикторов, плюс константа.

rng('default') % for reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);

Подбирайте обобщенную линейную модель с помощью распределения Пуассона.

mdl =  stepwiseglm(X,y,...
    'constant','upper','linear','Distribution','poisson')

1. Adding x5, Deviance = 134.439, Chi2Stat = 52.24814, PValue = 4.891229e-13
2. Adding x15, Deviance = 106.285, Chi2Stat = 28.15393, PValue = 1.1204e-07
3. Adding x10, Deviance = 95.0207, Chi2Stat = 11.2644, PValue = 0.000790094

mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x5 + x10 + x15
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)     1.0115     0.064275    15.737    8.4217e-56
    x5             0.39508     0.066665    5.9263    3.0977e-09
    x10            0.18863      0.05534    3.4085     0.0006532
    x15            0.29295     0.053269    5.4995    3.8089e-08


100 observations, 96 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 91.7, p-value = 9.61e-20

Стартовая модель является постоянной моделью. stepwiseglm отклонением использования по умолчанию модели как критерий. Это сначала добавляет x5 в модель, как $p$ - значение для тестовой статистической величины, отклонение (различия в отклонениях этих двух моделей), меньше порогового значения по умолчанию 0.05. Затем это добавляет x15 потому что данный x5 находится в модели, когда x15 добавляется, $p$ - значение для теста в квадрате хи меньше, чем 0,05. Это затем добавляет x10 потому что данный x5 и x15 находятся в модели, когда x10 добавляется, $p$ - значение для тестовой статистической величины хи-квадрата снова меньше 0.05.

Входные параметры

свернуть все

`tbl` — Входные данные
таблица | массив набора данных

Входные данные включая переменные прогноза и переменные отклика в виде таблицы или массива набора данных. Переменные предикторы и переменная отклика могут быть числовыми, логическими, категориальными, символ или строка. Переменная отклика может иметь тип данных кроме числового только если 'Distribution' 'binomial'.

По умолчанию, stepwiseglm берет последнюю переменную в качестве переменной отклика и других как переменные предикторы.
Чтобы установить различный столбец как переменную отклика, используйте ResponseVar аргумент пары "имя-значение".
Чтобы использовать подмножество столбцов как предикторы, используйте PredictorVars аргумент пары "имя-значение".
Чтобы задать спецификацию модели, установите modelspec аргумент с помощью формулы или матрицы терминов. Матрица формулы или терминов задает который столбцы использовать в качестве переменных предикторов или переменных отклика.

Именами переменных в таблице не должен быть допустимый MATLAB^® идентификаторы. Однако, если имена не допустимы, вы не можете использовать формулу, когда вы соответствуете или настраиваете модель; например:

Вы не можете задать modelspec использование формулы.
Вы не можете использовать формулу, чтобы задать термины, чтобы добавить или удалить, когда вы используете addTerms функционируйте или removeTerms функция, соответственно.
Вы не можете использовать формулу, чтобы задать нижние и верхние границы модели, когда вы используете step или stepwiseglm функция с аргументами пары "имя-значение" 'Lower' и 'Upper', соответственно.

Можно проверить имена переменных в tbl при помощи isvarname функция. Если имена переменных не допустимы, то можно преобразовать их при помощи matlab.lang.makeValidName функция.

`X` — Переменные предикторы
матрица

Переменные предикторы в виде n-by-p матрица, где n является количеством наблюдений и p, являются количеством переменных предикторов. Каждый столбец X представляет одну переменную, и каждая строка представляет одно наблюдение.

По умолчанию существует постоянный член в модели, если вы явным образом не удаляете его, не включайте столбец 1 с в X.

Типы данных: single | double

`y` — Переменная отклика
вектор | матрица

Переменная отклика в виде вектора или матрицы.

Если 'Distribution' не 'binomial', затем y должен быть n-by-1 вектор, где n является количеством наблюдений. Каждая запись в y ответ для соответствующей строки X. Тип данных должен быть одним или двойным.
Если 'Distribution' 'binomial', затем y может быть n-by-1 вектор или n-by-2 матрица с количествами в столбце 1 и BinomialSize в столбце 2.

Типы данных: single | double | logical | categorical

`modelspec` — Стартовая модель
`'constant'` (значение по умолчанию) | вектор символов или строковый скаляр, называющий модель | t (p + 1), называет матрицу | вектор символов или формула строкового скаляра в форме `'y ~ terms'`

Стартовая модель для stepwiseglmВ виде одного из следующего:

Вектор символов или строковый скаляр, называющий модель.

Значение	Тип модели
`'constant'`	Модель содержит только константу (точка пересечения) термин.
`'linear'`	Модель содержит точку пересечения и линейный член для каждого предиктора.
`'interactions'`	Модель содержит точку пересечения, линейный член для каждого предиктора и все продукты пар отличных предикторов (никакие термины в квадрате).
`'purequadratic'`	Модель содержит термин точки пересечения и линейный и придает терминам квадратную форму для каждого предиктора.
`'quadratic'`	Модель содержит термин точки пересечения, линейный, и придает квадратную форму терминам для каждого предиктора и всем продуктам пар отличных предикторов.
`'polyijk'`	Модель является полиномом со всеми терминами до степени `i` в первом предикторе, степень `j` во втором предикторе, и так далее. Задайте максимальную степень для каждого предиктора при помощи цифр 0 хотя 9. Модель содержит периоды взаимодействия, но степень каждого периода взаимодействия не превышает максимальное значение заданных степеней. Например, `'poly13'` имеет точку пересечения и x ₁, x ₂, x ₂²x2 ³, x _1x2, и x _1x2² термины, где x ₁ и x ₂ является первыми и вторыми предикторами, соответственно.

t (p + 1) матрица или Матрица Условий, задавая члены в модели, где t является количеством терминов и p, является количеством переменных предикторов и +1 счетом на переменную отклика. Матрица терминов удобна, когда количество предикторов является большим, и вы хотите сгенерировать термины программно.
Вектор символов или Формула строкового скаляра в форме

'y ~ terms',
где terms находятся в Обозначении Уилкинсона. Имена переменных в формуле должны быть именами переменных в tbl или имена переменных заданы Varnames. Кроме того, имена переменных должны быть допустимыми идентификаторами MATLAB.
Программное обеспечение определяет порядок терминов в подобранной модели при помощи порядка терминов в tbl или X. Поэтому порядок членов в модели может отличаться от порядка терминов в заданной формуле.

Если вы хотите задать самый маленький или самый большой набор членов в модели это stepwiselm подгонки, используйте Lower и Upper аргументы в виде пар имя-значение.

Типы данных: char | string | single | double

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Criterion','aic','Distribution','poisson','Upper','interactions' задает информационный Критерий Akaike как критерий, чтобы добавить или удалить переменные к модели, распределение Пуассона как распределение переменной отклика и модель со всеми возможными взаимодействиями как самая большая модель, чтобы рассмотреть как подгонку.

`BinomialSize` — Количество испытаний за биномиальное распределение
1 (значение по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

Количество испытаний за биномиальное распределение, которое является объемом выборки в виде разделенной запятой пары, состоящей из 'BinomialSize' и имя переменной в tbl, числовой скаляр или числовой вектор из той же длины как ответ. Это - параметр n для подходящего биномиального распределения. BinomialSize применяется только когда Distribution параметром является 'binomial'.

Если BinomialSize скалярное значение, которое означает, что все наблюдения имеют то же количество испытаний.

Как альтернатива BinomialSize, можно задать ответ как матрицу 2D столбца с количествами в столбце 1 и BinomialSize в столбце 2.

Типы данных: single | double | char | string

`CategoricalVars` — Категориальный список переменных
массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

Категориальный список переменных в виде разделенной запятой пары, состоящей из 'CategoricalVars' и или массив строк или массив ячеек из символьных векторов, содержащий категориальные имена переменных в таблице или массиве набора данных tbl, или логический или числовой вектор индекса указание, какие столбцы являются категориальными.

Если данные находятся в таблице или массиве набора данных tbl, затем, по умолчанию, stepwiseglm обработки все категориальные значения, логические значения, символьные массивы, строковые массивы и массивы ячеек из символьных векторов как категориальные переменные.
Если данные находятся в матричном X, затем значение по умолчанию 'CategoricalVars' пустой матричный []. Таким образом, никакая переменная не является категориальной, если вы не задаете его как категориальный.

Например, можно задать вторые и третьи переменные из шесть как категориальное использование любого из следующего:

Пример: 'CategoricalVars',[2,3]

Пример: 'CategoricalVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

`Criterion` — Критерий, чтобы добавить или удалить термины
`'Deviance'` (значение по умолчанию) | `'sse'` | `'aic'` | `'bic'` | `'rsquared'` | `'adjrsquared'`

Критерий, чтобы добавить или удалить термины в виде разделенной запятой пары, состоящей из 'Criterion' и одно из этих значений:

'Deviance' — p - значение для F - тест или тест в квадрате хи изменения в отклонении, которое следует из добавления или удаления термина. F - тест тестирует одну модель, и тест в квадрате хи сравнивает две различных модели.
'sse' — p - значение для F - тест изменения в сумме квадратичной невязки, которая следует из добавления или удаления термина.
'aic' — Изменитесь в значении Критерия информации о Akaike (AIC).
'bic' — Изменитесь в значении Байесового информационного критерия (BIC).
'rsquared' — Увеличение значения R².
'adjrsquared' — Увеличение значения настроенного R².

Пример: 'Criterion','bic'

`DispersionFlag` — Индикатор, чтобы вычислить дисперсионный параметр
`false` для `'binomial'` и `'poisson'` распределения (значение по умолчанию) | `true`

Индикатор, чтобы вычислить дисперсионный параметр для 'binomial' и 'poisson' распределения в виде разделенной запятой пары, состоящей из 'DispersionFlag' и одно из следующих.

true Оцените дисперсионный параметр при вычислении стандартных погрешностей. Предполагаемое дисперсионное значение параметров является суммой остаточных значений Пирсона в квадрате, разделенных на степени свободы для ошибки (DFE).

false Значение по умолчанию. Используйте теоретическое значение 1 при вычислении стандартных погрешностей.

Подходящая функция всегда оценивает дисперсию для других распределений.

Пример: 'DispersionFlag',true

`Distribution` — Распределение переменной отклика
`'normal'` (значение по умолчанию) | `'binomial'` | `'poisson'` | `'gamma'` | `'inverse gaussian'`

Распределение переменной отклика в виде разделенной запятой пары, состоящей из 'Distribution' и одно из следующих.

`'normal'`	Нормальное распределение
`'binomial'`	Биномиальное распределение
`'poisson'`	Распределение Пуассона
`'gamma'`	Гамма распределение
`'inverse gaussian'`	Обратное Распределение Гаусса

Пример: 'Distribution','gamma'

`Exclude` — Наблюдения, чтобы исключить
логический или числовой вектор индекса

Наблюдения, чтобы исключить из подгонки в виде разделенной запятой пары, состоящей из 'Exclude' и логический или числовой вектор индекса указание, который наблюдения исключить из подгонки.

Например, можно исключить наблюдения 2 и 3 из 6 использований любого из следующих примеров.

Пример: 'Exclude',[2,3]

Пример: 'Exclude',logical([0 1 1 0 0 0])

Типы данных: single | double | logical

`Intercept` — Индикатор для постоянного термина
`true` (значение по умолчанию) | `false`

Индикатор для постоянного термина (точка пересечения) в подгонке в виде разделенной запятой пары, состоящей из 'Intercept' и любой true включать или false удалить постоянный термин из модели.

Используйте 'Intercept' только при определении модели с помощью вектора символов или строкового скаляра, не формулы или матрицы.

Пример: 'Intercept',false

`Link` — Функция ссылки
каноническая функция ссылки (значение по умолчанию) | скалярное значение | структура

Функция ссылки, чтобы использовать вместо канонической ссылки функционирует в виде разделенной запятой пары, состоящей из 'Link' и одно из следующих.

Соедините имя функции	Функция ссылки	Средняя (обратная) функция
`'identity'`	f (μ) = μ	μ = Xb
`'log'`	f (μ) = журнал (μ)	μ = exp (Xb)
`'logit'`	f (μ) = журнал (μ / (1–μ))	μ = exp (Xb) / (1 + exp (Xb))
`'probit'`	f (μ) = Φ^–1(μ), где Φ является кумулятивной функцией распределения стандартного нормального распределения.	μ = Φ (Xb)
`'comploglog'`	f (μ) = журнал (-журнал (1 – μ))	μ = 1 – exp (–exp (Xb))
`'reciprocal'`	f (μ) = 1/μ	μ = 1 / (Xb)
`p` (номер)	f (μ) = μ^p	μ = Xb^1/p
`S` (структура) с тремя полями. Каждое поле содержит указатель на функцию, который принимает вектор из входных параметров и возвращает вектор, одного размера: `S.Link` — Функция ссылки `S.Inverse` — Обратная функция ссылки `S.Derivative` — Производная функции ссылки	f (μ) = `S.Link`(μ)	μ = `S.Inverse`xb

Функция ссылки задает отношение f (μ) = X *b между средним ответом μ и линейной комбинацией предикторов X *b.

Для получения дополнительной информации о канонических функциях ссылки смотрите Каноническую Функцию.

Пример: 'Link','probit'

Типы данных: char | string | single | double | struct

`Lower` — Спецификация модели, описывающая термины, которые не могут быть удалены из модели
`'constant'` (значение по умолчанию) | вектор символов | строковый скаляр | называет матрицу

Спецификация модели, описывающая термины, которые не могут быть удалены из модели в виде разделенной запятой пары, состоящей из 'Lower' и одна из опций для modelspec именование модели.

Пример: 'Lower','linear'

`NSteps` — Максимальное количество шагов, чтобы взять
никакой предел (значение по умолчанию) | положительное целое число

Максимальное количество шагов, чтобы взять в виде разделенной запятой пары, состоящей из 'NSteps' и положительное целое число.

Пример: 'NSteps',5

Типы данных: single | double

`Offset` — Переменная Offset
[] (значение по умолчанию) | числовой вектор | вектор символов | строковый скаляр

Возместите переменную в подгонке в виде разделенной запятой пары, состоящей из 'Offset' и имя переменной в tbl или числовой вектор с той же длиной как ответ.

stepwiseglm использование Offset как дополнительный предиктор с содействующим значением, зафиксированным в 1. Другими словами, формула для подбора кривой

f (μ) = Offset + X*b,

где f является функцией ссылки, μ является средним ответом, и X *b является линейной комбинацией предикторов X. Offset предиктор имеет коэффициент 1.

Например, рассмотрите модель регрессии Пуассона. Предположим, что количество количеств известно по теоретическим причинам быть пропорциональным предиктору A. При помощи журнала соединяют функцию и путем определения log(A) как смещение, можно обеспечить модель, чтобы удовлетворить этому теоретическому ограничению.

Типы данных: single | double | char | string

`PEnter` — Порог для критерия, чтобы добавить термин
скалярное значение

Порог для критерия, чтобы добавить термин в виде разделенной запятой пары, состоящей из 'PEnter' и скалярное значение, как описано в этой таблице.

Критерий	Значение по умолчанию	Решение
`'Deviance'`	0.05	Если p - значение F - статистическая или статистическая величина в квадрате хи меньше `PEnter` (p - значение, чтобы войти), добавляет термин к модели.
`'SSE'`	0.05	Если p - значение F - статистическая величина меньше `PEnter`, добавьте термин в модель.
`'AIC'`	0	Если изменение в AIC модели меньше `PEnter`, добавьте термин в модель.
`'BIC'`	0	Если изменение в BIC модели меньше `PEnter`, добавьте термин в модель.
`'Rsquared'`	0.1	Если увеличение значения R-squared модели больше `PEnter`, добавьте термин в модель.
`'AdjRsquared'`	0	Если увеличение настроенного значения R-squared модели больше `PEnter`, добавьте термин в модель.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PEnter',0.075

`PredictorVars` — Переменные предикторы
массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

Переменные предикторы, чтобы использовать в подгонке в виде разделенной запятой пары, состоящей из 'PredictorVars' и или массив строк или массив ячеек из символьных векторов имен переменных в таблице или массиве набора данных tbl, или логический или числовой вектор индекса указание, какие столбцы являются переменными предикторами.

Значения строки или векторы символов должны быть среди имен в tbl, или имена вы задаете использование 'VarNames' аргумент пары "имя-значение".

Значением по умолчанию являются все переменные в X, или все переменные в tbl за исключением ResponseVar.

Например, можно задать вторые и третьи переменные как переменные предикторы с помощью любого из следующих примеров.

Пример: 'PredictorVars',[2,3]

Пример: 'PredictorVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

`PRemove` — Порог для критерия, чтобы удалить термин
скалярное значение

Порог для критерия, чтобы удалить термин в виде разделенной запятой пары, состоящей из 'PRemove' и скалярное значение, как описано в этой таблице.

Критерий	Значение по умолчанию	Решение
`'Deviance'`	0.10	Если p - значение F - статистическая или статистическая величина в квадрате хи больше `PRemove` (p - значение, чтобы удалить), удалите термин из модели.
`'SSE'`	0.10	Если p - значение F - статистическая величина больше `PRemove`, удалите термин из модели.
`'AIC'`	0.01	Если изменение в AIC модели больше `PRemove`, удалите термин из модели.
`'BIC'`	0.01	Если изменение в BIC модели больше `PRemove`, удалите термин из модели.
`'Rsquared'`	0.05	Если увеличение значения R-squared модели меньше `PRemove`, удалите термин из модели.
`'AdjRsquared'`	-0.05	Если увеличение настроенного значения R-squared модели меньше `PRemove`, удалите термин из модели.

На каждом шаге, stepwiseglm функционируйте также проверяет, является ли термин избыточным (линейно зависимый) с другими терминами в текущей модели. Когда термин линейно зависим на других терминах в текущей модели, stepwiseglm функция удаляет избыточный термин, независимо от значения критерия.

Для получения дополнительной информации смотрите Criterion аргумент пары "имя-значение".

Пример: 'PRemove',0.05

`ResponseVar` — Переменная отклика
последний столбец в `tbl` (значение по умолчанию) | вектор символов или строковый скаляр, содержащий имя переменной | логический или числовой вектор индекса

Переменная отклика, чтобы использовать в подгонке в виде разделенной запятой пары, состоящей из 'ResponseVar' и или вектор символов или строковый скаляр, содержащий имя переменной в таблице или массиве набора данных tbl, или логический или числовой вектор индекса указание, какой столбец является переменной отклика. Обычно необходимо использовать 'ResponseVar' при подборе кривой таблице или массиву набора данных tbl.

Например, можно задать четвертую переменную, сказать yield, как ответ из шести переменных, одним из следующих способов.

Пример: 'ResponseVar','yield'

Пример: 'ResponseVar',[4]

Пример: 'ResponseVar',logical([0 0 0 1 0 0])

Типы данных: single | double | logical | char | string

`Upper` — Спецификация модели, описывающая самый большой набор терминов в подгонке
`'interactions'` (значение по умолчанию) | вектор символов | строковый скаляр | называет матрицу

Спецификация модели, описывающая самый большой набор терминов в подгонке в виде разделенной запятой пары, состоящей из 'Upper' и одна из опций для modelspec именование модели.

Пример: 'Upper','quadratic'

`VarNames` — Имена переменных
`{'x1','x2',...,'xn','y'}` (значение по умолчанию) | массив строк | массив ячеек из символьных векторов

Имена переменных в виде разделенной запятой пары, состоящей из 'VarNames' и массив строк или массив ячеек из символьных векторов включая имена для столбцов X во-первых, и имя для переменной отклика y в последний раз.

'VarNames' не применимо к переменным в таблице или массиве набора данных, потому что те переменные уже имеют имена.

Имена переменных не должны быть допустимыми идентификаторами MATLAB. Однако, если имена не допустимы, вы не можете использовать формулу, когда вы соответствуете или настраиваете модель; например:

Вы не можете использовать формулу, чтобы задать термины, чтобы добавить или удалить, когда вы используете addTerms функционируйте или removeTerms функция, соответственно.
Вы не можете использовать формулу, чтобы задать нижние и верхние границы модели, когда вы используете step или stepwiseglm функция с аргументами пары "имя-значение" 'Lower' и 'Upper', соответственно.

Прежде, чем задать 'VarNames',varNames, можно проверить имена переменных в varNames при помощи isvarname функция. Если имена переменных не допустимы, то можно преобразовать их при помощи matlab.lang.makeValidName функция.

Пример: 'VarNames',{'Horsepower','Acceleration','Model_Year','MPG'}

Типы данных: string | cell

`Verbose` — Управляйте для отображения информации
1 (значение по умолчанию) | `0`| 2

Управляйте для отображения информации в виде разделенной запятой пары, состоящей из 'Verbose' и одно из этих значений:

0 — Подавите все отображение.
1 — Отобразите меры, принятые на каждом шаге.
2 — Отобразите процесс оценки и меры, принятые на каждом шаге.

Пример: 'Verbose',2

`Weights` — Веса наблюдения
`ones(n,1)` (значение по умолчанию) | n-by-1 вектор из неотрицательных скалярных значений

Веса наблюдения в виде разделенной запятой пары, состоящей из 'Weights' и n-by-1 вектор из неотрицательных скалярных значений, где n является количеством наблюдений.

Типы данных: single | double

Выходные аргументы

свернуть все

`mdl` — Обобщенная линейная модель регрессии
`GeneralizedLinearModel` объект

Обобщенная линейная модель регрессии в виде GeneralizedLinearModel объект создал использование fitglm или stepwiseglm.

Больше о

свернуть все

Матрица условий

Матрица терминов T t (p + 1) матричные термины определения в модели, где t является количеством терминов, p является количеством переменных предикторов и +1 счетом на переменную отклика. Значение T(i,j) экспонента переменной j в термине i.

Например, предположите, что вход включает три переменных предиктора x1x2 , и x3 и переменная отклика y в порядке x1x2 , x3, и y. Каждая строка T представляет один термин:

[0 0 0 0] — Постоянный термин или точка пересечения
[0 1 0 0] x2 ; эквивалентно, x1^0 * x2^1 * x3^0
[1 0 1 0] — x1*x3
[2 0 0 0] — x1^2
[0 1 2 0] — x2*(x3^2)

0 в конце каждого термина представляет переменную отклика. В общем случае вектор-столбец из нулей в матрице терминов представляет положение переменной отклика. Если у вас есть переменные прогноза и переменные отклика в матрице и вектор-столбце, то необходимо включать 0 для переменной отклика в последнем столбце каждой строки.

Формула

Формула для спецификации модели является вектором символов или строковым скаляром формы 'y ~ terms'.

y имя ответа.
terms представляет термины предиктора в модели с помощью обозначения Уилкинсона.

Чтобы представлять переменные прогноза и переменные отклика, используйте имена переменных табличного входа tbl или имена переменных заданы при помощи VarNames. Значение по умолчанию VarNames {'x1','x2',...,'xn','y'}.

Например:

'y ~ x1 + x2 + x3' задает линейную модель с тремя переменными с точкой пересечения.
'y ~ x1 + x2 + x3 – 1' задает линейную модель с тремя переменными без точки пересечения. Обратите внимание на то, что формулы включают константу (точка пересечения) термин по умолчанию. Чтобы исключить постоянный термин из модели, необходимо включать –1 в формуле.

Формула включает постоянный термин, если вы явным образом не удаляете термин с помощью –1.

Обозначение Уилкинсона

Обозначение Уилкинсона описывает термины, существующие в модели. Обозначение относится к терминам, существующим в модели, не ко множителям (коэффициенты) тех терминов.

Обозначение Уилкинсона использует эти символы:

+ средние значения включают следующую переменную.
– средние значения не включают следующую переменную.
: задает взаимодействие, которое является продуктом терминов.
* задает взаимодействие и все термины более низкоуровневые.
^ возводит предиктор в степень, точно так же, как в * повторный, таким образом, ^ включает термины более низкоуровневые также.
() термины групп.

Эта таблица показывает типичные примеры обозначения Уилкинсона.

Обозначение Уилкинсона	Условия в стандартном обозначении
1	Постоянный (точка пересечения) термин
`x1^k`, где `k` положительное целое число	`x1x1 ²x1 ^k`
`x1 + x2`	`x1x2`
`x1*x2`	`x1x2` `x1, x2`
`x1:x2`	`x1*x2` только
`–x2`	Не включайте `x2`
`x1*x2 + x3`	`x1x2` , `x3x1, x2`
`x1 + x2 + x3 + x1:x2`	`x1x2` , `x3x1, x2`
`x1x2x3 – x1:x2:x3`	`x1x2` , `x3x1, x2` , `x1x3`, `x2x3`
`x1*(x2 + x3)`	`x1x2` , `x3x1, x2` , `x1*x3`

Для получения дополнительной информации смотрите Обозначение Уилкинсона.

Каноническая функция

Функцией ссылки по умолчанию для обобщенной линейной модели является canonical link function.

Распределение	Каноническое имя функции ссылки	Функция ссылки	Средняя (обратная) функция
`'normal'`	`'identity'`	f (μ) = μ	μ = Xb
`'binomial'`	`'logit'`	f (μ) = журнал (μ / (1 – μ))	μ = exp (Xb) / (1 + exp (Xb))
`'poisson'`	`'log'`	f (μ) = журнал (μ)	μ = exp (Xb)
`'gamma'`	-1	f (μ) = 1/μ	μ = 1 / (Xb)
`'inverse gaussian'`	-2	f (μ) = 1/μ²	μ = (Xb)^–1/2

Советы

Обобщенная линейная модель mdl стандартная линейная модель, если вы не задаете в противном случае с Distribution пара "имя-значение".
Для других методов, таких как devianceTest, или свойства GeneralizedLinearModel возразите, смотрите GeneralizedLinearModel.
После обучения модель можно сгенерировать код C/C++, который предсказывает ответы для новых данных. Генерация кода C/C++ требует MATLAB Coder™. Для получения дополнительной информации смотрите Введение в Генерацию кода.

Алгоритмы

Stepwise regression является систематическим методом для добавления и удаления терминов от линейного или обобщенного линейного, основанного на модели на их статистическом значении в объяснении переменной отклика. Метод начинается с первоначальной модели, заданное использование modelspec, и затем сравнивает объяснительную силу инкрементно больших и меньших моделей.
stepwiseglm функционируйте использование прямая и обратная ступенчатая регрессия, чтобы определить итоговую модель. На каждом шаге функция ищет термины, чтобы добавить к модели или удалить из основанного на модели на значении 'Criterion' аргумент пары "имя-значение".
Значение по умолчанию 'Criterion' для линейной регрессии моделью является 'sse'. В этом случае, stepwiselm и step из LinearModel используйте p - значение F - статистическая величина к тестовым моделям с и без потенциального термина на каждом шаге. Если бы термин не находится в настоящее время в модели, нулевая гипотеза - то, что термин имел бы нулевой коэффициент, если добавлено к модели. Если существуют достаточные доказательства, чтобы отклонить нулевую гипотезу, функция добавляет термин в модель. С другой стороны, если термин находится в настоящее время в модели, нулевая гипотеза - то, что термин имеет нулевой коэффициент. Если существуют недостаточные доказательства, чтобы отклонить нулевую гипотезу, функция удаляет термин из модели.
Ступенчатая регрессия делает эти шаги когда 'Criterion' 'sse':
1. Подбирайте первоначальную модель.
2. Исследуйте набор доступных терминов не в модели. Если какой-либо из терминов имеет p - значения меньше, чем допуск входа (то есть, если бы маловероятно, что термин имел бы нулевой коэффициент, если добавлено к модели), добавьте термин с самым маленьким p - значение и повторите этот шаг; в противном случае перейдите к шагу 3.
3. Если какой-либо из доступных членов в модели имеет p - значения, больше, чем выходной допуск (то есть, гипотеза нулевого коэффициента не может быть отклонена), удалите термин с самым большим p - значение и возвратитесь к шагу 2; в противном случае закончите процесс.
На любом этапе функция не добавит термин высшего порядка, если модель не будет также включать все термины более низкоуровневые, которые являются подмножествами термина высшего порядка. Например, функция не попытается добавить термин X1:X2^2 если оба X1 и X2^2 уже находятся в модели. Точно так же функция не удалит термины более низкоуровневые, которые являются подмножествами терминов высшего порядка, которые остаются в модели. Например, функция не попытается удалить X1 или X2^2 если X1:X2^2 остается в модели.
Значение по умолчанию 'Criterion' поскольку обобщенной линейной моделью является 'Deviance'. stepwiseglm и step из GeneralizedLinearModel выполните подобную процедуру для добавления или удаления терминов.
Можно задать другие критерии при помощи 'Criterion' аргумент пары "имя-значение". Например, можно задать изменение в значении критерия информации о Akaike, Байесового информационного критерия, R-squared или настроенного R-squared как критерий, чтобы добавить или удалить термины.
В зависимости от терминов, включенных в первоначальную модель и порядок, в котором функция добавляет и удаляет термины, функциональная сила создает различные модели от того же набора потенциальных терминов. Функция завершает работу, когда никакой один шаг не улучшает модель. Однако различная первоначальная модель или различная последовательность шагов не гарантируют лучшую подгонку. В этом смысле пошаговые модели локально оптимальны, но не могут быть глобально оптимальными.
stepwiseglm обрабатывает категориальный предиктор можно следующим образом:
- Модель с категориальным предиктором, который имеет уровни L (категории), включает переменные индикатора L - 1. Модель использует первую категорию в качестве контрольного уровня, таким образом, это не включает переменную индикатора для контрольного уровня. Если типом данных категориального предиктора является categorical, затем можно проверять порядок категорий при помощи categories и переупорядочьте категории при помощи reordercats настроить контрольный уровень. Для получения дополнительной информации о создании переменных индикатора, смотрите Автоматическое Создание Фиктивных Переменных.
- stepwiseglm обрабатывает группу переменных индикатора L - 1 как одна переменная. Если вы хотите обработать переменные индикатора как отличные переменные предикторы, создайте переменные индикатора вручную при помощи dummyvar. Затем используйте переменные индикатора, кроме той, соответствующей контрольному уровню категориальной переменной, когда вы подберете модель. Для категориального предиктора X, если вы задаете все столбцы dummyvar(X) и термин точки пересечения как предикторы, затем матрица проекта становится неполным рангом.
- Периоды взаимодействия между непрерывным предиктором и категориальным предиктором с уровнями L состоят из поэлементного произведения переменных индикатора L - 1 с непрерывным предиктором.
- Периоды взаимодействия между двумя категориальными предикторами с L и уровнями M состоят из (L – 1) * переменные индикатора (M - 1), чтобы включать все возможные комбинации двух категориальных уровней предиктора.
- Вы не можете задать термины высшего порядка для категориального предиктора, потому что квадрат индикатора равен себе.
Поэтому, если stepwiseglm добавляет или удаляет категориальный предиктор, функция на самом деле добавляет или удаляет группу переменных индикатора за один шаг. Точно так же, если stepwiseglm добавляет или удаляет период взаимодействия с категориальным предиктором, функция на самом деле добавляет или удаляет группу периодов взаимодействия включая категориальный предиктор.
stepwiseglm рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в tblX, и Y быть отсутствующими значениями. stepwiseglm не использует наблюдения с отсутствующими значениями в подгонке. ObservationInfo свойство подобранной модели указывает действительно ли stepwiseglm использование каждое наблюдение в подгонке.

Альтернативы

Использование fitglm создать модель с фиксированной спецификацией. Используйте step, addTerms, или removeTerms настраивать подобранную модель.

Ссылки

[1] Collett, D. Моделирование двоичных данных. Нью-Йорк: Chapman & Hall, 2002.

[2] Добсон, A. J. Введение в обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[3] Маккуллаг, P. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

Темы

Введенный в R2013b

Документация

stepwiseglm

Синтаксис

Описание

Примеры

Обобщенная линейная модель Используя пошаговый алгоритм

Входные параметры

tbl — Входные данные таблица | массив набора данных

X — Переменные предикторы матрица

y — Переменная отклика вектор | матрица

Аргументы name-value

BinomialSize — Количество испытаний за биномиальное распределение 1 (значение по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

CategoricalVars — Категориальный список переменных массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

Criterion — Критерий, чтобы добавить или удалить термины 'Deviance' (значение по умолчанию) | 'sse' | 'aic' | 'bic' | 'rsquared' | 'adjrsquared'

DispersionFlag — Индикатор, чтобы вычислить дисперсионный параметр false для 'binomial' и 'poisson' распределения (значение по умолчанию) | true

Distribution — Распределение переменной отклика 'normal' (значение по умолчанию) | 'binomial' | 'poisson' | 'gamma' | 'inverse gaussian'

Exclude — Наблюдения, чтобы исключить логический или числовой вектор индекса

Intercept — Индикатор для постоянного термина true (значение по умолчанию) | false

Link — Функция ссылки каноническая функция ссылки (значение по умолчанию) | скалярное значение | структура

NSteps — Максимальное количество шагов, чтобы взять никакой предел (значение по умолчанию) | положительное целое число

Offset — Переменная Offset [] (значение по умолчанию) | числовой вектор | вектор символов | строковый скаляр

PEnter — Порог для критерия, чтобы добавить термин скалярное значение

PredictorVars — Переменные предикторы массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

PRemove — Порог для критерия, чтобы удалить термин скалярное значение

VarNames — Имена переменных {'x1','x2',...,'xn','y'} (значение по умолчанию) | массив строк | массив ячеек из символьных векторов

Verbose — Управляйте для отображения информации1 (значение по умолчанию) | 0| 2

Weights — Веса наблюдения ones(n,1) (значение по умолчанию) | n-by-1 вектор из неотрицательных скалярных значений

Выходные аргументы

mdl — Обобщенная линейная модель регрессии GeneralizedLinearModel объект

Больше о

Матрица условий

Формула

Обозначение Уилкинсона

Каноническая функция

Советы

Алгоритмы

Альтернативы

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`tbl` — Входные данные
таблица | массив набора данных

`X` — Переменные предикторы
матрица

`y` — Переменная отклика
вектор | матрица

`BinomialSize` — Количество испытаний за биномиальное распределение
1 (значение по умолчанию) | числовой скаляр | числовой вектор | вектор символов | строковый скаляр

`CategoricalVars` — Категориальный список переменных
массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

`Criterion` — Критерий, чтобы добавить или удалить термины
`'Deviance'` (значение по умолчанию) | `'sse'` | `'aic'` | `'bic'` | `'rsquared'` | `'adjrsquared'`

`DispersionFlag` — Индикатор, чтобы вычислить дисперсионный параметр
`false` для `'binomial'` и `'poisson'` распределения (значение по умолчанию) | `true`

`Distribution` — Распределение переменной отклика
`'normal'` (значение по умолчанию) | `'binomial'` | `'poisson'` | `'gamma'` | `'inverse gaussian'`

`Exclude` — Наблюдения, чтобы исключить
логический или числовой вектор индекса

`Intercept` — Индикатор для постоянного термина
`true` (значение по умолчанию) | `false`

`Link` — Функция ссылки
каноническая функция ссылки (значение по умолчанию) | скалярное значение | структура

`NSteps` — Максимальное количество шагов, чтобы взять
никакой предел (значение по умолчанию) | положительное целое число

`Offset` — Переменная Offset
[] (значение по умолчанию) | числовой вектор | вектор символов | строковый скаляр

`PEnter` — Порог для критерия, чтобы добавить термин
скалярное значение

`PredictorVars` — Переменные предикторы
массив строк | массив ячеек из символьных векторов | логический или числовой вектор индекса

`PRemove` — Порог для критерия, чтобы удалить термин
скалярное значение

`VarNames` — Имена переменных
`{'x1','x2',...,'xn','y'}` (значение по умолчанию) | массив строк | массив ячеек из символьных векторов

`Verbose` — Управляйте для отображения информации
1 (значение по умолчанию) | `0`| 2

`Weights` — Веса наблюдения
`ones(n,1)` (значение по умолчанию) | n-by-1 вектор из неотрицательных скалярных значений

`mdl` — Обобщенная линейная модель регрессии
`GeneralizedLinearModel` объект