fitglm

Создайте обобщенную модель линейной регрессии

Синтаксис

mdl = fitglm(tbl)
mdl = fitglm(X,y)
mdl = fitglm(___,modelspec)
mdl = fitglm(___,Name,Value)

Описание

пример

mdl = fitglm(tbl) возвращает обобщенную линейную образцовую подгонку к переменным в таблице или массиве набора данных tbl. По умолчанию fitglm берет последнюю переменную в качестве переменной отклика.

пример

mdl = fitglm(X,y) возвращает обобщенную линейную модель ответов y, подгонка к матрице данных X.

пример

mdl = fitglm(___,modelspec) возвращает обобщенную линейную модель типа, который вы задаете в modelspec.

пример

mdl = fitglm(___,Name,Value) возвращает обобщенную линейную модель с дополнительными опциями, заданными одним или несколькими аргументами пары Name,Value.

Например, можно задать, который переменные являются категориальными, распределение переменной отклика и функция ссылки, чтобы использовать.

Примеры

свернуть все

Сделайте логистическую биномиальную модель из вероятности курения как функция возраста, веса и пола, с помощью двухсторонней модели взаимодействий.

Загрузите массив набора данных hospital.

load hospital
dsa = hospital;

Задайте модель с помощью формулы, которая позволяет до двухсторонних взаимодействий между возрастом переменных, весом и полом. Курильщик является переменной отклика.

modelspec = 'Smoker ~ Age*Weight*Sex - Age:Weight:Sex';

Соответствуйте логистической биномиальной модели.

mdl = fitglm(dsa,modelspec,'Distribution','binomial')
mdl = 
Generalized linear regression model:
    logit(Smoker) ~ 1 + Sex*Age + Sex*Weight + Age*Weight
    Distribution = Binomial

Estimated Coefficients:
                        Estimate         SE         tStat      pValue 
                       ___________    _________    ________    _______

    (Intercept)            -6.0492       19.749     -0.3063    0.75938
    Sex_Male               -2.2859       12.424    -0.18399    0.85402
    Age                    0.11691      0.50977     0.22934    0.81861
    Weight                0.031109      0.15208     0.20455    0.83792
    Sex_Male:Age          0.020734      0.20681     0.10025    0.92014
    Sex_Male:Weight        0.01216     0.053168     0.22871     0.8191
    Age:Weight         -0.00071959    0.0038964    -0.18468    0.85348


100 observations, 93 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 5.07, p-value = 0.535

Все p-значения (под pValue) являются большими. Это означает, что ни один из коэффициентов не является значительным. Большое p- значение для теста модели, 0.535, указывает, что эта сила модели не отличается статистически от постоянной модели.

Создайте выборочные данные с 20 предикторами и ответ Пуассона, использующий всего три из предикторов, плюс константа.

rng('default') % for reproducibility
X = randn(100,7);
mu = exp(X(:,[1 3 6])*[.4;.2;.3] + 1);
y = poissrnd(mu);

Соответствуйте обобщенной линейной модели с помощью распределения Пуассона.

mdl =  fitglm(X,y,'linear','Distribution','poisson')
mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x1 + x2 + x3 + x4 + x5 + x6 + x7
    Distribution = Poisson

Estimated Coefficients:
                   Estimate        SE        tStat        pValue  
                   _________    ________    ________    __________

    (Intercept)      0.88723    0.070969      12.502    7.3149e-36
    x1               0.44413    0.052337      8.4858    2.1416e-17
    x2             0.0083388    0.056527     0.14752       0.88272
    x3               0.21518    0.063416      3.3932    0.00069087
    x4             -0.058386    0.065503    -0.89135       0.37274
    x5             -0.060824    0.073441     -0.8282       0.40756
    x6               0.34267    0.056778      6.0352    1.5878e-09
    x7               0.04316     0.06146     0.70225       0.48252


100 observations, 92 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 119, p-value = 1.55e-22

p - значения 2.14e-17, 0.00069, и 1.58e-09 указывают что коэффициенты переменных x1, x3 и |x6|are, статистически значительного.

Входные параметры

свернуть все

Входные данные, заданные как таблица или массив набора данных. Когда modelspec является формулой, формула задает переменные прогноза и переменные отклика. В противном случае, если вы не задаете переменные прогноза и переменные отклика, последняя переменная в tbl является переменной отклика, и другие - переменные прогноза по умолчанию.

Переменные прогноза и переменная отклика могут быть числовыми, логическими, категориальными, символ или строка. Переменная отклика может иметь тип данных кроме числового, только если 'Distribution' является 'binomial'.

Чтобы установить различный столбец как переменную отклика, используйте аргумент пары "имя-значение" ResponseVar. Чтобы использовать подмножество столбцов как предикторы, используйте аргумент пары "имя-значение" PredictorVars.

Переменные прогноза, заданные как n-by-p матрица, где n является количеством наблюдений и p, являются количеством переменных прогноза. Каждый столбец X представляет одну переменную, и каждая строка представляет одно наблюдение.

По умолчанию существует постоянный член в модели, если вы явным образом не удаляете его, не включайте столбец 1 с в X.

Типы данных: single | double

Переменная отклика, заданная как n-by-1 вектор, где n является количеством наблюдений. Каждая запись в y является ответом для соответствующей строки X.

Типы данных: single | double | logical | categorical

Образцовая спецификация, которая является стартовой моделью для stepwiseglm, заданного как одно из следующего:

  • Вектор символов или скаляр строки именование модели.

    ЗначениеТип модели
    'constant'Модель содержит только константу (прерывание) термин.
    'linear'Модель содержит прерывание и линейный член для каждого предиктора.
    'interactions'Модель содержит прерывание, линейный член для каждого предиктора и все продукты пар отличных предикторов (никакие условия в квадрате).
    'purequadratic'Модель содержит термин прерывания и линейный и придает условиям квадратную форму для каждого предиктора.
    'quadratic'Модель содержит термин прерывания, линейный, и придает квадратную форму условиям для каждого предиктора и всем продуктам пар отличных предикторов.
    'polyijk'Модель является полиномом со всеми условиями до степени i в первом предикторе, степень j во втором предикторе, и так далее. Задайте максимальную степень для каждого предиктора при помощи цифр 0 хотя 9. Модель содержит периоды взаимодействия, но степень каждого периода взаимодействия не превышает максимальное значение заданных степеней. Например, 'poly13' имеет прерывание и x 1, x 2, x 22, x 23, x 1*x2, и x 1*x22 условия, где x 1 и x 2 является первыми и вторыми предикторами, соответственно.
  • t (p + 1) матрица или Матрица Условий, задавая члены в модели, где t является количеством условий и p, является количеством переменных прогноза и +1 счетом на переменную отклика. Матрица условий удобна, когда количество предикторов является большим, и вы хотите сгенерировать условия программно.

  • Вектор символов или скаляр строки представление Формулы в форме

    'Y ~ terms',

    где terms находится в Обозначении Уилкинсона.

Пример: 'quadratic'

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Distribution','normal','link','probit','Exclude',[23,59] указывает, что распределение ответа нормально, и сообщает, что fitglm, чтобы использовать ссылку пробита функционирует и исключает 23-и и 59-е наблюдения из подгонки.

Количество испытаний за биномиальное распределение, которое является объемом выборки, заданным как пара, разделенная запятой, состоящая из скалярного значения или вектор той же длины как ответ. Это - параметр n для подходящего биномиального распределения. BinomialSize применяется только, когда параметром Distribution является 'binomial'.

Если BinomialSize является скалярным значением, которое означает, что все наблюдения имеют то же количество испытаний.

Как альтернатива BinomialSize, можно задать ответ как 2D вектор-столбец с количествами в столбце 1 и BinomialSize в столбце 2.

Типы данных: single | double

Категориальный список переменных, заданный как пара, разделенная запятой, состоящая из 'CategoricalVars' и или массив строк или массив ячеек из символьных векторов, содержащий категориальные имена переменных в таблице или массиве набора данных tbl или логический или числовой индексный вектор указание, какие столбцы являются категориальными.

  • Если данные находятся в таблице или массиве набора данных tbl, то по умолчанию fitglm обрабатывает все категориальные значения, логические значения, символьные массивы, строковые массивы и массивы ячеек из символьных векторов как категориальные переменные.

  • Если данные находятся в матричном X, то значением по умолчанию 'CategoricalVars' является пустой матричный []. Таким образом, никакая переменная не является категориальной, если вы не задаете его как категориальный.

Например, можно задать наблюдения 2 и 3 из 6 как категориальное использование любого из следующих примеров.

Пример: 'CategoricalVars',[2,3]

Пример: 'CategoricalVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

Индикатор, чтобы вычислить дисперсионный параметр для 'binomial' и дистрибутивов 'poisson', заданных как пара, разделенная запятой, состоящая из 'DispersionFlag' и одно из следующих.

trueОцените дисперсионный параметр при вычислении стандартных погрешностей
falseЗначение по умолчанию. Используйте теоретическое значение при вычислении стандартных погрешностей

Подходящая функция всегда оценивает дисперсию для других дистрибутивов.

Пример: 'DispersionFlag',true

Распределение переменной отклика, заданной как пара, разделенная запятой, состоящая из 'Distribution' и одно из следующих.

'normal'Нормальное распределение
'binomial'Биномиальное распределение
'poisson'Распределение Пуассона
'gamma'Гамма распределение
'inverse gaussian'Обратное Распределение Гаусса

Пример: 'Distribution','gamma'

Наблюдения, чтобы исключить из подгонки, заданной как пара, разделенная запятой, состоящая из 'Exclude' и логического или числового индексного вектора указание, который наблюдения исключить из подгонки.

Например, можно исключить наблюдения 2 и 3 из 6 использований любого из следующих примеров.

Пример: 'Exclude',[2,3]

Пример: 'Exclude',logical([0 1 1 0 0 0])

Типы данных: single | double | logical

Индикатор для постоянного термина (прерывание) в подгонке, заданной как пара, разделенная запятой, состоящая из 'Intercept' и или true, чтобы включать или false, чтобы удалить постоянный термин из модели.

Используйте 'Intercept' только при определении модели с помощью вектора символов или представьте в виде строки скаляр, не формулу или матрицу.

Пример: 'Intercept',false

Сместите переменную в подгонке, заданной как пара, разделенная запятой, состоящая из 'Offset' и вектора или имени переменной с той же длиной как ответ.

fitglm использует Offset в качестве дополнительного предиктора с содействующим значением, зафиксированным в 1,0. Другими словами, формула для подбора кривой

f (μ) ~ Offset + (terms involving real predictors)

с предиктором Offset, имеющим коэффициент 1.

Например, рассмотрите модель регрессии Пуассона. Предположим, что количество количеств известно по теоретическим причинам быть пропорциональным предиктору A. При помощи логарифмической функции ссылки и путем определения log(A) как смещения, можно обеспечить модель, чтобы удовлетворить это теоретическое ограничение.

Типы данных: single | double | char | string

Переменные прогноза, чтобы использовать в подгонке, заданной как пара, разделенная запятой, состоящая из 'PredictorVars' и или массив строк или массив ячеек из символьных векторов имен переменных в таблице или массиве набора данных tbl или логический или числовой индексный вектор указание, какие столбцы являются переменными прогноза.

Значения строки или векторы символов должны быть среди имен в tbl или имен, вы задаете использование аргумента пары "имя-значение" 'VarNames'.

Значением по умолчанию являются все переменные в X или все переменные в tbl за исключением ResponseVar.

Например, можно задать вторые и третьи переменные как переменные прогноза с помощью любого из следующих примеров.

Пример: 'PredictorVars',[2,3]

Пример: 'PredictorVars',logical([0 1 1 0 0 0])

Типы данных: single | double | logical | string | cell

Переменная отклика, чтобы использовать в подгонке, заданной как пара, разделенная запятой, состоящая из 'ResponseVar' и или вектор символов или представить в виде строки скаляр, содержащий имя переменной в таблице или массиве набора данных tbl или логический или числовой индексный вектор указание, какой столбец является переменной отклика. Обычно необходимо использовать 'ResponseVar' при подборе кривой таблице или массиву набора данных tbl.

Например, можно задать четвертую переменную, сказать yield, как ответ из шести переменных, одним из следующих способов.

Пример: 'ResponseVar','yield'

Пример: 'ResponseVar',[4]

Пример: 'ResponseVar',logical([0 0 0 1 0 0])

Типы данных: single | double | logical | char | string

Имена переменных, заданных как пара, разделенная запятой, состоящая из 'VarNames' и массива строк или массива ячеек из символьных векторов включая имена для столбцов X сначала и имя для переменной отклика y в последний раз.

'VarNames' не применим к переменным в таблице или массиве набора данных, потому что те переменные уже имеют имена.

Например, если в ваших данных, лошадиная сила, ускорение, и модельный год автомобилей являются переменными прогноза, и мили на галлон (MPG) являются переменной отклика, то можно назвать переменные можно следующим образом.

Пример: 'VarNames',{'Horsepower','Acceleration','Model_Year','MPG'}

Типы данных: string | cell

Веса наблюдения, заданные как пара, разделенная запятой, состоящая из 'Weights' и n-by-1 вектор неотрицательных скалярных значений, где n является количеством наблюдений.

Типы данных: single | double

Выходные аргументы

свернуть все

Обобщенная линейная модель, представляющая припадок наименьших квадратов ссылки ответа на данные, возвращенные как объект GeneralizedLinearModel.

Для свойств и методов обобщенного линейного объекта модели, mdl, смотрите страницу класса GeneralizedLinearModel.

Больше о

свернуть все

Матрица условий

Матрица условий T является t (p + 1) матричные условия определения в модели, где t является количеством условий, p, является количеством переменных прогноза и +1 счетом на переменную отклика. Значение T(i,j) является экспонентой переменной j в термине i.

Например, предположите, что вход включает три переменные прогноза A, B, и C и переменная отклика Y в порядке A, B, C и Y. Каждая строка T представляет один термин:

  • [0 0 0 0] — Постоянный термин или прерывание

  • [0 1 0 0]B; эквивалентно, A^0 * B^1 * C^0

  • [1 0 1 0]A*C

  • [2 0 0 0]A^2

  • [0 1 2 0]B*(C^2)

0 в конце каждого термина представляет переменную отклика. В целом вектор-столбец из нулей в матрице условий представляет положение переменной отклика. Если у вас есть переменные прогноза и переменные отклика в матрице и вектор-столбце, то необходимо включать 0 для переменной отклика в последнем столбце каждой строки.

Формула

Формула для образцовой спецификации является вектором символов или скаляром строки формы 'Y ~ terms'.

  • Y является именем ответа.

  • terms представляет условия предиктора в модели с помощью обозначения Уилкинсона.

Например:

  • 'Y ~ A + B + C' задает линейную модель с тремя переменными с прерыванием.

  • 'Y ~ A + B + C – 1' задает линейную модель с тремя переменными без прерывания. Обратите внимание на то, что формулы включают константу (прерывание) термин по умолчанию. Чтобы исключить постоянный термин из модели, необходимо включать –1 в формулу.

Обозначение Уилкинсона

Обозначение Уилкинсона описывает условия, существующие в модели. Обозначение относится к условиям, существующим в модели, не ко множителям (коэффициенты) тех условий.

Обозначение Уилкинсона использует эти символы:

  • Средние значения + включают следующую переменную.

  • Средние значения не включают следующую переменную.

  • : задает взаимодействие, которое является продуктом условий.

  • * задает взаимодействие и все условия более низкоуровневые.

  • ^ возводит предиктор в степень, точно как в повторенном *, таким образом, ^ включает условия более низкоуровневые также.

  • Условия групп ().

Эта таблица показывает типичные примеры обозначения Уилкинсона.

Обозначение УилкинсонаТермин в стандартном обозначении
1Постоянный (прерывание) термин
A^k, где k является положительным целым числомA, A2..., Ak
A + BA, B
A*BA, B, A*B
A:BA*B только
–BНе включайте B
A*B + CA, B, C, A*B
A + B + C + A:BA, B, C, A*B
A*B*C – A:B:CA, B, C, A*B, A*C, B*C
A*(B + C)A, B, C, A*B, A*C

Обозначение Statistics and Machine Learning Toolbox™ всегда включает постоянный термин, если вы явным образом не удаляете термин с помощью –1.

Для получения дополнительной информации смотрите Обозначение Уилкинсона.

Каноническая функция ссылки

Функцией ссылки по умолчанию для обобщенной линейной модели является canonical link function.

Канонические функции ссылки для обобщенных линейных моделей

РаспределениеСоедините имя функцииФункция ссылкиСредняя (обратная) функция
'normal''identity'f (μ) = μμ = Xb
'binomial''logit'f (μ) = журнал (μ / (1–μ))μ = exp (Xb) / (1 + exp (Xb))
'poisson''log'f (μ) = журнал (μ)μ = exp (Xb)
'gamma'-1f (μ) = 1/μμ = 1 / (Xb)
'inverse gaussian'-2f (μ) = 1/μ2μ = (Xb) –1/2

Советы

  • Обобщенная линейная модель mdl является стандартной линейной моделью, если вы не задаете в противном случае с парой "имя-значение" Distribution.

  • Для методов, таких как plotResiduals или devianceTest или свойства объекта GeneralizedLinearModel, смотрите GeneralizedLinearModel.

  • После обучения модель можно сгенерировать код C/C++, который предсказывает ответы для новых данных. Генерация кода C/C++ требует MATLAB® Coder™. Для получения дополнительной информации смотрите Введение в Генерацию кода.

Алгоритмы

  • fitglm обрабатывает категориальный предиктор можно следующим образом:

    • Модель с категориальным предиктором, который имеет уровни L (категории), включает   переменные индикатора L - 1. Модель использует первую категорию в качестве контрольного уровня, таким образом, это не включает переменную индикатора для контрольного уровня. Если типом данных категориального предиктора является categorical, то можно проверять порядок категорий при помощи categories и переупорядочить категории при помощи reordercats, чтобы настроить контрольный уровень.

    • fitglm обрабатывает группу   переменных индикатора L - 1 как одна переменная. Если вы хотите обработать переменные индикатора как отличные переменные прогноза, создайте переменные индикатора вручную при помощи dummyvar. Затем используйте переменные индикатора, кроме той, соответствующей контрольному уровню категориальной переменной, когда вы подберете модель. Для категориального предиктора X, если вы задаете все столбцы dummyvar(X) и термина прерывания в качестве предикторов, затем матрица проекта, становится неполным рангом.

    • Периоды взаимодействия между непрерывным предиктором и категориальным предиктором с уровнями L состоят из поэлементного произведения   переменных индикатора L - 1 с непрерывным предиктором.

    • Периоды взаимодействия между двумя категориальными предикторами с L и уровнями M состоят из (L – 1) *   переменные индикатора (M - 1), чтобы включать все возможные комбинации двух категориальных уровней предиктора.

    • Вы не можете задать условия высшего порядка для категориального предиктора, потому что квадрат индикатора равен себе.

  • fitglm полагает, что NaN, '' (пустой символьный вектор), "" (пустая строка), <missing> и значения <undefined> в tbl, X и Y отсутствующие значения. fitglm не использует наблюдения с отсутствующими значениями в подгонке. Свойство ObservationInfo подобранной модели указывает, использует ли fitglm каждое наблюдение в подгонке.

Альтернативная функциональность

  • Используйте stepwiseglm, чтобы выбрать образцовую спецификацию автоматически. Используйте step, addTerms или removeTerms, чтобы настроить подобранную модель.

Ссылки

[1] Collett, D. Моделирование двоичных данных. Нью-Йорк: Chapman & Hall, 2002.

[2] Добсон, A. J. Введение в обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[3] Маккуллаг, P. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

Расширенные возможности

Введенный в R2013b