GeneralizedLinearMixedModel class

Обобщенный линейный класс модели смешанных эффектов

Описание

GeneralizedLinearMixedModel объект представляет модель регрессии переменной отклика, которая содержит и зафиксированные и случайные эффекты. Объект включает данные, описание модели, подходящие коэффициенты, параметры ковариации, матрицы проекта, остаточные значения, остаточные графики и другую диагностическую информацию для модели обобщенных линейных смешанных эффектов (GLME). Можно предсказать ответы модели с predict функционируйте и сгенерируйте случайные данные в новых точках проекта с помощью random функция.

Конструкция

Можно подбирать модель обобщенных линейных смешанных эффектов (GLME) к использованию выборочных данных fitglme(tbl,formula). Для получения дополнительной информации смотрите fitglme.

Входные параметры

развернуть все

Входные данные, который включает переменную отклика, переменные предикторы и сгруппированные переменные в виде массива набора данных или таблицы. Переменные предикторы могут быть непрерывными или сгруппированные переменные (см. Сгруппированные переменные). Необходимо задать модель для переменных с помощью formula.

Типы данных: table

Формула для спецификации модели в виде вектора символов или строкового скаляра формы 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'. Для полного описания смотрите Формулу.

Пример: 'y ~ treatment +(1|block)'

Свойства

развернуть все

Оценки коэффициентов фиксированных эффектов и связанной статистики, сохраненной как массив набора данных, который ссорится для каждого коэффициента и следующих столбцов:

  • Name — Имя коэффициента

  • Estimate — Предполагаемое содействующее значение

  • SE — Стандартная погрешность оценки

  • tStatt - статистическая величина для теста, что коэффициент равен 0

  • DF — Степени свободы сопоставлены со статистической величиной t

  • pValuep - значение для t - статистическая величина

  • Lower — Более низкий предел достоверности

  • Upper — Верхний предел достоверности

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку.

Используйте coefTest метод, чтобы выполнить другие тесты на коэффициентах.

Ковариация предполагаемого вектора фиксированных эффектов, сохраненного как матрица.

Типы данных: single | double

Имена коэффициентов фиксированных эффектов, сохраненных как массив ячеек из символьных векторов. Меткой для коэффициента постоянного термина является (Intercept). Метки для других коэффициентов указывают на термины, которые они умножают. Когда термин включает категориальный предиктор, метка также указывает на уровень того предиктора.

Типы данных: cell

Степени свободы для ошибки, сохраненной как положительное целочисленное значение. DFE количество наблюдений минус количество предполагаемых коэффициентов.

DFE содержит степени свободы, соответствующие 'Residual' метод вычисления степеней свободы знаменателя для гипотезы тестирует на коэффициентах фиксированных эффектов. Если n является количеством наблюдений, и p является количеством коэффициентов фиксированных эффектов, то DFE равно np.

Типы данных: double

Дисперсионный параметр модели, сохраненный как скалярное значение. Дисперсионный параметр задает условное отклонение ответа.

Для наблюдения i, условное отклонение ответа y i, учитывая условное среднее значение μi и дисперсионный параметр σ2, в обобщенная линейная модель смешанных эффектов

var(yi|μi,σ2)=σ2wiv(μi),

где w, i - i th вес наблюдения и v, является функцией отклонения для заданного условного распределения ответа. Dispersion свойство содержит оценку σ2 для заданной модели GLME. Значение Dispersion зависит от заданного условного распределения ответа. Для бинома и распределений Пуассона, теоретического значения Dispersion равно σ2 = 1.0.

  • Если FitMethod MPL или REMPL и 'DispersionFlag' аргумент пары "имя-значение" в fitglme true, затем дисперсионный параметр оценивается из данных для всех распределений, включая распределения Пуассона и бином.

  • Если FitMethod ApproximateLaplace или Laplace, затем 'DispersionFlag' аргумент пары "имя-значение" в fitglme не применяется, и дисперсионный параметр фиксируется в 1,0 для распределений Пуассона и бинома. Для всех других распределений, Dispersion оценивается из данных.

Типы данных: double

Отметьте указание на предполагаемый дисперсионный параметр, сохраненный как логическое значение.

  • Если FitMethod ApproximateLaplace или Laplace, затем дисперсионный параметр фиксируется в его теоретическом значении 1,0 для бинома и распределений Пуассона и DispersionEstimated false. Для других распределений дисперсионный параметр оценивается из данных и DispersionEstimated true.

  • Если FitMethod MPL или REMPL, и 'DispersionFlag' аргумент пары "имя-значение" в fitglme задан как true, затем дисперсионный параметр оценивается для всех распределений, включая бином и распределения Пуассона и DispersionEstimated true.

  • Если FitMethod MPL или REMPL, и 'DispersionFlag' аргумент пары "имя-значение" в fitglme задан как false, затем дисперсионный параметр фиксируется в его теоретическом значении для бинома и распределений Пуассона и DispersionEstimated false. Для распределений кроме бинома и Пуассона, дисперсионный параметр оценивается из данных и DispersionEstimated true.

Типы данных: логический

Имя распределения ответа, сохраненное как одно из следующего:

  • 'Normal' — Нормальное распределение

  • 'Binomial' — Биномиальное распределение

  • 'Poisson' — Распределение Пуассона

  • 'Gamma' — Гамма распределение

  • 'InverseGaussian' — Обратное Распределение Гаусса

Метод раньше подбирал модель, сохраненную как одно из следующих.

  • 'MPL' — Максимальная псевдо вероятность

  • 'REMPL' — Ограниченная максимальная псевдо вероятность

  • 'ApproximateLaplace' — Наибольшее правдоподобие с помощью аппроксимированного метода Лапласа, с фиксированными эффектами, профилируемыми

  • 'Laplace' — Наибольшее правдоподобие с помощью метода Лапласа

Формула спецификации модели, сохраненная как объект. Формула спецификации модели использует обозначение Уилкинсона, чтобы описать отношение между терминами фиксированных эффектов, терминами случайных эффектов и сгруппированными переменными в модели GLME. Для получения дополнительной информации смотрите Формулу.

Журнал функции правдоподобия оценен в предполагаемых содействующих значениях, сохраненных как скалярное значение. LogLikelihood зависит от метода, используемого, чтобы подбирать модель.

  • Если вы используете 'Laplace' или 'ApproximateLaplace', затем LogLikelihood максимизируемая логарифмическая вероятность.

  • Если вы используете 'MPL', затем LogLikelihood максимизируемая логарифмическая вероятность псевдо данных из итоговой псевдо итерации вероятности.

  • Если вы используете 'REMPL', затем LogLikelihood максимизируемая ограниченная логарифмическая вероятность псевдо данных из итоговой псевдо итерации вероятности.

Типы данных: double

Критерий модели, чтобы выдержать сравнение подбирал обобщенные линейные модели смешанных эффектов, сохраненные как таблица следующими полями.

Поле Описание
AICКритерий информации о Akaike
BICБайесов информационный критерий
LogLikelihood
  • Для подгонки модели с помощью 'Laplace' или 'ApproximateLaplace', LogLikelihood максимизируемая логарифмическая вероятность.

  • Для подгонки модели с помощью 'MPL', LogLikelihood максимизируемая логарифмическая вероятность псевдо данных из итоговой псевдо итерации вероятности.

  • Для подгонки модели с помощью 'REMPL', LogLikelihood максимизируемая ограниченная логарифмическая вероятность псевдо данных из итоговой псевдо итерации вероятности.

Deviance– 2 раза LogLikelihood

Количество коэффициентов фиксированных эффектов в подбиравшей обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Количество предполагаемых коэффициентов фиксированных эффектов в подбиравшей обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Количество наблюдений используется в подгонке, сохраненной как положительное целочисленное значение. NumObservations количество строк в таблице или массиве набора данных tbl, минус строки, исключенные с помощью 'Exclude' пара "имя-значение" fitglme или строки, содержащие NaN значения.

Типы данных: double

Количество переменных, используемых в качестве предикторов в обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Общее количество переменных, включая ответ и предикторы, сохраненные как положительное целочисленное значение. Если выборочные данные находятся в таблице или массиве набора данных tbl, затем NumVariables общее количество переменных в tbl, включая переменную отклика. NumVariables включает переменные, если таковые имеются, которые не используются в качестве предикторов или в качестве ответа.

Типы данных: double

Информация о наблюдениях, используемых в подгонке, сохраненной как таблица.

ObservationInfo ссорится для каждого наблюдения и следующих столбцов.

ИмяОписание
WeightsЗначение веса для наблюдения. Значение по умолчанию равняется 1.
ExcludedЕсли наблюдение было исключено из подгонки с помощью 'Exclude' аргумент пары "имя-значение" в fitglme, затем Excluded true, или 1. В противном случае, Excluded false, или 0.
Missing

Если наблюдение было исключено из подгонки, потому что любое значение ответа или предиктора отсутствует, то Missing true. В противном случае, Missing false.

Отсутствующие значения включают NaN для числовых переменных, пустых ячеек для массивов ячеек, пустых строк для символьных массивов и <undefined> значение для категориальных массивов.

SubsetЕсли наблюдение использовалось в подгонке, то Subset true. Если наблюдение не использовалось в подгонке, потому что это отсутствует или исключенное, то Subset false.
BinomSizeБиномиальный размер для каждого наблюдения. Этот столбец только применяется при подборе кривой биномиальному распределению.

Типы данных: table

Имена наблюдений используются в подгонке, сохраненной как массив ячеек из символьных векторов.

  • Если данные находятся в таблице или массиве набора данных tbl это содержит имена наблюдения, затем ObservationNames использование те имена.

  • Если данные обеспечиваются в матрицах, или в таблице или массиве набора данных без имен наблюдения, то ObservationNames массив пустой ячейки.

Типы данных: cell

Имена переменных, используемых в качестве предикторов в подгонке, сохраненной как массив ячеек из символьных векторов, который имеет ту же длину как NumPredictors.

Типы данных: cell

Имя переменной, используемой в качестве переменной отклика в подгонке, сохраненной как вектор символов.

Типы данных: char

Пропорция изменчивости в ответе, объясненном подобранной моделью, сохраненной как структура. Rsquared содержит R - значение в квадрате подобранной модели, также известной как коэффициент кратной корреляции. Rsquared содержит следующие поля.

Поле Описание
OrdinaryЗначение R-squared, сохраненное как скалярное значение в структуре.
Rsquared.Ordinary = 1 — SSE./SST
AdjustedЗначение R-squared, настроенное для количества коэффициентов фиксированных эффектов, сохраненных как скалярное значение в структуре.
Rsquared.Adjusted = 1 — (SSE./SST)*(DFT./DFE),
где DFE = n – p, DFT = n – 1N общее количество наблюдений и p количество коэффициентов фиксированных эффектов.

Типы данных: struct

Ошибочная сумма квадратов, сохраненная как значение положительной скалярной величины. SSE взвешенная сумма условных остаточных значений в квадрате и вычисляется как

SSE=i=1nwieff(yifi)2,

где n является количеством наблюдений, wieff i th эффективный вес, yi является i th ответ, и fi является i th адаптированное значение.

i th эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где vi является термином отклонения для i th наблюдение, β^ и b^ ориентировочные стоимости β и b, соответственно.

i th адаптированное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xiT i th, строка фиксированных эффектов проектируют матричный X и ziT i th, строка случайных эффектов проектируют матричный Z. δi является i th значение смещения.

Типы данных: double

Сумма квадратов регрессии, сохраненная как значение положительной скалярной величины. SSR сумма квадратов, объясненная обобщенной линейной регрессией смешанных эффектов, или эквивалентно взвешенная сумма отклонений в квадрате условного выражения соответствовала значениям от их взвешенного среднего. SSR вычисляется как

SSR=i=1Nwieff(fif¯)2,

где n является количеством наблюдений, wieff i th эффективный вес, fi является i th адаптированное значение, и f¯ взвешенное среднее подходящих значений.

i th эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где β^ и b^ ориентировочные стоимости β и b, соответственно.

i th адаптированное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xiT i th, строка фиксированных эффектов проектируют матричный X и ziT i th, строка случайных эффектов проектируют матричный Z. δi является i th значение смещения.

Взвешенное среднее подходящих значений вычисляется как

f¯=[i=1nwiefffi]i=1nwieff.

Типы данных: double

Полная сумма квадратов, сохраненных как значение положительной скалярной величины. Для модели GLME, SST задан как SST = SSE + SSR.

Типы данных: double

Информация о переменных, используемых в подгонке, сохраненной как таблица. VariableInfo ссорится для каждой переменной и содержит следующие столбцы.

ColumnName Описание
ClassКласс переменной ('double'ячейка, 'nominal', и так далее).
Range

Диапазон значений переменной.

  • Для числовой переменной, Range двухэлементный вектор из формы [min,max].

  • Для ячейки или категориальной переменной, Range массив ячеек или категориальный массив, содержащий все уникальные значения переменной.

InModel

Если переменная является предиктором в подобранной модели, InModel true.

Если переменная не находится в подобранной модели, InModel false.

IsCategorical

Если тип переменной обработан как категориальный предиктор (такой как ячейка, логическая, или категориальная), то IsCategorical true.

Если переменная является непрерывным предиктором, то IsCategorical false.

Типы данных: table

Имена всех переменных содержали в таблице или массиве набора данных tbl, сохраненный как массив ячеек из символьных векторов.

Типы данных: cell

Переменные, сохраненные как таблица. Если подгонка основана на таблице или массиве набора данных tbl, затем Variables идентично tbl.

Типы данных: table

Функции объекта

anovaДисперсионный анализ для обобщенной линейной модели смешанных эффектов
coefCIДоверительные интервалы для коэффициентов обобщенной линейной модели смешанных эффектов
coefTestТест гипотезы на фиксированных и случайных эффектах обобщенной линейной модели смешанных эффектов
compareСравните обобщенные линейные модели смешанных эффектов
covarianceParametersИзвлеките параметры ковариации обобщенной линейной модели смешанных эффектов
designMatrixМатрицы, построенные на основе фиксированных или случайных эффектов
fittedПодходящие ответы из обобщенной линейной модели смешанных эффектов
fixedEffectsОценки фиксированных эффектов и связанной статистики
partialDependenceВычислите частичную зависимость
plotPartialDependenceСоздайте графики отдельного условного ожидания (ICE) и частичный график зависимости (PDP)
plotResidualsПостройте остаточные значения обобщенной линейной модели смешанных эффектов
predictПредскажите ответ обобщенной линейной модели смешанных эффектов
randomСгенерируйте случайные ответы из подбиравшей обобщенной линейной модели смешанных эффектов
randomEffectsОценки случайных эффектов и связанной статистики
refit Переоборудуйте обобщенную линейную модель смешанных эффектов
residualsОстаточные значения подбиравшей обобщенной линейной модели смешанных эффектов
responseВектор отклика обобщенной линейной модели смешанных эффектов

Примеры

свернуть все

Загрузите выборочные данные.

load mfr

Эти симулированные данные от компании-производителя, которая управляет 50 фабриками во всем мире с каждой фабрикой, запускающей процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала следующие данные:

  • Отметьте, чтобы указать, использовал ли пакет новый процесс (newprocess)

  • Время вычислений для каждого пакета, в часах (time)

  • Температура пакета, в градусах Цельсия (temp)

  • Категориальная переменная, указывающая на поставщика (AB, или C) из химиката, используемого в пакете (supplier)

  • Количество дефектов в пакете (defects)

Данные также включают time_dev и temp_dev, которые представляют абсолютное отклонение времени и температуры, соответственно, из стандарта процесса 3 часов на уровне 20 градусов Цельсия.

Подбирайте обобщенную линейную модель смешанных эффектов использование newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Включайте термин случайных эффектов для точки пересечения, сгруппированной factory, с учетом качественных различий, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона, и соответствующая функция ссылки для этой модели является журналом. Используйте подходящий метод Лапласа, чтобы оценить коэффициенты. Задайте фиктивную переменную, кодирующую как 'effects', таким образом, фиктивные переменные коэффициенты суммируют к 0.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

defectsijПуассон(μij)

Это соответствует обобщенной линейной модели смешанных эффектов

log(μij)=β0+β1newprocessij+β2time_devij+β3temp_devij+β4supplier_Cij+β5supplier_Bij+bi,

где

  • defectsij количество дефектов, наблюдаемых в пакете, произведенном фабрикой i во время пакета j.

  • μij среднее количество дефектов, соответствующих фабрике i (где i=1,2,...,20) во время пакета j (где j=1,2,...,5).

  • newprocessij, time_devij, и temp_devij измерения для каждой переменной, которые соответствуют фабрике i во время пакета j. Например, newprocessij указывает ли пакет, произведенный фабрикой i во время пакета j используемый новый процесс.

  • supplier_Cij и supplier_Bij фиктивные переменные, которые используют эффекты (сумма к нулю) кодирование, чтобы указать ли компания C или B, соответственно, предоставленный химикаты процесса для пакета производятся фабрикой i во время пакета j.

  • biN(0,σb2) точка пересечения случайных эффектов для каждой фабрики i это составляет специфичное для фабрики изменение по качеству.

glme = fitglme(mfr,'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)', ...
    'Distribution','Poisson','Link','log','FitMethod','Laplace','DummyVarCoding','effects');

Отобразите модель.

disp(glme)
Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                   Estimate     SE          tStat       DF    pValue    
    {'(Intercept)'}           1.4689     0.15988      9.1875    94    9.8194e-15
    {'newprocess' }         -0.36766     0.17755     -2.0708    94      0.041122
    {'time_dev'   }        -0.094521     0.82849    -0.11409    94       0.90941
    {'temp_dev'   }         -0.28317      0.9617    -0.29444    94       0.76907
    {'supplier_C' }        -0.071868    0.078024     -0.9211    94       0.35936
    {'supplier_B' }         0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                  Name2                  Type           Estimate
    {'(Intercept)'}        {'(Intercept)'}        {'std'}        0.31381 

Group: Error
    Name                        Estimate
    {'sqrt(Dispersion)'}        1       

Model information таблица показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет Poisson распределение, функцией ссылки является Log, и подходящим методом является Laplace.

Formula указывает на спецификацию модели с помощью обозначения Уилкинсона.

Model fit statistics табличная статистика отображений раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC), Байесов информационный критерий (BIC) значения, логарифмическая вероятность (LogLikelihood), и отклонение (DevianceЗначения.

Fixed effects coefficients таблица показывает тот fitglme возвращенные 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate) содержит его ориентировочную стоимость и столбец 3 (SE) содержит стандартную погрешность коэффициента. Столбец 4 (tStat) содержит t- статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержите степени свободы и p- значение, которые соответствуют t- статистическая величина, соответственно. Последние два столбца (Lower и Upper) отобразите нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой сгруппированной переменной (здесь, только factory), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std указывает на тот fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.

Стандартное отображение сгенерировано fitglme не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Больше о

развернуть все