Класс GeneralizedLinearMixedModel

Обобщенный линейный класс модели смешанных эффектов

Описание

Объект GeneralizedLinearMixedModel представляет модель регрессии переменной отклика, которая содержит и зафиксированные и случайные эффекты. Объект включает данные, образцовое описание, подходящие коэффициенты, параметры ковариации, матрицы проекта, невязки, остаточные графики и другую диагностическую информацию для модели обобщенных линейных смешанных эффектов (GLME). Можно предсказать, что образцовые ответы с predict функционируют и генерируют случайные данные в новых точках проекта с помощью функции random.

Конструкция

Можно соответствовать модели обобщенных линейных смешанных эффектов (GLME) к использованию выборочных данных fitglme(tbl,formula). Для получения дополнительной информации смотрите fitglme.

Входные параметры

развернуть все

Входные данные, который включает переменную отклика, переменные прогноза и группирующие переменные, заданные как массив набора данных или таблица. Переменные прогноза могут быть непрерывными или группирующие переменные (см. Группирующие переменные). Необходимо задать модель для переменных с помощью formula.

Типы данных: table

Формула для образцовой спецификации, заданной как вектор символов или скаляр строки формы 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'. Для полного описания смотрите Формулу.

Пример: 'y ~ treatment +(1|block)'

Свойства

развернуть все

Оценки коэффициентов фиксированных эффектов и связанной статистики, сохраненной как массив набора данных, который ссорится для каждого коэффициента и следующих столбцов:

  • Имя Имя коэффициента

  • Estimate — Предполагаемое содействующее значение

  • SE — Стандартная погрешность оценки

  • tStatt - статистическая величина для теста, что коэффициент равен 0

  • DF — Степени свободы сопоставлены со статистической величиной t

  • pValuep - значение для t - статистическая величина

  • Ниже Более низкий предел достоверности

  • Верхний Верхний предел достоверности

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку.

Используйте метод coefTest, чтобы выполнить другие тесты на коэффициентах.

Ковариация предполагаемого вектора фиксированных эффектов, сохраненного как матрица.

Типы данных: single | double

Имена коэффициентов фиксированных эффектов, сохраненных как массив ячеек из символьных векторов. Меткой для коэффициента постоянного термина является (Intercept). Метки для других коэффициентов указывают на условия, которые они умножают. Когда термин включает категориальный предиктор, метка также указывает на уровень того предиктора.

Типы данных: cell

Степени свободы для ошибки, сохраненной как положительное целочисленное значение. DFE является количеством наблюдений минус количество предполагаемых коэффициентов.

DFE содержит степени свободы, соответствующие методу 'Residual' вычисления степеней свободы знаменателя для тестов гипотезы на коэффициентах фиксированных эффектов. Если n является количеством наблюдений, и p является количеством коэффициентов фиксированных эффектов, то DFE равен np.

Типы данных: double

Образцовый дисперсионный параметр, сохраненный как скалярное значение. Дисперсионный параметр задает условное отклонение ответа.

Для наблюдения i, условное отклонение ответа y i, учитывая условное среднее значение μi и дисперсионный параметр σ 2, в обобщенной линейной модели смешанных эффектов

var(yi|μi,σ2)=σ2wiv(μi),

где w, i - i th вес наблюдения и v, является функцией отклонения для заданного условного распределения ответа. Свойство Dispersion содержит оценку σ 2 для заданной модели GLME. Значение Dispersion зависит от заданного условного распределения ответа. Для бинома и дистрибутивов Пуассона, теоретическое значение Dispersion равно σ 2 = 1.0.

  • Если FitMethod является MPL или REMPL, и аргументом пары "имя-значение" 'DispersionFlag' в fitglme является true, то дисперсионный параметр оценивается от данных для всех дистрибутивов, включая дистрибутивы Пуассона и бином.

  • Если FitMethod является ApproximateLaplace или Laplace, то аргумент пары "имя-значение" 'DispersionFlag' в fitglme не применяется, и дисперсионный параметр фиксируется в 1,0 для дистрибутивов Пуассона и бинома. Для всех других дистрибутивов Dispersion оценивается от данных.

Типы данных: double

Отметьте указание на предполагаемый дисперсионный параметр, сохраненный как логическое значение.

  • Если FitMethod является ApproximateLaplace или Laplace, то дисперсионный параметр фиксируется в его теоретическом значении 1,0 для бинома и дистрибутивов Пуассона, и DispersionEstimated является false. Для других дистрибутивов дисперсионный параметр оценивается от данных, и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и аргумент пары "имя-значение" 'DispersionFlag' в fitglme задан как true, то дисперсионный параметр оценивается для всех дистрибутивов, включая бином и дистрибутивы Пуассона, и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и аргумент пары "имя-значение" 'DispersionFlag' в fitglme задан как false, то дисперсионный параметр фиксируется в его теоретическом значении для бинома и дистрибутивов Пуассона, и DispersionEstimated является false. Для дистрибутивов кроме бинома и Пуассона, дисперсионный параметр оценивается от данных, и DispersionEstimated является true.

Типы данных: логический

Имя распределения ответа, сохраненное как одно из следующего:

  • 'Normal' — Нормальное распределение

  • 'Binomial' — Биномиальное распределение

  • 'Poisson' — Распределение Пуассона

  • \Gamma Гамма распределение

  • 'InverseGaussian' — Обратное Распределение Гаусса

Метод раньше соответствовал модели, сохраненной как одно из следующих.

  • 'MPL' — Максимальная псевдо вероятность

  • 'REMPL' — Ограниченная максимальная псевдо вероятность

  • 'ApproximateLaplace' — Наибольшее правдоподобие с помощью аппроксимированного метода Лапласа, с фиксированными эффектами, профилируемыми

  • 'Laplace' — Наибольшее правдоподобие с помощью метода Лапласа

Образцовая формула спецификации, сохраненная как объект. Образцовая формула спецификации использует обозначение Уилкинсона, чтобы описать отношение между условиями фиксированных эффектов, условиями случайных эффектов и группирующими переменными в модели GLME. Для получения дополнительной информации смотрите Формулу.

Журнал функции правдоподобия оценен в предполагаемых содействующих значениях, сохраненных как скалярное значение. LogLikelihood зависит от метода, используемого, чтобы соответствовать модели.

  • Если вы используете 'Laplace' или 'ApproximateLaplace', то LogLikelihood является максимизируемой логарифмической вероятностью.

  • Если вы используете 'MPL', то LogLikelihood является максимизируемой логарифмической вероятностью псевдо данных из итоговой псевдо итерации вероятности.

  • Если вы используете 'REMPL', то LogLikelihood является максимизируемой ограниченной логарифмической вероятностью псевдо данных из итоговой псевдо итерации вероятности.

Типы данных: double

Образцовый критерий, чтобы выдержать сравнение адаптированный обобщил линейные модели смешанных эффектов, сохраненные как таблица следующими полями.

Поле Описание
AICКритерий информации о Akaike
BICБайесов информационный критерий
LogLikelihood
  • Для образцовой подгонки с помощью 'Laplace' или 'ApproximateLaplace', LogLikelihood является максимизируемой логарифмической вероятностью.

  • Для образцовой подгонки с помощью 'MPL' LogLikelihood является максимизируемой логарифмической вероятностью псевдо данных из итоговой псевдо итерации вероятности.

  • Для образцовой подгонки с помощью 'REMPL' LogLikelihood является максимизируемой ограниченной логарифмической вероятностью псевдо данных из итоговой псевдо итерации вероятности.

Deviance– 2 раза LogLikelihood

Количество коэффициентов фиксированных эффектов в подходящей обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Количество предполагаемых коэффициентов фиксированных эффектов в подходящей обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Количество наблюдений используется в подгонке, сохраненной как положительное целочисленное значение. NumObservations является количеством строк в таблице или массиве набора данных tbl минус строки, исключенные с помощью пары "имя-значение" 'Exclude' fitglme или строк, содержащих значения NaN.

Типы данных: double

Количество переменных, используемых в качестве предикторов в обобщенной линейной модели смешанных эффектов, сохраненной как положительное целочисленное значение.

Типы данных: double

Общее количество переменных, включая ответ и предикторы, сохраненные как положительное целочисленное значение. Если выборочные данные находятся в таблице или массиве набора данных tbl, то NumVariables является общим количеством переменных в tbl, включая переменную отклика. NumVariables включает переменные, если таковые имеются, которые не используются в качестве предикторов или в качестве ответа.

Типы данных: double

Информация о наблюдениях, используемых в подгонке, сохраненной как таблица.

ObservationInfo ссорится для каждого наблюдения и следующих столбцов.

ИмяОписание
WeightsЗначение веса для наблюдения. Значение по умолчанию равняется 1.
ExcludedЕсли наблюдение было исключено из подгонки с помощью аргумента пары "имя-значение" 'Exclude' в fitglme, то Excluded является true или 1. В противном случае Excluded является false или 0.
Missing

Если наблюдение было исключено из подгонки, потому что любое значение ответа или предиктора отсутствует, то Missing является true. В противном случае Missing является false.

Отсутствующие значения включают NaN для числовых переменных, пустые ячейки для массивов ячеек, очищают строки для символьных массивов и значение <undefined> для категориальных массивов.

SubsetЕсли наблюдение использовалось в подгонке, то Subset является true. Если наблюдение не использовалось в подгонке, потому что это отсутствует или исключенное, то Subset является false.
BinomSizeБиномиальный размер для каждого наблюдения. Этот столбец только применяется при подборе кривой биномиальному распределению.

Типы данных: table

Имена наблюдений используются в подгонке, сохраненной как массив ячеек из символьных векторов.

  • Если данные находятся в таблице или массиве набора данных tbl, который содержит имена наблюдения, то ObservationNames использует те имена.

  • Если данные обеспечиваются в матрицах, или в таблице или массиве набора данных без имен наблюдения, то ObservationNames является массивом пустой ячейки.

Типы данных: cell

Имена переменных, используемых в качестве предикторов в подгонке, сохраненной как массив ячеек из символьных векторов, который имеет ту же длину как NumPredictors.

Типы данных: cell

Имя переменной, используемой в качестве переменной отклика в подгонке, сохраненной как вектор символов.

Типы данных: char

Пропорция изменчивости в ответе, объясненном подобранной моделью, сохраненной как структура. Rsquared содержит R - значение в квадрате подобранной модели, также известной как коэффициент кратной корреляции. Rsquared содержит следующие поля.

Поле Описание
OrdinaryЗначение R-squared, сохраненное как скалярное значение в структуре.
Rsquared.Ordinary = 1 — SSE./SST
AdjustedЗначение R-squared, настроенное для количества коэффициентов фиксированных эффектов, сохраненных как скалярное значение в структуре.
Rsquared.Adjusted = 1 — (SSE./SST)*(DFT./DFE),
где DFE = n – p, DFT = n – 1, n является общим количеством наблюдений, и p является количеством коэффициентов фиксированных эффектов.

Типы данных: struct

Ошибочная сумма квадратов, сохраненная как значение положительной скалярной величины. SSE является взвешенной суммой условных невязок в квадрате и вычисляется как

SSE=i=1nwieff(yifi)2 ,

где n является количеством наблюдений, эффективностью wi является i th эффективный вес, yi является i th ответ, и fi является i th адаптированное значение.

i th эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где vi является термином отклонения для i th наблюдение, β^ и b^ ориентировочные стоимости β и b, соответственно.

i th адаптированное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xi T является i th, строка фиксированных эффектов разрабатывают матричный X, и zi T является i th, строка случайных эффектов разрабатывают матричный Z. δi является i th значение смещения.

Типы данных: double

Сумма квадратов регрессии, сохраненная как значение положительной скалярной величины. SSR является суммой квадратов, объясненной обобщенной линейной регрессией смешанных эффектов, или эквивалентно взвешенная сумма отклонений в квадрате условного выражения соответствовала значениям от их взвешенного среднего. SSR вычисляется как

SSR=i=1Nwieff(fif¯)2 ,

где n является количеством наблюдений, эффективностью wi является i th эффективный вес, fi является i th адаптированное значение, и f¯ взвешенное среднее подходящих значений.

i th эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где β^ и b^ ориентировочные стоимости β и b, соответственно.

i th адаптированное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xi T является i th, строка фиксированных эффектов разрабатывают матричный X, и zi T является i th, строка случайных эффектов разрабатывают матричный Z. δi является i th значение смещения.

Взвешенное среднее подходящих значений вычисляется как

f¯=[i=1nwiefffi]i=1nwieff.

Типы данных: double

Полная сумма квадратов, сохраненных как значение положительной скалярной величины. Для модели GLME SST задан как SST = SSE + SSR.

Типы данных: double

Информация о переменных, используемых в подгонке, сохраненной как таблица. VariableInfo ссорится для каждой переменной и содержит следующие столбцы.

ColumnName Описание
ClassКласс переменной ('double', 'cell', 'nominal', и так далее).
Range

Диапазон значений переменной.

  • Для числовой переменной Range является двухэлементным вектором формы [min,max].

  • Для ячейки или категориальной переменной, Range является массивом ячеек или категориальным массивом, содержащим все уникальные значения переменной.

InModel

Если переменная является предиктором в подобранной модели, InModel является true.

Если переменная не находится в подобранной модели, InModel является false.

IsCategorical

Если тип переменной обработан как категориальный предиктор (такой как ячейка, логическая, или категориальная), то IsCategorical является true.

Если переменная является непрерывным предиктором, то IsCategorical является false.

Типы данных: table

Имена всех переменных содержали в таблице или массиве набора данных tbl, сохраненный как массив ячеек из символьных векторов.

Типы данных: cell

Переменные, сохраненные как таблица. Если подгонка основана на таблице или массиве набора данных tbl, то Variables идентичен tbl.

Типы данных: table

Методы

anovaДисперсионный анализ для обобщенной линейной модели смешанных эффектов
coefCIДоверительные интервалы для коэффициентов обобщенной линейной модели смешанных эффектов
coefTestТест гипотезы на фиксированных и случайных эффектах обобщенной линейной модели смешанных эффектов
сравнениеСравните обобщенные линейные модели смешанных эффектов
covarianceParametersИзвлеките параметры ковариации обобщенной линейной модели смешанных эффектов
designMatrixЗафиксированный - и случайные эффекты разрабатывают матрицы
подходящийПодходящие ответы из обобщенной линейной модели смешанных эффектов
fixedEffectsОценки фиксированных эффектов и связанной статистики
plotResidualsПостройте невязки обобщенной линейной модели смешанных эффектов
предсказатьПредскажите ответ обобщенной линейной модели смешанных эффектов
случайныйСгенерируйте случайные ответы из подходящей обобщенной линейной модели смешанных эффектов
randomEffectsОценки случайных эффектов и связанной статистики
ремонт Переоборудуйте обобщенную линейную модель смешанных эффектов
невязкиНевязки подходящей обобщенной линейной модели смешанных эффектов
ответВектор отклика обобщенной линейной модели смешанных эффектов

Примеры

свернуть все

Загрузите выборочные данные.

load mfr

Эти моделируемые данные от компании-производителя, которая управляет 50 фабриками во всем мире с каждой фабрикой, запускающей процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала следующие данные:

  • Отметьте, чтобы указать, использовал ли пакет новый процесс (newprocess)

  • Время вычислений для каждого пакета, в часах (time)

  • Температура пакета, в градусах Цельсия (temp)

  • Категориальная переменная, указывающая на поставщика (A, B или C) химиката, используемого в пакете (supplier)

  • Количество дефектов в пакете (defects)

Данные также включают time_dev и temp_dev, которые представляют абсолютное отклонение времени и температуры, соответственно, из стандарта процесса 3 часов на уровне 20 градусов Цельсия.

Соответствуйте обобщенной линейной модели смешанных эффектов использование newprocess, time_dev, temp_dev и supplier как предикторы фиксированных эффектов. Включайте термин случайных эффектов для прерывания, сгруппированного factory, чтобы составлять качественные различия, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона и соответствующую функцию ссылки для этой модели, является журналом. Используйте подходящий метод Лапласа, чтобы оценить коэффициенты. Задайте фиктивную переменную, кодирующую как 'effects', таким образом, фиктивная переменная содействующая сумма к 0.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

дефектыijПуассон(μij)

Это соответствует обобщенной линейной модели смешанных эффектов

журнал(μij)=β0+β1newprocessij+β2time_devij+β3temp_devij+β4supplier_Cij+β5supplier_Bij+bi,

где

  • дефектыij количество дефектов, наблюдаемых в пакете, произведенном фабрикой i во время пакета j.

  • μij среднее количество дефектов, соответствующих фабрике i (где i=1,2,...,20) во время пакета j (где j=1,2,...,5).

  • newprocessij, time_devij, и temp_devij измерения для каждой переменной, которые соответствуют фабрике i во время пакета j. Например, newprocessij указывает ли пакет, произведенный фабрикой i во время пакета j используемый новый процесс.

  • supplier_Cij и supplier_Bij фиктивные переменные, которые используют эффекты (сумма к нулю), кодирование, чтобы указать или компания C или B, соответственно, предоставило химикаты процесса для пакета, произведенного фабрикой i во время пакета j.

  • biN(0,σb2) прерывание случайных эффектов для каждой фабрики i это составляет специфичное для фабрики изменение по качеству.

glme = fitglme(mfr,'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)', ...
    'Distribution','Poisson','Link','log','FitMethod','Laplace','DummyVarCoding','effects');

Отобразите модель.

disp(glme)
Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1       

Таблица Model information показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет распределение Poisson, функцией ссылки является Log, и подходящим методом является Laplace.

Formula указывает на образцовую спецификацию с помощью обозначения Уилкинсона.

Статистика отображений таблицы Model fit statistics раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC), Байесов информационный критерий (BIC) значения, логарифмическая вероятность (LogLikelihood) и отклонение (Deviance) значения.

Таблица Fixed effects coefficients показывает, что fitglme возвратил 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate) содержит свою ориентировочную стоимость, и столбец 3 (SE) содержит стандартную погрешность коэффициента. Столбец 4 (tStat) содержит t- статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержит степени свободы и p- значение, которые соответствуют t- статистическая величина, соответственно. Последние два столбца (Lower и Upper) отображают нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой группирующей переменной (здесь, только factory), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.

Стандартное отображение, сгенерированное fitglme, не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Больше о

развернуть все