Обобщенные линейные модели смешанных эффектов

Что такое обобщенные линейные модели смешанных эффектов?

Обобщенные линейные модели смешанных эффектов (GLME) описывают взаимосвязь между переменной ответа и независимыми переменными, используя коэффициенты, которые могут варьироваться в отношении одной или нескольких переменных группировки, для данных с распределением переменных ответа, отличным от нормального. Модели GLME можно рассматривать как расширения обобщенных линейных моделей (GLM) для данных, которые собираются и суммируются в группы. Альтернативно, модели GLME можно рассматривать как обобщение линейных моделей смешанных эффектов (LME) для данных, где переменная отклика обычно не распределена.

Модель смешанных эффектов состоит из терминов фиксированных эффектов и случайных эффектов. Члены с фиксированными эффектами обычно являются обычной частью линейной регрессии модели. Термины случайных эффектов связаны с отдельными экспериментальными единицами, взятыми случайным образом из популяции, и учитывают различия между группами, которые могут повлиять на ответ. Случайные эффекты имеют предыдущие распределения, в то время как фиксированные эффекты не имеют.

Уравнения модели GLME

Стандартной формой обобщенной линейной модели смешанных эффектов является

$\begin{matrix} _{} \end{matrix} yi'b∼Distr (_{} pcii \frac{,^{}}{_{}}$ start2wi)

$g (λ) = Xβ +$ Zb + δ,

где

y - вектор отклика n-by-1, и _yi - его i-й элемент.
b - вектор случайных эффектов.
Distr - заданное условное распределение y, данное b.
λ - условное среднее значения y, заданного для b, а _pcii - его i-й элемент.
start2 - параметр дисперсии.
w - эффективный весовой вектор наблюдения, а _wi - вес для наблюдения i.
- Для биномиального распределения эффективный вес наблюдения равен предыдущему весу, указанному с помощью 'Weights' аргумент пары имя-значение в fitglme, умноженное на биномиальный размер, указанный с помощью 'BinomialSize' аргумент пары имя-значение.
- Для всех других распределений эффективный вес наблюдения равен предыдущему весу, указанному с помощью 'Weights' аргумент пары имя-значение в fitglme.
g (λ) - функция связи, которая определяет взаимосвязь между средним откликом (λ) и линейной комбинацией предикторов.
X представляет собой матрицу конструкции с фиксированными эффектами n-by-p.
β - вектор с фиксированными эффектами p-by-1.
Z - матрица проектирования случайных эффектов n-на-q.
b - вектор случайных эффектов q-by-1.
δ - вектор смещения модели.

Модель для среднего ответа

$λ =^{g} - 1$ (start),

где ^g-1 - обратная функция связи g (λ), а ${\overset{start^}{}}_{}$ ME - линейный предиктор фиксированных и случайных эффектов обобщенной линейной модели смешанных эффектов

$start= Xβ + Zb$ + δ.

Модель GLME параметризуется с помощью β,

Допущения для обобщенных линейных моделей смешанных эффектов:

Вектор случайных эффектов b имеет предыдущее распределение:
$^{} b'σ2,θ∼N (^{} 0,σ2D (start$ )),
где ^start2 - дисперсионный параметр, а D - симметричная и положительная полуопределённая матрица, параметризованная неограниченным параметрическим вектором
Наблюдения _yi условно независимы от приведённого b.

Подготовка данных для фитинга модели

Чтобы подогнать модель GLME к данным, используйте fitglme. Форматирование входных данных с помощью table тип данных. Каждая строка таблицы представляет одно наблюдение, а каждый столбец представляет одну предикторную переменную. Дополнительные сведения о создании и использовании tableсм. раздел Создание и работа с таблицами.

Входные данные могут включать непрерывные переменные и переменные группировки. fitglme предполагает, что предикторы, использующие следующие типы данных, категоричны:

Логичный
Категоричный
Символьный вектор или символьный массив
Строковый массив
Массив ячеек символьных векторов

Если таблица входных данных содержит NaN значения, затем fitglme исключает всю строку данных из аппроксимации. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude' аргумент пары имя-значение fitglme при подгонке модели.

Выбор типа распределения для модели

Модели GLME используются, когда данные ответа не следуют нормальному распределению. Поэтому при подгонке модели с помощью fitglme, необходимо указать тип распределения ответов с помощью 'Distribution' аргумент пары имя-значение. Часто тип данных ответа предполагает соответствующий тип распределения для модели.

Тип данных ответа	Предлагаемый тип распределения ответа
Любое реальное число	`'Normal'`
Любое положительное число	`'Gamma'` или `'InverseGaussian'`
Любое неотрицательное целое число	`'Poisson'`
Целое число от 0 до n, где n - фиксированное положительное значение	`'Binomial'`

Выбор функции связи для модели

Модели GLME используют функцию связи g для отображения взаимосвязи между средним откликом и линейной комбинацией предикторов. По умолчанию fitglme использует предопределенную общепринятую функцию связи на основе заданного распределения данных ответа, как показано в следующей таблице. Однако можно указать другую функцию связи из списка предопределенных функций или определить собственную функцию с помощью 'Link' аргумент пары имя-значение fitglme.

Стоимость	Описание
`'comploglog'`	`g(mu) = log(-log(1-mu))`
`'identity'`	`g(mu) = mu` Каноническая ссылка для нормального распределения.
`'log'`	`g(mu) = log(mu)` Каноническая ссылка для распространения Пуассона.
`'logit'`	`g(mu) = log(mu/(1-mu))` Каноническая связь для биномиального распределения.
`'loglog'`	`g(mu) = log(-log(mu))`
`'probit'`	`g(mu) = norminv(mu)`
`'reciprocal'`	`g(mu) = mu.^(-1)`
Скалярное значение `P`	`g(mu) = mu.^P`
Структура `S`	Структура, содержащая четыре поля, значения которых являются дескрипторами функций: `S.Link` - Функция связи `S.Derivative` - Производная `S.SecondDerivative` - Вторая производная `S.Inverse` - Обратная связь Если `'FitMethod'` является `'MPL'` или `'REMPL'`, или если `S` представляет каноническую ссылку для указанного распространения, можно опустить спецификацию `S.SecondDerivative`.

При подборе модели к данным fitglme по умолчанию использует каноническую функцию связи.

Распределение	Функция связи по умолчанию
`'Normal'`	`'identity'`
`'Binomial'`	`'logit'`
`'Poisson'`	`'log'`
`'Gamma'`	`-1`
`'InverseGaussian'`	`-2`

Функции канала 'comploglog', 'loglog', и 'probit' в основном полезны для биномиальных моделей.

Задание формулы модели

Спецификация модели для fitglme использует нотацию Уилкинсона, которая является вектором символов или скаляром строки вида 'y ~ terms', где y - имя переменной ответа, и terms записывается в следующей нотации.

Нотация Уилкинсона	Коэффициенты в стандартной нотации
`1`	Член константы (перехвата)
`X^k`, где `k` является положительным целым числом	`X`, `X²`, ..., `X^k`
`X1 + X2`	`X1`, `X2`
`X1*X2`	`X1`, `X2`, `X1.*X2 (element-wise multiplication of X1 and X2)`
`X1:X2`	`X1.*X2` только
`- X2`	Не включать `X2`
`X1*X2 + X3`	`X1`, `X2`, `X3`, `X1*X2`
`X1 + X2 + X3 + X1:X2`	`X1`, `X2`, `X3`, `X1*X2`
`X1X2X3 - X1:X2:X3`	`X1`, `X2`, `X3`, `X1X2`, `X1X3`, `X2*X3`
`X1*(X2 + X3)`	`X1`, `X2`, `X3`, `X1X2`, `X1X3`

Формулы по умолчанию включают константу (пересечение). Чтобы исключить постоянный член из модели, включите –1 в формуле.

Для обобщенных линейных моделей смешанных эффектов спецификация формулы имеет вид 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)', где fixed и random содержат члены фиксированных эффектов и случайных эффектов соответственно.

Предположим, что таблица входных данных содержит следующее:

Переменная ответа, y
Переменные предиктора, X1, X2, ..., XJ, где J - общее количество переменных предиктора (включая непрерывные и группирующие переменные).
Группирование переменных, g1, g2, ..., gR, где R - количество группируемых переменных.

Переменные группировки в XJ и gR могут быть категориальными, логическими, символьными массивами, строковыми массивами или массивами ячеек символьных векторов.

Затем в формуле вида 'y ~ fixed + (random1|g1) + ... + (randomR|gR)', термин fixed соответствует спецификации матрицы проектирования с фиксированными эффектами X, random1 - спецификация матрицы проектирования случайных эффектов; Z1 соответствует переменной группировки g1, и аналогично randomR - спецификация матрицы проектирования случайных эффектов; ZR соответствует переменной группировки gR. Вы можете выразить fixed и random термины, использующие нотацию Уилкинсона следующим образом.

Формула	Описание
`'y ~ X1 + X2'`	Фиксированные эффекты для перехвата, `X1`, и `X2`. Эта формула эквивалентна `'y ~ 1 + X1 + X2'`.
`'y ~ -1 + X1 + X2'`	Без перехвата, с фиксированными эффектами для `X1` и `X2`. Неявный член перехвата подавляется включением `-1`.
`'y ~ 1 + (1 \| g1)'`	Фиксированный эффект для перехвата плюс случайный эффект для перехвата для каждого уровня переменной группировки `g1`.
`'y ~ X1 + (1 \| g1)'`	Модель случайного пересечения с фиксированным наклоном.
`'y ~ X1 + (X1 \| g1)'`	Случайный перехват и наклон, с возможной корреляцией между ними. Эта формула эквивалентна `'y ~ 1 + X1 + (1 + X1\|g1)'`.
`'y ~ X1 + (1 \| g1) + (-1 + X1 \| g1)'`	Независимые термины случайных эффектов для перехвата и наклона.
`'y ~ 1 + (1 \| g1) + (1 \| g2) + (1 \| g1:g2)'`	Модель случайного перехвата с независимыми основными эффектами для `g1` и `g2`плюс независимый эффект взаимодействия.

Например, данные образца mfr содержит смоделированные данные от производственной компании, которая управляет 50 фабриками по всему миру. На каждом заводе выполняется пакетная обработка для создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих заводов случайным образом для участия в эксперименте: Десять заводов реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания провела пять партий (в общей сложности 100 партий) и записала данные о времени обработки (time_dev), температура (temp_dev), количество дефектов (defects) и категориальной переменной, указывающей поставщика сырья (supplier) для каждой партии.

Чтобы определить, является ли новый процесс (представленный переменной предиктора newprocess) значительно уменьшает количество дефектов, подгоняет модель GLME, используя newprocess, time_dev, temp_dev, и supplier в качестве предикторов с фиксированными эффектами. Включить перехват случайных эффектов, сгруппированный по factory, чтобы учесть различия в качестве, которые могут существовать из-за специфичных для завода вариаций. Переменная ответа defects имеет распределение Пуассона.

Количество дефектов можно смоделировать с помощью распределения Пуассона

$_{defectsij} ~ {Пуассон}_{(}$ мкидж)

Это соответствует обобщенной линейной модели смешанных эффектов

$\begin{array}{l} \log (_{} micij)_{=}_{β0} +_{}_{} β1newprocessij +_{} β2time \\ __{} devij +_{β3temp}__{} devij +_{}_{} β4supplier_Cij_{+}_{} \end{array}$ β5supplier _ Bij + bi,

где

_defectsij - количество дефектов, наблюдаемых в партии, произведенной заводом i (где i = 1, 2,..., 20) во время партии j (где j = 1, 2,..., 5).
_мкij - среднее число дефектов, соответствующих заводу i во время партии j.
_{supplier_Cij} и _{supplier_Bij} являются фиктивными переменными, которые указывают, является ли компания C или B, соответственно, поставлялись технологические химикаты для партии, произведенной заводом i во время партии j.
_bi ~ N (0, ^startb2) - перехват случайных эффектов для каждой фабрики i, который учитывает специфичные для фабрики вариации качества.

Используя нотацию Уилкинсона, укажите эту модель как:

'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'

Чтобы учесть распределение Пуассона для переменной отклика при подгонке модели с помощью fitglme, укажите 'Distribution' аргумент пары имя-значение как 'Poisson'. По умолчанию fitglme использует функцию log link для переменных ответа с распределением Пуассона.

Отображение модели

Вывод функции фитинга fitglme предоставляет информацию о обобщенной линейной модели смешанных эффектов.

Использование mfr данные производственного эксперимента, подгонка модели с помощью newprocess, time_dev, temp_dev, и supplier в качестве предикторов с фиксированными эффектами. Укажите распределение ответа как Пуассон, функцию связи как log и метод аппроксимации как Лаплас.

load mfr

glme = fitglme(mfr,...
		'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',...
		'Distribution','Poisson','Link','log','FitMethod','Laplace',...
		'DummyVarCoding','effects')

glme = 


Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1

Model information таблица отображает общее количество наблюдений в данных выборки (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20 соответственно) и количество параметров ковариации (1). Это также указывает, что переменная ответа имеет Poisson распределение, функция линии связи Log, и метод подгонки Laplace.

Formula указывает спецификацию модели с помощью нотации Уилкинсона.

Model fit statistics В таблице представлены статистические данные, используемые для оценки соответствия модели. Это включает в себя информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) значения, логарифмическое правдоподобие (LogLikelihood) и отклонение (Deviance) значения.

Fixed effects coefficients таблица показывает, что fitglme возвращены 95% доверительные интервалы. Он содержит одну строку для каждого предиктора с фиксированными эффектами, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate) содержит его оценочное значение и столбец 3 (SE) содержит стандартную ошибку коэффициента. Колонка 4 (tStat) содержит t-статистику для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF) и колонку 6 (pValue) содержат степени свободы и p-значение, которые соответствуют t-статистике соответственно. Последние два столбца (Lower и Upper) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента с фиксированными эффектами.

Random effects covariance parameters отображает таблицу для каждой переменной группировки (здесь, только factory), включая его общее количество уровней (20), и тип и оценку параметра ковариации. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, связанного с заводским предиктором, которое имеет оценочное значение 0,31381. Также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его оценочное значение 1.

Стандартный экран, созданный fitglme не обеспечивает доверительные интервалы для параметров случайных эффектов. Для вычисления и отображения этих значений используйте covarianceParameters.

Работа с моделью

После создания модели GLME с помощью fitglmeдля работы с моделью можно использовать дополнительные функции.

Проверка и проверка коэффициентов и доверительных интервалов

Для извлечения оценок коэффициентов фиксированных и случайных эффектов, параметров ковариации, матриц проектирования и связанной статистики:

fixedEffects извлекает оцененные коэффициенты фиксированных эффектов и соответствующую статистику из подогнанной модели. Соответствующие статистические данные включают стандартную ошибку; t-статистика, степени свободы и p-значение для проверки гипотезы, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подогнанной модели GLME. Связанная статистика включает в себя оцененный эмпирический предиктор Байеса (EBP) каждого случайного эффекта, квадратный корень условной среднеквадратичной ошибки прогнозирования (CMSEP) с учетом параметров ковариации и ответа; t-статистика, оцененные степени свободы и p-значение для проверки гипотезы, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters извлекает оцененные параметры ковариации и связанную статистику из подогнанной модели GLME. Связанная статистика включает оценку ковариационного параметра и доверительные интервалы.
designMatrix извлекает матрицы конструкции с фиксированными и случайными эффектами или их определенное подмножество из подогнанной модели GLME.

Чтобы провести индивидуальные тесты гипотез на значимость коэффициентов фиксированных и случайных эффектов и вычислить пользовательские доверительные интервалы:

anova выполняет предельный F-тест (тест гипотезы) для членов с фиксированными эффектами, чтобы определить, равны ли все коэффициенты, представляющие члены с фиксированными эффектами, 0. Вы можете использовать anova проверить комбинированную значимость коэффициентов категориальных предикторов.
coefCI вычисляет доверительные интервалы для параметров фиксированных и случайных эффектов из подогнанной модели GLME. По умолчанию fitglme вычисляет 95% доверительные интервалы. Использовать coefCI для вычисления границ на другом доверительном уровне.
coefTest выполняет пользовательские тесты гипотез на векторах с фиксированными эффектами или случайными эффектами аппроксимированной модели с обобщенными линейными смешанными эффектами. Например, можно задать контрастные матрицы.

Создание новых значений ответа и модель преобразования

Для генерации новых значений отклика, включая подогнанные, прогнозируемые и случайные ответы, на основе подогнанной модели GLME:

fitted вычисляет значения подогнанного отклика, используя исходные значения предиктора, и оцененные значения коэффициента и параметра из подогнанной модели.
predict вычисляет предсказанное условное или предельное среднее ответа, используя либо исходные предикторные значения, либо новые предикторные значения, и оцененные коэффициенты и значения параметров из подогнанной модели.
random генерирует случайные ответы из подогнанной модели.
refit создает новую подогнанную модель GLME на основе исходной модели и нового вектора отклика.

Проверка и визуализация остатков

Для извлечения и визуализации остатков из установленной модели GLME:

residuals извлекает необработанные остатки или остатки Пирсона из подогнанной модели. Можно также указать, следует ли вычислять условные или маргинальные остатки.
plotResiduals создает графики с использованием необработанных остатков или остатков Пирсона из подогнанной модели, включая:
- Гистограмма остатков
- Разброс остатков по сравнению с подходящими значениями
- Разброс остатков по сравнению с запаздывающими остатками

См. также

fitglme | GeneralizedLinearMixedModel

Связанные темы

Подгонка обобщенной линейной модели смешанных эффектов

Документация