Обобщенные линейные модели смешанных эффектов

Что такое обобщенные линейные модели смешанных эффектов?

Обобщенные модели линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными, используя коэффициенты, которые могут варьироваться относительно одной или нескольких сгруппированных переменных, для данных с переменным распределением отклика, отличным от нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собираются и суммируются в группах. Кроме того, можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (LME) для данных, где переменная отклика обычно не распределена.

Модель смешанных эффектов состоит из членов с фиксированными эффектами и случайными эффектами. Условия с фиксированными эффектами обычно являются обычной линейной регрессионой частью модели. Условия случайных эффектов связаны с отдельными экспериментальными модулями, полученными случайным образом из населения, и учитывают изменения между группами, которые могут повлиять на ответ. Случайные эффекты имеют предшествующие распределения, в то время как фиксированные эффекты не имеют.

Уравнения модели GLME

Стандартная форма обобщенной модели линейных смешанных эффектов

$\begin{matrix} y_{i} | b \end{matrix} \sim D i s t r (μ_{i}, \frac{σ^{2}}{w_{i}})$

$g (μ) = X β + Z b + δ,$

где

y является n вектором отклика -by-1, и _yi является его i-м элементом.
b - вектор случайных эффектов.
Distr является заданным условным распределением y заданных b.
μ - условное среднее значение y заданных b, а _μi - его i-й элемент.
σ² - параметр дисперсии.
w - эффективный вектор веса наблюдений, а _wi - вес для i наблюдений.
- Для биномиального распределения эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme, умноженный на биномиальный размер, заданный с помощью 'BinomialSize' аргумент пары "имя-значение".
- Для всех других распределений эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme.
g (μ) является функцией ссылки, которая задает отношение между средней μ отклика и линейной комбинацией предикторов.
X является n матрицей проекта -by p fixed-effects.
β является вектором p -by-1 с фиксированными эффектами.
Z является n матрицей проекта -by q random-эффектов.
b является q вектором случайных эффектов -by-1.
δ является вектором смещения модели.

Модель для средней μ отклика

$μ = g^{- 1} (η),$

где g^-1 обратная функции ссылки связи g (μ), и ${\hat{η}}_{M E}$ является линейным предиктором фиксированных и случайных эффектов обобщенной модели линейных смешанных эффектов

$η = X β + Z b + δ .$

Модель GLME параметризируется β, θ и σ².

Допущения для обобщенных моделей линейных смешанных эффектов:

Вектор b случайных эффектов имеет предшествующее распределение:
$b | σ^{2}, θ \sim N (0, σ^{2} D (θ)),$
где² является параметром дисперсии, а D - симметричной и положительной полуопределенной матрицей, параметризованной вектором θ без ограничений.
_yi наблюдений являются условно независимыми по данным b.

Подготовьте данные для модели Fitting

Чтобы соответствовать модели GLME своим данным, используйте fitglme. Форматируйте свои входные данные с помощью table тип данных. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет одну переменную предиктора. Для получения дополнительной информации о создании и использовании table, см. Создание и работа с таблицами.

Входные данные могут включать непрерывные и сгруппированные переменные. fitglme принимает, что предикторы, использующие следующие типы данных, категоричны:

Логичный
Категоричный
Вектор символов или символьный массив
Строковые массивы
Массив ячеек из символьных векторов

Если таблица входных данных содержит какие-либо NaN значения, затем fitglme исключает из подгонки целую строку данных. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude' Аргумент пары "имя-значение" из fitglme при подгонке модели.

Выберите тип распределения для модели

Модели GLME используются, когда данные отклика не следуют нормальному распределению. Поэтому при подборе модели используйте fitglme, необходимо задать тип распределения отклика с помощью 'Distribution' аргумент пары "имя-значение". Часто, тип данных отклика предполагает соответствующий тип распределения для модели.

Тип ответных данных	Предлагаемый тип распределения отклика
Любое действительное число	`'Normal'`
Любое положительное число	`'Gamma'` или `'InverseGaussian'`
Любое неотрицательное целое число	`'Poisson'`
Целое число от 0 до n, где n является фиксированным положительным значением	`'Binomial'`

Выберите функцию ссылки для модели

Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средней характеристикой и линейной комбинацией предикторов. По умолчанию, fitglme использует предопределенную, обычно принятую функцию ссылки, основанную на заданном распределении данных отклика, как показано в следующей таблице. Однако можно задать другую функцию ссылки из списка предопределенных функций или определить свою собственную с помощью 'Link' Аргумент пары "имя-значение" из fitglme.

Значение	Описание
`'comploglog'`	`g(mu) = log(-log(1-mu))`
`'identity'`	`g(mu) = mu` Каноническая ссылка для нормального распределения.
`'log'`	`g(mu) = log(mu)` Каноническая ссылка для распределения Пуассона.
`'logit'`	`g(mu) = log(mu/(1-mu))` Каноническая ссылка для биномиального распределения.
`'loglog'`	`g(mu) = log(-log(mu))`
`'probit'`	`g(mu) = norminv(mu)`
`'reciprocal'`	`g(mu) = mu.^(-1)`
Скалярное значение `P`	`g(mu) = mu.^P`
Структурные `S`	Структура, содержащая четыре поля, значения которых являются указателями на функцию: `S.Link` - Функция Link `S.Derivative` - Производная `S.SecondDerivative` - Вторая производная `S.Inverse` - Обратная ссылка Если `'FitMethod'` является `'MPL'` или `'REMPL'`, или если `S` представляет каноническую ссылку для заданного распределения, можно опустить спецификацию `S.SecondDerivative`.

При подборе модели к данным, fitglme использует функцию канонической ссылки по умолчанию.

Распределение	Функция ссылки по умолчанию
`'Normal'`	`'identity'`
`'Binomial'`	`'logit'`
`'Poisson'`	`'log'`
`'Gamma'`	`-1`
`'InverseGaussian'`	`-2`

Функции ссылки 'comploglog', 'loglog', и 'probit' в основном полезны для биномиальных моделей.

Задайте формулу модели

Спецификация модели для fitglme использует обозначение Уилкинсона, который является вектором символов или строковым скаляром вида 'y ~ terms', где y - имя переменной отклика, и terms написано в следующем обозначении.

Уилкинсон Обозначение	Факторы в стандартном обозначении
`1`	Константа ( точку пересечения) термин
`X^k`, где `k` является положительным целым числом	`X`, `X²`,..., X`^k`
`X1 + X2`	`X1`, `X2`
`X1*X2`	`X1`, `X2`, `X1.*X2 (element-wise multiplication of X1 and X2)`
`X1:X2`	`X1.*X2` только
`- X2`	Не включать `X2`
`X1*X2 + X3`	`X1`, `X2`, `X3`, `X1*X2`
`X1 + X2 + X3 + X1:X2`	`X1`, `X2`, `X3`, `X1*X2`
`X1X2X3 - X1:X2:X3`	`X1`, `X2`, `X3`, `X1X2`, `X1X3`, `X2*X3`
`X1*(X2 + X3)`	`X1`, `X2`, `X3`, `X1X2`, `X1X3`

Формулы включают постоянный (перехват) термин по умолчанию. Чтобы исключить постоянный термин из модели, включите –1 в формуле.

Для обобщенных линейных моделей смешанных эффектов спецификация формул имеет вид 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)', где fixed и random содержат фиксированные эффекты и условия случайных эффектов, соответственно.

Предположим, что таблица входных данных содержит следующее:

Переменная отклика, y
Переменные предиктора, X1, X2..., XJ, где J - общее количество переменных предиктора (включая непрерывные и сгруппированные переменные).
Сгруппированные переменные, g1, g2..., gR, где R количество сгруппированных переменных.

The сгруппированных переменных in XJ и gR могут быть категориальными, логическими, символьными массивами, строковыми массивами или массивами ячеек векторов символов.

Затем в формуле вида 'y ~ fixed + (random1|g1) + ... + (randomR|gR)', термин fixed соответствует спецификации матрицы проекта с фиксированными эффектами X, random1 является спецификацией матрицы проекта случайных эффектов Z1 соответствующая сгруппированная переменная g1, и аналогично randomR является спецификацией матрицы проекта случайных эффектов ZR соответствующая сгруппированная переменная gR. Вы можете выразить fixed и random термины, использующие обозначение Уилкинсона следующим образом.

Формула	Описание
`'y ~ X1 + X2'`	Фиксированные эффекты для точки пересечения, `X1`, и `X2`. Эта формула эквивалентна `'y ~ 1 + X1 + X2'`.
`'y ~ -1 + X1 + X2'`	Нет точки пересечения, с фиксированными эффектами для `X1` и `X2`. Неявный термин точки пересечения подавляется включением `-1`.
`'y ~ 1 + (1 \| g1)'`	Фиксированный эффект для точки пересечения плюс случайный эффект для точки пересечения для каждого уровня сгруппированной переменной `g1`.
`'y ~ X1 + (1 \| g1)'`	Модель случайной точки пересечения с фиксированным уклоном.
`'y ~ X1 + (X1 \| g1)'`	Случайная точка пересечения и наклон, с возможной корреляцией между ними. Эта формула эквивалентна `'y ~ 1 + X1 + (1 + X1\|g1)'`.
`'y ~ X1 + (1 \| g1) + (-1 + X1 \| g1)'`	Независимые условия случайных эффектов для точки пересечения и наклона.
`'y ~ 1 + (1 \| g1) + (1 \| g2) + (1 \| g1:g2)'`	Модель случайной точки пересечения с независимыми основными эффектами для `g1` и `g2`, плюс независимый эффект взаимодействия.

Для примера, выборочные данные mfr содержит моделируемые данные от производственной компании, которая управляет 50 заводами по всему миру. Каждый завод запускает пакетный процесс для создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих фабрик наугад для участия в эксперименте: Десять фабрик реализовали новый процесс, а другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания запустила пять партий (в общей сложности 100 партий) и записала данные о времени вычислений (time_dev), температура (temp_dev), количество дефектов (defects) и категориальную переменную, указывающую на поставщика сырья (supplier) для каждой партии.

Чтобы определить, является ли новый процесс (представленным переменной предиктора newprocess) значительно уменьшает количество дефектов, подбирает модель GLME используя newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Включите точку пересечения случайных эффектов, сгруппированный по factory, для расчета различий в качестве, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

$d e f e c t s_{i j} ~ P o i s s o n (μ_{i j})$

Это соответствует обобщенной модели линейных смешанных эффектов

$\begin{array}{l} \log (μ_{i j}) = β_{0} + β_{1} n e w p r o c e s s_{i j} + β_{2} t i m e_d e v_{i j} \\ + β_{3} t e m p_d e v_{i j} + β_{4} s u p p l i e r_C_{i j} + β_{5} s u p p l i e r_B_{i j} + b_{i}, \end{array}$

где

_defectsij - количество дефектов, наблюдаемых в партии, произведенной заводскими i (где i = 1, 2,..., 20) во время партии j (где j = 1, 2,..., 5).
_μij - среднее количество дефектов, соответствующих заводским i во время пакетной j.
_{supplier_Cij} и _{supplier_Bij} являются фиктивными переменными, которые указывают, C ли компания или B, соответственно, поставляла химикаты для партии, произведенной заводским i во время j партии.
_bi ~ N (0, σb²) является точка пересечения случайных эффектов для каждого производственного i, которая учитывает специфическое для завода изменение качества.

Используя обозначение Уилкинсона, задайте эту модель как:

'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'

Для расчета распределения Пуассона переменной отклика, при подборе модели используя fitglme, задайте 'Distribution' аргумент пары "имя-значение" как 'Poisson'. По умолчанию, fitglme использует функцию log link для переменных отклика с распределением Пуассона.

Отобразите модель

Выход функции аппроксимации fitglme предоставляет информацию об обобщенной модели линейных смешанных эффектов.

Использование mfr производство данных эксперимента, подбор модели с помощью newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Укажите распределение отклика как Poisson, функцию link - как журнал, а метод fit - как Laplace.

load mfr

glme = fitglme(mfr,...
		'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',...
		'Distribution','Poisson','Link','log','FitMethod','Laplace',...
		'DummyVarCoding','effects')

glme = 


Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1

The Model information таблица отображает общее количество наблюдений в выборочных данных (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20, соответственно) и количество ковариационных параметров (1). Это также указывает, что переменная отклика имеет Poisson распределение, функция ссылки Log, и метод подгонки Laplace.

Formula указывает спецификацию модели, использующую обозначение Уилкинсона.

The Model fit statistics таблица отображает статистику, используемую для оценки качества подгонки модели. Это включает информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) значения, журнал правдоподобия (LogLikelihood), и отклонение (Deviance) значения.

The Fixed effects coefficients таблица указывает, что fitglme возвращено 95% доверительных интервалов. Он содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate) содержит его расчетное значение и столбец 3 (SE) содержит стандартную ошибку коэффициента. Столбец 4 (tStat) содержит t -статистическую для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержат степени свободы и p -значение, которые соответствуют t -statistic, соответственно. Последние два столбца (Lower и Upper) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой сгруппированной переменной (только здесь factory), включая его общее количество уровней (20), и тип и оценку ковариационного параметра. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с заводским предиктором, которое имеет оценочное значение 0,31381. В нем также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его предполагаемое значение 1.

Стандартное отображение, сгенерированное fitglme не предоставляет доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Работа с моделью

После создания модели GLME с помощью fitglmeможно использовать дополнительные функции для работы с моделью.

Проверяйте и тестируйте коэффициенты и доверительные интервалы

Чтобы извлечь оценки коэффициентов фиксированных и случайных эффектов, ковариационных параметров, матриц проекта и связанной статистики:

fixedEffects извлекает оцененные коэффициенты фиксированных эффектов и связанную статистику из подобранной модели. Связанные статистические данные включают стандартную ошибку; t -statistic, степени свободы и p - значение для проверки гипотезы, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подобранной модели GLME. Родственная статистика включает предполагаемый эмпирический предиктор Байеса (EBP) каждого случайного эффекта, квадратный корень условной средней квадратичной невязки предсказания (CMSEP), учитывая ковариационные параметры и ответ; t -статистический, предполагаемые степени свободы и p - значение для проверки гипотезы, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters извлекает оцененные ковариационные параметры и связанную статистику из подобранной модели GLME. Связанная статистика включает оценку ковариационного параметра и доверительных интервалов.
designMatrix извлекает матрицы проекта фиксированных и случайных эффектов или их заданный подмножество из подобранной модели GLME.

Чтобы провести индивидуальные проверку гипотезы на значимость коэффициентов фиксированных и случайных эффектов и вычислить пользовательские доверительные интервалы:

anova выполняет маргинальный F -test (тест гипотезы) на терминах с фиксированными эффектами, чтобы определить, все ли коэффициенты, представляющие условия с фиксированными эффектами, равны 0. Можно использовать anova проверить совокупную значимость коэффициентов категориальных предикторов.
coefCI вычисляет доверительные интервалы для параметров фиксированных и случайных эффектов из подобранной модели GLME. По умолчанию, fitglme вычисляет 95% доверительные интервалы. Использование coefCI для вычисления контуров на другом доверительном уровне.
coefTest выполняет пользовательские проверку гипотез векторов с фиксированными эффектами или случайными эффектами подобранной обобщенной модели линейных смешанных эффектов. Для примера можно задать контрастные матрицы.

Сгенерируйте новые значения отклика и обновите модель

Чтобы сгенерировать новые значения отклика, включая подобранные, предсказанные и случайные отклики, основанные на подобранной модели GLME:

fitted вычисляет подобранные значения отклика с помощью исходных значений предиктора и оценочных коэффициентов и значений параметров из подобранной модели.
predict вычисляет предсказанное условное или маргинальное среднее отклика, используя либо исходные предикторные значения, либо новые предикторные значения, а также оцененный коэффициент и значения параметров от подобранной модели.
random генерирует случайные отклики от подобранной модели.
refit создает новую подобранную модель GLME, основанную на исходной модели и новом векторе отклика.

Осмотр и визуализация невязок

Чтобы извлечь и визуализировать невязки из подобранной модели GLME:

residuals извлекает необработанные остатки или невязки Пирсона из подобранной модели. Можно также задать, вычислять ли условные или маргинальные невязки.
plotResiduals создает графики с использованием необработанных остатков или невязок Пирсона из подобранной модели, включая:
- Гистограмма невязок
- Рассеянный график невязок от подобранных значений
- Рассеянный график невязок от отстающих невязок

См. также

fitglme | GeneralizedLinearMixedModel

Документация