Обобщенные линейные модели Смешанных Эффектов

Что такое обобщенные линейные модели Смешанных Эффектов?

Модели обобщенных линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными с помощью коэффициентов, которые могут варьироваться относительно одной или нескольких сгруппированных переменных для данных с распределением переменной отклика кроме нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собраны и получены в итоге в группах. В качестве альтернативы можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (ЛБМ) для данных, где переменная отклика не нормально распределена.

Модель смешанных эффектов состоит из терминов случайных эффектов и фиксированных эффектов. Термины фиксированных эффектов обычно являются обычной частью линейной регрессии модели. Термины случайных эффектов сопоставлены с отдельными экспериментальными модулями, чертившими наугад от населения, и составляют изменения между группами, которые могут влиять на ответ. Случайные эффекты имеют предшествующие распределения, тогда как фиксированные эффекты не делают.

Уравнения модели GLME

Стандартная форма обобщенной линейной модели смешанных эффектов

$\begin{matrix} y_{i} | b \end{matrix} \sim D i s t r (μ_{i}, \frac{σ^{2}}{w_{i}})$

$g (μ) = X β + Z b + δ,$

где

y является n-by-1 вектор отклика, и _yi является свой i th элемент.
b является вектором случайных эффектов.
Distr является заданным условным распределением y, данного b.
μ является условным средним значением y, данного b, и _μi является свой i th элемент.
σ² дисперсионный параметр.
w является эффективным вектором веса наблюдения, и _wi является весом для наблюдения i.
- Для биномиального распределения эффективный вес наблюдения равен предшествующему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme, умноженный на биномиальный размер, заданный с помощью 'BinomialSize' аргумент пары "имя-значение".
- Для всех других распределений эффективный вес наблюдения равен предшествующему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme.
g (μ) является функцией ссылки, которая задает отношение между средним ответом μ и линейной комбинацией предикторов.
X является n-by-p, фиксированные эффекты проектируют матрицу.
β является p-by-1 вектор фиксированных эффектов.
Z является n-by-q, случайные эффекты проектируют матрицу.
b является q-by-1 вектор случайных эффектов.
δ является вектором смещения модели.

Модель для среднего ответа μ

$μ = g^{- 1} (η),$

где g^-1 инверсия функции ссылки g (μ), и ${\hat{η}}_{M E}$ линейный предиктор фиксированных и случайных эффектов обобщенной линейной модели смешанных эффектов

$η = X β + Z b + δ .$

Модель GLME параметрируется β, θ и σ².

Предположения для обобщенных линейных моделей смешанных эффектов:

Случайный вектор эффектов b имеет предшествующее распределение:
$b | σ^{2}, θ \sim N (0, σ^{2} D (θ)),$
где σ² дисперсионный параметр, и D является симметричной и положительной полуопределенной матрицей, параметрированной неограниченным вектором параметра θ.
Наблюдениями _yi является условно независимый данный b.

Подготовка данных для подбора кривой модели

Чтобы подбирать модель GLME к вашим данным, использовать fitglme. Отформатируйте свои входные данные с помощью table тип данных. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет один переменный предиктор. Для получения дополнительной информации о создании и использовании table, смотрите Составляют Таблицы и Данные о Присвоении Им.

Входные данные могут включать непрерывный и сгруппированные переменные. fitglme принимает, что предикторы с помощью следующих типов данных являются категориальными:

Логический
Категориальный
Вектор символов или символьный массив
Массив строк
Массив ячеек из символьных векторов

Если таблица входных данных содержит какой-либо NaN значения, затем fitglme исключает ту целую строку данных из подгонки. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude' аргумент пары "имя-значение" fitglme подбирая модель.

Выберите тип распределения для модели

Модели GLME используются, когда данные об ответе не следуют за нормальным распределением. Поэтому при подборе кривой использованию модели fitglme, необходимо задать тип распределения ответа с помощью 'Distribution' аргумент пары "имя-значение". Часто, тип данных об ответе предлагает соответствующий тип распределения для модели.

Тип данных об ответе	Предложенный тип распределения ответа
Любое вещественное число	`'Normal'`
Любое положительное число	`'Gamma'` или `'InverseGaussian'`
Любое неотрицательное целое число	`'Poisson'`
Целое число от 0 до n, где n является фиксированным положительным значением	`'Binomial'`

Выберите функцию ссылки для модели

Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средним ответом и линейной комбинацией предикторов. По умолчанию, fitglme использует предопределенный, обычно принимаемую функцию ссылки на основе заданного распределения данных об ответе, как показано в следующей таблице. Однако можно задать различную функцию ссылки из списка предопределенных функций или задать собственное, с помощью 'Link' аргумент пары "имя-значение" fitglme.

Значение	Описание
`'comploglog'`	`g(mu) = log(-log(1-mu))`
`'identity'`	`g(mu) = mu` Каноническая ссылка для нормального распределения.
`'log'`	`g(mu) = log(mu)` Каноническая ссылка для распределения Пуассона.
`'logit'`	`g(mu) = log(mu/(1-mu))` Каноническая ссылка для биномиального распределения.
`'loglog'`	`g(mu) = log(-log(mu))`
`'probit'`	`g(mu) = norminv(mu)`
`'reciprocal'`	`g(mu) = mu.^(-1)`
Скалярное значение `P`	`g(mu) = mu.^P`
`Структуры`	Структура, содержащая четыре поля, значения которых являются указателями на функцию: `S.Link` — Функция ссылки `S.Derivative` — Производная `S.SecondDerivative` — Вторая производная `S.Inverse` — Инверсия ссылки Если `'FitMethod'` `'MPL'` или `'REMPL'`, или если `S` представляет каноническую ссылку для заданного распределения, можно не использовать спецификацию `S.SecondDerivative`.

При подбирании модели к данным, fitglme использует каноническую функцию ссылки по умолчанию.

Распределение	Функция ссылки по умолчанию
`'Normal'`	`'identity'`
`'Binomial'`	`'logit'`
`'Poisson'`	`'log'`
`'Gamma'`	-1
`'InverseGaussian'`	-2

Ссылка функционирует 'comploglog'loglog, и 'probit' в основном полезны для биномиальных моделей.

Задайте формулу модели

Спецификация модели для fitglme обозначение Уилкинсона использования, которое является вектором символов или строковым скаляром формы 'y ~ terms', где y имя переменной отклика и terms написан в следующем обозначении.

Обозначение Уилкинсона	Включает стандартное обозначение
1	Постоянный (точка пересечения) термин
`X^k`, где `k` положительное целое число	`XX²X^k`
`X1 + X2`	`X1x2`
`X1*X2`	`X1x2` , `X1.*X2 (element-wise multiplication of X1 and X2)`
`X1:X2`	`X1.*X2` только
`- X2`	Не включайте `X2`
`X1*X2 + X3`	`X1x2` , `X3x1, x2`
`X1 + X2 + X3 + X1:X2`	`X1x2` , `X3x1, x2`
`X1X2X3 - X1:X2:X3`	`X1x2` , `X3x1, x2` , `X1X3`, `X2X3`
`X1*(X2 + X3)`	`X1x2` , `X3x1, x2` , `X1*X3`

Формулы включают константу (точка пересечения) термин по умолчанию. Чтобы исключить постоянный термин из модели, включайте –1 в формуле.

Для обобщенных линейных моделей смешанных эффектов спецификация формулы имеет форму 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)', где fixed и random содержите фиксированные эффекты и термины случайных эффектов, соответственно.

Предположим, что таблица входных данных содержит следующее:

Переменная отклика, y
Переменные предикторы, X1x2 ..., XJ, где J является общим количеством переменных предикторов (включая непрерывный и сгруппированные переменные).
Сгруппированные переменные, g1, g2..., gR, где R является количеством сгруппированных переменных.

Сгруппированные переменные в XJ и gR может быть категориальным, логическим, символьные массивы, строковые массивы или массивы ячеек из символьных векторов.

Затем в формуле формы 'y ~ fixed + (random1|g1) + ... + (randomR|gR)', термин fixed соответствует спецификации проекта фиксированных эффектов матричный X, random1 спецификация проекта случайных эффектов матричный Z1 соответствие сгруппированной переменной g1, и так же randomR спецификация проекта случайных эффектов матричный ZR соответствие сгруппированной переменной gR. Можно описать fixed и random термины с помощью обозначения Уилкинсона можно следующим образом.

Формула	Описание
`'y ~ X1 + X2'`	Фиксированные эффекты для точки пересечения, `X1`, и `X2`. Эта формула эквивалентна `'y ~ 1 + X1 + X2'`.
`'y ~ -1 + X1 + X2'`	Никакая точка пересечения, с фиксированными эффектами для `X1` и `X2`. Неявный термин точки пересечения подавлен включением `-1`.
`'y ~ 1 + (1 \| g1)'`	Фиксированный эффект для точки пересечения, плюс случайный эффект для точки пересечения для каждого уровня сгруппированной переменной `g1`.
`'y ~ X1 + (1 \| g1)'`	Случайная модель точки пересечения с фиксированным наклоном.
`'y ~ X1 + (X1 \| g1)'`	Случайная точка пересечения и наклон, с возможной корреляцией между ними. Эта формула эквивалентна `'y ~ 1 + X1 + (1 + X1\|g1)'`.
`'y ~ X1 + (1 \| g1) + (-1 + X1 \| g1)'`	Независимые случайные эффекты называют для точки пересечения и наклона.
`'y ~ 1 + (1 \| g1) + (1 \| g2) + (1 \| g1:g2)'`	Случайная модель точки пересечения с независимыми основными эффектами для `g1` и `g2`, плюс независимый эффект взаимодействия.

Например, выборочные данные mfr содержит симулированные данные компании-производителя, которая управляет 50 фабриками во всем мире. Каждая фабрика запускает процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала данные по времени вычислений (time_dev), температура (temp_dev), количество дефектов (defects), и категориальная переменная, указывающая на поставщика сырья (supplier) для каждого пакета.

Определить ли новый процесс (представленный переменным предиктором newprocess) значительно сокращает количество дефектов, подбирайте модель GLME с помощью newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Включайте точку пересечения случайных эффектов, сгруппированную factory, с учетом качественных различий, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

$d e f e c t s_{i j} ~ P o i s s o n (μ_{i j})$

Это соответствует обобщенной линейной модели смешанных эффектов

$\begin{array}{l} \log (μ_{i j}) = β_{0} + β_{1} n e w p r o c e s s_{i j} + β_{2} t i m e_d e v_{i j} \\ + β_{3} t e m p_d e v_{i j} + β_{4} s u p p l i e r_C_{i j} + β_{5} s u p p l i e r_B_{i j} + b_{i}, \end{array}$

где

_defectsij является количеством дефектов, наблюдаемых в пакете, произведенном фабрикой i (где i = 1, 2..., 20) во время пакетного j (где j = 1, 2..., 5).
_μij является средним количеством дефектов, соответствующих фабрике i во время пакетного j.
_{supplier_Cij} и _{supplier_Bij} являются фиктивными переменными, которые указывают ли компания C или B, соответственно, предоставленный химикаты процесса для пакета, произведенного фабрикой i во время пакетного j.
_bi ~ N (0, _σb²) точка пересечения случайных эффектов для каждой фабрики i, который составляет специфичное для фабрики изменение по качеству.

Используя обозначение Уилкинсона, задайте эту модель как:

'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'

С учетом распределения Пуассона переменной отклика, при подборе кривой использованию модели fitglme, задайте 'Distribution' аргумент пары "имя-значение" как 'Poisson'. По умолчанию, fitglme использует логарифмическую функцию ссылки для переменных отклика с распределением Пуассона.

Отобразите модель

Выход подходящей функции fitglme предоставляет информацию об обобщенной линейной модели смешанных эффектов.

Используя mfr при производстве данных об эксперименте подбирайте модель с помощью newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Задайте распределение ответа как Пуассона, функцию ссылки как журнал и подходящий метод как Лаплас.

load mfr

glme = fitglme(mfr,...
		'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',...
		'Distribution','Poisson','Link','log','FitMethod','Laplace',...
		'DummyVarCoding','effects')

glme = 


Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1

Model information таблица показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет Poisson распределение, функцией ссылки является Log, и подходящим методом является Laplace.

Formula указывает на спецификацию модели с помощью обозначения Уилкинсона.

Model fit statistics табличная статистика отображений раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC), Байесов информационный критерий (BIC) значения, логарифмическая вероятность (LogLikelihood), и отклонение (DevianceЗначения.

Fixed effects coefficients таблица показывает это fitglme возвращенные 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate) содержит его ориентировочную стоимость и столбец 3 (SE) содержит стандартную погрешность коэффициента. Столбец 4 (tStat) содержит t - статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержите степени свободы и p - значение, которые соответствуют t - статистическая величина, соответственно. Последние два столбца (Lower и Upper) отобразите нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой сгруппированной переменной (здесь, только factory), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std указывает на это fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.

Стандартное отображение, сгенерированное fitglme не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Работа с моделью

После того, как вы создаете использование модели GLME fitglme, можно использовать дополнительные функции, чтобы работать с моделью.

Смотрите и протестируйте коэффициенты и доверительные интервалы

Извлекать оценки фиксированного - и коэффициенты случайных эффектов, параметры ковариации, матрицы проекта и связанная статистика:

fixedEffects извлечения оценили коэффициенты фиксированных эффектов и связали статистику от подобранной модели. Связанные статистические данные включают стандартную погрешность; t - статистическая величина, степени свободы, и p - значение для теста гипотезы того, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects извлечения оценили коэффициенты случайных эффектов и связали статистику из подбиравшей модели GLME. Связанные статистические данные включают предполагаемый эмпирический предиктор Бейеса (EBP) каждого случайного эффекта, квадратный корень из условной среднеквадратической ошибки предсказания (CMSEP), учитывая параметры ковариации и ответ; t - статистическая величина, оцененные степени свободы, и p - значение для теста гипотезы того, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters извлечения оценили параметры ковариации и связали статистику из подбиравшей модели GLME. Связанные статистические данные включают оценку параметра ковариации и доверительные интервалы.
designMatrix извлекает матрицы, построенные на основе фиксированных или случайных эффектов или заданное подмножество этого, из подбиравшей модели GLME.

Провести настроенные тесты гипотезы для значения фиксированных - и коэффициенты случайных эффектов и вычислить пользовательские доверительные интервалы:

anova выполняет крайний F - тест (тест гипотезы) на терминах фиксированных эффектов, чтобы определить, равны ли все коэффициенты, представляющие термины фиксированных эффектов, 0. Можно использовать anova протестировать объединенное значение коэффициентов категориальных предикторов.
coefCI вычисляет доверительные интервалы для фиксированного - и параметры случайных эффектов из подбиравшей модели GLME. По умолчанию, fitglme вычисляет 95% доверительных интервалов. Используйте coefCI вычислить контуры на различном доверительном уровне.
coefTest выполняет пользовательские тесты гипотезы на фиксированных эффектах или векторах случайных эффектов из подбиравшей обобщенной линейной модели смешанных эффектов. Например, можно задать контрастные матрицы.

Сгенерируйте новые значения отклика и модель ремонта

Сгенерировать новые значения отклика, включая подходящие, предсказанные, и случайные ответы, на основе подбиравшей модели GLME:

fitted вычисляет адаптированные значения отклика с помощью исходных значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
predict вычисляет предсказанное условное или крайнее среднее значение ответа с помощью или исходных значений предиктора или новых значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
random генерирует случайные ответы от подобранной модели.
refit создает новую подбиравшую модель GLME, на основе исходной модели и новый вектор отклика.

Смотрите и визуализируйте остаточные значения

Извлекать и визуализировать остаточные значения подбиравшей модели GLME:

residuals извлекает сырые данные или остаточные значения Пирсона подобранной модели. Можно также задать, вычислить ли условные или крайние остаточные значения.
plotResiduals создает графики с помощью сырых данных или остаточных значений Пирсона подобранной модели, включая:
- Гистограмма остаточных значений
- scatterplot остаточных значений по сравнению с подходящими значениями
- scatterplot остаточных значений по сравнению с изолированными остаточными значениями

Документация