Модели обобщенных линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными с помощью коэффициентов, которые могут отличаться относительно одной или нескольких группирующих переменных для данных с распределением переменной отклика кроме нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собраны и получены в итоге в группах. Также можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (ЛБМ) для данных, где переменная отклика не нормально распределена.
Модель смешанных эффектов состоит из условий случайных эффектов и фиксированных эффектов. Условия фиксированных эффектов обычно являются обычной частью линейной регрессии модели. Условия случайных эффектов сопоставлены с отдельными экспериментальными модулями, чертившими наугад от генеральной совокупности, и составляют изменения между группами, которые могут влиять на ответ. Случайные эффекты имеют предшествующие дистрибутивы, тогда как фиксированные эффекты не делают.
Стандартная форма обобщенной линейной модели смешанных эффектов
где
y является n-by-1 вектор отклика, и yi является свой i th элемент.
b является вектором случайных эффектов.
Distr является заданным условным распределением y, данного b.
μ является условным средним значением y, данного b, и μi является свой i th элемент.
σ 2 является дисперсионным параметром.
w является эффективным вектором веса наблюдения, и wi является весом для наблюдения i.
Для биномиального распределения эффективный вес наблюдения равен предшествующему весу, заданному с помощью аргумента пары "имя-значение" 'Weights'
в fitglme
, умноженном на биномиальный размер, заданный с помощью аргумента пары "имя-значение" 'BinomialSize'
.
Для всех других дистрибутивов эффективный вес наблюдения равен предшествующему весу, заданному с помощью аргумента пары "имя-значение" 'Weights'
в fitglme
.
g (μ) является функцией ссылки, которая задает отношение между средним ответом μ и линейной комбинацией предикторов.
X является n-by-p, фиксированные эффекты разрабатывают матрицу.
β является p-by-1 вектор фиксированных эффектов.
Z является n-by-q, случайные эффекты разрабатывают матрицу.
b является q-by-1 вектор случайных эффектов.
δ является образцовым вектором смещения.
Модель для среднего ответа μ
где g-1 является инверсией функции ссылки g (μ), и линейный предиктор фиксированных и случайных эффектов обобщенной линейной модели смешанных эффектов
Модель GLME параметризована β, θ и σ 2.
Предположения для обобщенных линейных моделей смешанных эффектов:
Случайный вектор эффектов b имеет предшествующее распределение:
где σ2 является дисперсионным параметром, и D является симметричной и положительной полуопределенной матрицей, параметризованной неограниченным вектором параметра θ.
Наблюдениями yi является условно независимый данный b.
Чтобы соответствовать модели GLME к вашим данным, используйте fitglme
. Отформатируйте свои входные данные с помощью типа данных table
. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет одну переменную прогноза. Для получения дополнительной информации о создании и использовании table
, смотрите, Создают и работа с Таблицами (MATLAB).
Входные данные могут включать непрерывный и группирующие переменные. fitglme
принимает, что предикторы с помощью следующих типов данных являются категориальными:
Логический
Категориальный
Вектор символов или символьный массив
StringArray
Массив ячеек из символьных векторов
Если таблица входных данных содержит какие-либо значения NaN
, то fitglme
исключает ту целую строку данных из подгонки. Чтобы исключить дополнительные строки данных, можно использовать аргумент пары "имя-значение" 'Exclude'
fitglme
при подборе кривой модели.
Модели GLME используются, когда данные об ответе не следуют за нормальным распределением. Поэтому при подборе кривой модели с помощью fitglme
, необходимо задать тип распределения ответа с помощью аргумента пары "имя-значение" 'Distribution'
. Часто, тип данных об ответе предлагает соответствующий тип распределения для модели.
Тип данных об ответе | Предложенный тип распределения ответа |
---|---|
Любое вещественное число | 'Normal' |
Любое положительное число | 'Gamma' или 'InverseGaussian' |
Любое неотрицательное целое число | 'Poisson' |
Целое число от 0 до n, где n является фиксированным положительным значением | 'Binomial' |
Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средним ответом и линейной комбинацией предикторов. По умолчанию fitglme
использует предопределенный, обычно принимаемую функцию ссылки на основе заданного распределения данных об ответе, как показано в следующей таблице. Однако можно задать различную функцию ссылки из списка предопределенных функций или задать собственное, с помощью аргумента пары "имя-значение" 'Link'
fitglme
.
Значение | Описание |
---|---|
'comploglog' | g(mu) = log(-log(1-mu)) |
'identity' |
Каноническая ссылка для нормального распределения. |
'log' |
Каноническая ссылка для распределения Пуассона. |
'logit' |
Каноническая ссылка для биномиального распределения. |
'loglog' | g(mu) = log(-log(mu)) |
'probit' | g(mu) = norminv(mu) |
'reciprocal' | g(mu) = mu.^(-1) |
Скалярное значение P | g(mu) = mu.^P |
Структуры | Структура, содержащая четыре поля, значения которых являются указателями на функцию:
Если |
При подбирании модели к данным fitglme
использует каноническую функцию ссылки по умолчанию.
Распределение | Функция ссылки по умолчанию |
---|---|
'Normal' | 'identity' |
'Binomial' | 'logit' |
'Poisson' | 'log' |
'Gamma' | -1 |
'InverseGaussian' | -2 |
Функции ссылки 'comploglog'
, 'loglog'
и 'probit'
в основном полезны для биномиальных моделей.
Образцовая спецификация для fitglme
использует обозначение Уилкинсона, которое является вектором символов или скаляром строки формы 'y ~ terms'
, где y
является именем переменной отклика, и terms
написан в следующем обозначении.
Обозначение Уилкинсона | Включает стандартное обозначение |
---|---|
1 | Постоянный (прерывание) термин |
X^k , где k является положительным целым числом | X , X2 ..., Xk |
X1 + X2 | X1, x2
|
X1*X2 | X1 , X2 , X1.*X2 (element-wise multiplication of X1 and X2) |
X1:X2 | X1.*X2 только |
- X2 | Не включайте X2 |
X1*X2 + X3 | X1 , X2 , X3 , X1*X2 |
X1 + X2 + X3 + X1:X2 | X1 , X2 , X3 , X1*X2 |
X1*X2*X3 - X1:X2:X3 | X1 , X2 , X3 , X1*X2 , X1*X3 , X2*X3 |
X1*(X2 + X3) | X1 , X2 , X3 , X1*X2 , X1*X3 |
Формулы включают константу (прерывание) термин по умолчанию. Чтобы исключить постоянный термин из модели, включайте –1
в формулу.
Для обобщенных линейных моделей смешанных эффектов спецификация формулы имеет форму 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'
, где fixed
и random
содержат фиксированные эффекты и условия случайных эффектов, соответственно.
Предположим, что таблица входных данных содержит следующее:
Переменная отклика, y
Переменные прогноза, X1
, X2
..., XJ
, где J является общим количеством переменных прогноза (включая непрерывный и группирующие переменные).
Группирующие переменные, g1
, g2
..., gR
, где R является количеством группирующих переменных.
Группирующие переменные в XJ
и gR
могут быть категориальными, логическими, символьные массивы, строковые массивы или массивы ячеек из символьных векторов.
Затем в формуле формы 'y ~ fixed + (random1|g1) + ... + (randomR|gR)'
термин fixed
соответствует спецификации проекта фиксированных эффектов матричный X
, random1
является спецификацией проекта случайных эффектов матричный Z1
, соответствующий группирующей переменной g1
, и так же randomR
является спецификацией проекта случайных эффектов матричный ZR
, соответствующий группирующей переменной gR
. Можно выразить fixed
и условия random
с помощью обозначения Уилкинсона можно следующим образом.
Формула | Описание |
---|---|
'y ~ X1 + X2' | Фиксированные эффекты для прерывания, X1 и X2 . Эта формула эквивалентна 'y ~ 1 + X1 + X2' . |
'y ~ -1 + X1 + X2' | Никакое прерывание, с фиксированными эффектами для X1 и X2 . Неявный термин прерывания подавлен включением -1 . |
'y ~ 1 + (1 | g1)' | Фиксированный эффект для прерывания, плюс случайный эффект для прерывания для каждого уровня группирующей переменной g1 . |
'y ~ X1 + (1 | g1)' | Случайная модель прерывания с фиксированным наклоном. |
'y ~ X1 + (X1 | g1)' | Случайное прерывание и наклон, с возможной корреляцией между ними. Эта формула эквивалентна 'y ~ 1 + X1 + (1 + X1|g1)' . |
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' | Независимые случайные эффекты называют для прерывания и наклона. |
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)' | Случайная модель прерывания с независимыми основными эффектами для g1 и g2 , плюс независимый эффект взаимодействия. |
Например, выборочные данные, mfr
содержит моделируемые данные компании-производителя, которая управляет 50 фабриками во всем мире. Каждая фабрика запускает процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала данные по времени вычислений (time_dev
), температура (temp_dev
), количество дефектов (defects
) и категориальная переменная, указывающая на поставщика сырья (supplier
) для каждого пакета.
Чтобы определить, сокращает ли новый процесс (представленный переменной прогноза newprocess
) значительно количество дефектов, соответствуйте модели GLME с помощью newprocess
, time_dev
, temp_dev
и supplier
как предикторы фиксированных эффектов. Включайте прерывание случайных эффектов, сгруппированное factory
, чтобы составлять качественные различия, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects
имеет распределение Пуассона.
Количество дефектов может быть смоделировано с помощью распределения Пуассона
Это соответствует обобщенной линейной модели смешанных эффектов
где
defectsij является количеством дефектов, наблюдаемых в пакете, произведенном фабрикой i (где i = 1, 2..., 20) во время пакетного j (где j = 1, 2..., 5).
μij является средним количеством дефектов, соответствующих фабрике i во время пакетного j.
supplier_Cij и supplier_Bij являются фиктивными переменными, которые указывают или компания C
, или B
, соответственно, предоставил химикаты процесса для пакета, произведенного фабрикой i во время пакетного j.
bi ~ N (0, σb 2) является прерыванием случайных эффектов для каждой фабрики i, который составляет специфичное для фабрики изменение по качеству.
Используя обозначение Уилкинсона, задайте эту модель как:
'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'
Чтобы составлять распределение Пуассона переменной отклика, при подборе кривой модели с помощью fitglme
, задают аргумент пары "имя-значение" 'Distribution'
как 'Poisson'
. По умолчанию fitglme
использует логарифмическую функцию ссылки для переменных отклика с распределением Пуассона.
Вывод подходящего функционального fitglme
предоставляет информацию об обобщенной линейной модели смешанных эффектов.
Используя mfr
, производящий данные об эксперименте, соответствуйте модели с помощью newprocess
, time_dev
, temp_dev
и supplier
как предикторы фиксированных эффектов. Задайте распределение ответа как Пуассона, функцию ссылки как журнал и подходящий метод как Лаплас.
load mfr glme = fitglme(mfr,... 'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',... 'Distribution','Poisson','Link','log','FitMethod','Laplace',... 'DummyVarCoding','effects')
glme = Generalized linear mixed-effects model fit by ML Model information: Number of observations 100 Fixed effects coefficients 6 Random effects coefficients 20 Covariance parameters 1 Distribution Poisson Link Log FitMethod Laplace Formula: defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory) Model fit statistics: AIC BIC LogLikelihood Deviance 416.35 434.58 -201.17 402.35 Fixed effects coefficients (95% CIs): Name Estimate SE tStat DF pValue '(Intercept)' 1.4689 0.15988 9.1875 94 9.8194e-15 'newprocess' -0.36766 0.17755 -2.0708 94 0.041122 'time_dev' -0.094521 0.82849 -0.11409 94 0.90941 'temp_dev' -0.28317 0.9617 -0.29444 94 0.76907 'supplier_C' -0.071868 0.078024 -0.9211 94 0.35936 'supplier_B' 0.071072 0.07739 0.91836 94 0.36078 Lower Upper 1.1515 1.7864 -0.72019 -0.015134 -1.7395 1.5505 -2.1926 1.6263 -0.22679 0.083051 -0.082588 0.22473 Random effects covariance parameters: Group: factory (20 Levels) Name1 Name2 Type Estimate '(Intercept)' '(Intercept)' 'std' 0.31381 Group: Error Name Estimate 'sqrt(Dispersion)' 1
Таблица Model information
показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет распределение Poisson
, функцией ссылки является Log
, и подходящим методом является Laplace
.
Formula
указывает на образцовую спецификацию с помощью обозначения Уилкинсона.
Статистика отображений таблицы Model fit statistics
раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC
), Байесов информационный критерий (BIC
) значения, логарифмическая вероятность (LogLikelihood
) и отклонение (Deviance
) значения.
Таблица Fixed effects coefficients
показывает, что fitglme
возвратил 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name
) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate
) содержит свою ориентировочную стоимость, и столбец 3 (SE
) содержит стандартную погрешность коэффициента. Столбец 4 (tStat
) содержит t - статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF
) и столбец 6 (pValue
) содержит степени свободы и p - значение, которые соответствуют t - статистическая величина, соответственно. Последние два столбца (Lower
и Upper
) отображают нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.
Random effects covariance parameters
отображает таблицу для каждой группирующей переменной (здесь, только factory
), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std
указывает, что fitglme
возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.
Стандартное отображение, сгенерированное fitglme
, не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters
.
После того, как вы создадите модель GLME с помощью fitglme
, можно использовать дополнительные функции, чтобы работать с моделью.
Извлекать оценки фиксированного - и коэффициенты случайных эффектов, параметры ковариации, матрицы проекта и связанная статистика:
fixedEffects
извлекает оцененные коэффициенты фиксированных эффектов и связанную статистику от подобранной модели. Связанные статистические данные включают стандартную погрешность; t - статистическая величина, степени свободы, и p - значение для теста гипотезы того, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects
извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подходящей модели GLME. Связанные статистические данные включают предполагаемый эмпирический предиктор Бейеса (EBP) каждого случайного эффекта, квадратный корень из условной среднеквадратической ошибки прогноза (CMSEP), учитывая параметры ковариации и ответ; t - статистическая величина, оцененные степени свободы, и p - значение для теста гипотезы того, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters
извлекает оцененные параметры ковариации и связанную статистику из подходящей модели GLME. Связанные статистические данные включают оценку параметра ковариации и доверительные интервалы.
designMatrix
извлекает фиксированное - и случайные эффекты разрабатывают матрицы или заданное подмножество этого, из подходящей модели GLME.
Провести настроенные тесты гипотезы для значения фиксированных - и коэффициенты случайных эффектов и вычислить пользовательские доверительные интервалы:
anova
выполняет крайний F - тест (тест гипотезы) на условиях фиксированных эффектов, чтобы определить, равны ли все коэффициенты, представляющие условия фиксированных эффектов, 0. Можно использовать anova
, чтобы протестировать объединенное значение коэффициентов категориальных предикторов.
coefCI
вычисляет доверительные интервалы для фиксированного - и параметры случайных эффектов из подходящей модели GLME. По умолчанию fitglme
вычисляет 95% доверительных интервалов. Используйте coefCI
, чтобы вычислить контуры на различном доверительном уровне.
coefTest
выполняет пользовательские тесты гипотезы на фиксированных эффектах или векторах случайных эффектов подходящей обобщенной линейной модели смешанных эффектов. Например, можно задать контрастные матрицы.
Сгенерировать новые значения ответа, включая подходящие, предсказанные, и случайные ответы, на основе подходящей модели GLME:
fitted
вычисляет адаптированные значения ответа с помощью исходных значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
predict
вычисляет предсказанное условное или крайнее среднее значение ответа с помощью или исходных значений предиктора или новых значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
random
генерирует случайные ответы от подобранной модели.
refit
создает новую подходящую модель GLME, на основе исходной модели и новый вектор отклика.
Извлекать и визуализировать невязки из подходящей модели GLME:
residuals
извлекает сырые данные или невязки Пирсона от подобранной модели. Можно также задать, вычислить ли условные или крайние невязки.
plotResiduals
создает графики с помощью сырых данных или невязок Пирсона от подобранной модели, включая:
Гистограмма невязок
scatterplot невязок по сравнению с подходящими значениями
scatterplot невязок по сравнению с изолированными невязками
GeneralizedLinearMixedModel
| fitglme