Модели обобщенных линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными с помощью коэффициентов, которые могут варьироваться относительно одной или нескольких сгруппированных переменных для данных с распределением переменной отклика кроме нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собраны и получены в итоге в группах. В качестве альтернативы можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (ЛБМ) для данных, где переменная отклика не нормально распределена.
Модель смешанных эффектов состоит из условий случайных эффектов и фиксированных эффектов. Условия фиксированных эффектов обычно являются обычной частью линейной регрессии модели. Условия случайных эффектов сопоставлены с отдельными экспериментальными модулями, чертившими наугад от населения, и составляют изменения между группами, которые могут влиять на ответ. Случайные эффекты имеют предшествующие распределения, тогда как фиксированные эффекты не делают.
Стандартная форма обобщенной линейной модели смешанных эффектов
где
y является n-by-1 вектор отклика, и yi является свой i th элемент.
b является вектором случайных эффектов.
Distr является заданным условным распределением y, данного b.
μ является условным средним значением y, данного b, и μi является свой i th элемент.
σ 2 является дисперсионным параметром.
w является эффективным вектором веса наблюдения, и wi является весом для наблюдения i.
Для биномиального распределения эффективный вес наблюдения равен предшествующему весу, заданному с помощью 'Weights'
аргумент пары "имя-значение" в fitglme
, умноженный на биномиальный размер, заданный с помощью 'BinomialSize'
аргумент пары "имя-значение".
Для всех других распределений эффективный вес наблюдения равен предшествующему весу, заданному с помощью 'Weights'
аргумент пары "имя-значение" в fitglme
.
g (μ) является функцией ссылки, которая задает отношение между средним ответом μ и линейной комбинацией предикторов.
X является n-by-p, фиксированные эффекты проектируют матрицу.
β является p-by-1 вектор фиксированных эффектов.
Z является n-by-q, случайные эффекты проектируют матрицу.
b является q-by-1 вектор случайных эффектов.
δ является вектором смещения модели.
Модель для среднего ответа μ
где g-1 является инверсией функции ссылки g (μ), и линейный предиктор фиксированных и случайных эффектов обобщенной линейной модели смешанных эффектов
Модель GLME параметрируется β, θ и σ 2.
Предположения для обобщенных линейных моделей смешанных эффектов:
Случайный вектор эффектов b имеет предшествующее распределение:
где σ2 является дисперсионным параметром, и D является симметричной и положительной полуопределенной матрицей, параметрированной неограниченным вектором параметра θ.
Наблюдениями yi является условно независимый данный b.
Чтобы подбирать модель GLME к вашим данным, использовать fitglme
. Отформатируйте свои входные данные с помощью table
тип данных. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет один переменный предиктор. Для получения дополнительной информации о создании и использовании table
, смотрите Создают и работа с Таблицами.
Входные данные могут включать непрерывный и сгруппированные переменные. fitglme
принимает, что предикторы с помощью следующих типов данных являются категориальными:
Логический
Категориальный
Вектор символов или символьный массив
Массив строк
Массив ячеек из символьных векторов
Если таблица входных данных содержит какой-либо NaN
значения, затем fitglme
исключает ту целую строку данных из подгонки. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude'
аргумент пары "имя-значение" fitglme
подбирая модель.
Модели GLME используются, когда данные об ответе не следуют за нормальным распределением. Поэтому при подборе кривой использованию модели fitglme
, необходимо задать тип распределения ответа с помощью 'Distribution'
аргумент пары "имя-значение". Часто, тип данных об ответе предлагает соответствующий тип распределения для модели.
Тип данных об ответе | Предложенный тип распределения ответа |
---|---|
Любое вещественное число | 'Normal' |
Любое положительное число | 'Gamma' или 'InverseGaussian' |
Любое неотрицательное целое число | 'Poisson' |
Целое число от 0 до n, где n является фиксированным положительным значением | 'Binomial' |
Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средним ответом и линейной комбинацией предикторов. По умолчанию, fitglme
использует предопределенный, обычно принимаемую функцию ссылки на основе заданного распределения данных об ответе, как показано в следующей таблице. Однако можно задать различную функцию ссылки из списка предопределенных функций или задать собственное, с помощью 'Link'
аргумент пары "имя-значение" fitglme
.
Значение | Описание |
---|---|
'comploglog' | g(mu) = log(-log(1-mu)) |
'identity' |
Каноническая ссылка для нормального распределения. |
'log' |
Каноническая ссылка для распределения Пуассона. |
'logit' |
Каноническая ссылка для биномиального распределения. |
'loglog' | g(mu) = log(-log(mu)) |
'probit' | g(mu) = norminv(mu) |
'reciprocal' | g(mu) = mu.^(-1) |
Скалярное значение P | g(mu) = mu.^P |
Структуры | Структура, содержащая четыре поля, значения которых являются указателями на функцию:
Если |
При подбирании модели к данным, fitglme
использует каноническую функцию ссылки по умолчанию.
Распределение | Функция ссылки по умолчанию |
---|---|
'Normal' | 'identity' |
'Binomial' | 'logit' |
'Poisson' | 'log' |
'Gamma' | -1
|
'InverseGaussian' | -2
|
Ссылка функционирует 'comploglog'
loglog
, и 'probit'
в основном полезны для биномиальных моделей.
Спецификация модели для fitglme
обозначение Уилкинсона использования, которое является вектором символов или строковым скаляром формы 'y ~ terms'
, где y
имя переменной отклика и terms
написан в следующем обозначении.
Обозначение Уилкинсона | Включает стандартное обозначение |
---|---|
1
| Постоянный (точка пересечения) термин |
X^k , где k положительное целое число | X x2 ..., Xk |
X1 + X2 | X1 x2 |
X1*X2 | X1 x2 , X1.*X2 (element-wise multiplication of X1 and X2) |
X1:X2 | X1.*X2 только |
- X2 | Не включайте X2 |
X1*X2 + X3 | X1 x2 , X3 x1, x2 |
X1 + X2 + X3 + X1:X2 | X1 x2 , X3 x1, x2 |
X1*X2*X3 - X1:X2:X3 | X1 x2 , X3 x1, x2 , X1*X3 , X2*X3 |
X1*(X2 + X3) | X1 x2 , X3 x1, x2 , X1*X3 |
Формулы включают константу (точка пересечения) термин по умолчанию. Чтобы исключить постоянный термин из модели, включайте –1
в формуле.
Для обобщенных линейных моделей смешанных эффектов спецификация формулы имеет форму 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'
, где fixed
и random
содержите фиксированные эффекты и условия случайных эффектов, соответственно.
Предположим, что таблица входных данных содержит следующее:
Переменная отклика, y
Переменные предикторы, X1
x2
..., XJ
, где J является общим количеством переменных предикторов (включая непрерывный и сгруппированные переменные).
Сгруппированные переменные, g1
, g2
..., gR
, где R является количеством сгруппированных переменных.
Сгруппированные переменные в XJ
и gR
может быть категориальным, логическим, символьные массивы, строковые массивы или массивы ячеек из символьных векторов.
Затем в формуле формы 'y ~ fixed + (random1|g1) + ... + (randomR|gR)'
, термин fixed
соответствует спецификации проекта фиксированных эффектов матричный X
, random1
спецификация проекта случайных эффектов матричный Z1
соответствие сгруппированной переменной g1
, и так же randomR
спецификация проекта случайных эффектов матричный ZR
соответствие сгруппированной переменной gR
. Можно описать fixed
и random
условия с помощью обозначения Уилкинсона можно следующим образом.
Формула | Описание |
---|---|
'y ~ X1 + X2' | Фиксированные эффекты для точки пересечения, X1 , и X2 . Эта формула эквивалентна 'y ~ 1 + X1 + X2' . |
'y ~ -1 + X1 + X2' | Никакая точка пересечения, с фиксированными эффектами для X1 и X2 . Неявный термин точки пересечения подавлен включением -1 . |
'y ~ 1 + (1 | g1)' | Фиксированный эффект для точки пересечения, плюс случайный эффект для точки пересечения для каждого уровня сгруппированной переменной g1 . |
'y ~ X1 + (1 | g1)' | Случайная модель точки пересечения с фиксированным наклоном. |
'y ~ X1 + (X1 | g1)' | Случайная точка пересечения и наклон, с возможной корреляцией между ними. Эта формула эквивалентна 'y ~ 1 + X1 + (1 + X1|g1)' . |
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' | Независимые случайные эффекты называют для точки пересечения и наклона. |
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)' | Случайная модель точки пересечения с независимыми основными эффектами для g1 и g2 , плюс независимый эффект взаимодействия. |
Например, выборочные данные mfr
содержит симулированные данные компании-производителя, которая управляет 50 фабриками во всем мире. Каждая фабрика запускает процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала данные по времени вычислений (time_dev
), температура (temp_dev
), количество дефектов (defects
), и категориальная переменная, указывающая на поставщика сырья (supplier
) для каждого пакета.
Определить ли новый процесс (представленный переменным предиктором newprocess
) значительно сокращает количество дефектов, подбирайте модель GLME с помощью newprocess
, time_dev
, temp_dev
, и supplier
как предикторы фиксированных эффектов. Включайте точку пересечения случайных эффектов, сгруппированную factory
, с учетом качественных различий, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects
имеет распределение Пуассона.
Количество дефектов может быть смоделировано с помощью распределения Пуассона
Это соответствует обобщенной линейной модели смешанных эффектов
где
defectsij является количеством дефектов, наблюдаемых в пакете, произведенном фабрикой i (где i = 1, 2..., 20) во время пакетного j (где j = 1, 2..., 5).
μij является средним количеством дефектов, соответствующих фабрике i во время пакетного j.
supplier_Cij и supplier_Bij являются фиктивными переменными, которые указывают ли компания C
или B
, соответственно, предоставленный химикаты процесса для пакета, произведенного фабрикой i во время пакетного j.
bi ~ N (0, σb 2) является точкой пересечения случайных эффектов для каждой фабрики i, который составляет специфичное для фабрики изменение по качеству.
Используя обозначение Уилкинсона, задайте эту модель как:
'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'
С учетом распределения Пуассона переменной отклика, при подборе кривой использованию модели fitglme
, задайте 'Distribution'
аргумент пары "имя-значение" как 'Poisson'
. По умолчанию, fitglme
использует логарифмическую функцию ссылки для переменных отклика с распределением Пуассона.
Выход подходящей функции fitglme
предоставляет информацию об обобщенной линейной модели смешанных эффектов.
Используя mfr
при производстве данных об эксперименте подбирайте модель с помощью newprocess
, time_dev
, temp_dev
, и supplier
как предикторы фиксированных эффектов. Задайте распределение ответа как Пуассона, функцию ссылки как журнал и подходящий метод как Лаплас.
load mfr glme = fitglme(mfr,... 'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',... 'Distribution','Poisson','Link','log','FitMethod','Laplace',... 'DummyVarCoding','effects')
glme = Generalized linear mixed-effects model fit by ML Model information: Number of observations 100 Fixed effects coefficients 6 Random effects coefficients 20 Covariance parameters 1 Distribution Poisson Link Log FitMethod Laplace Formula: defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory) Model fit statistics: AIC BIC LogLikelihood Deviance 416.35 434.58 -201.17 402.35 Fixed effects coefficients (95% CIs): Name Estimate SE tStat DF pValue '(Intercept)' 1.4689 0.15988 9.1875 94 9.8194e-15 'newprocess' -0.36766 0.17755 -2.0708 94 0.041122 'time_dev' -0.094521 0.82849 -0.11409 94 0.90941 'temp_dev' -0.28317 0.9617 -0.29444 94 0.76907 'supplier_C' -0.071868 0.078024 -0.9211 94 0.35936 'supplier_B' 0.071072 0.07739 0.91836 94 0.36078 Lower Upper 1.1515 1.7864 -0.72019 -0.015134 -1.7395 1.5505 -2.1926 1.6263 -0.22679 0.083051 -0.082588 0.22473 Random effects covariance parameters: Group: factory (20 Levels) Name1 Name2 Type Estimate '(Intercept)' '(Intercept)' 'std' 0.31381 Group: Error Name Estimate 'sqrt(Dispersion)' 1
Model information
таблица показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет Poisson
распределение, функцией ссылки является Log
, и подходящим методом является Laplace
.
Formula
указывает на спецификацию модели с помощью обозначения Уилкинсона.
Model fit statistics
табличная статистика отображений раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC
), Байесов информационный критерий (BIC
) значения, логарифмическая вероятность (LogLikelihood
), и отклонение (Deviance
Значения.
Fixed effects coefficients
таблица показывает это fitglme
возвращенные 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name
) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate
) содержит его ориентировочную стоимость и столбец 3 (SE
) содержит стандартную погрешность коэффициента. Столбец 4 (tStat
) содержит t - статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF
) и столбец 6 (pValue
) содержите степени свободы и p - значение, которые соответствуют t - статистическая величина, соответственно. Последние два столбца (Lower
и Upper
) отобразите нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.
Random effects covariance parameters
отображает таблицу для каждой сгруппированной переменной (здесь, только factory
), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std
указывает на это fitglme
возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.
Стандартное отображение, сгенерированное fitglme
не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters
.
После того, как вы создаете использование модели GLME fitglme
, можно использовать дополнительные функции, чтобы работать с моделью.
Извлекать оценки фиксированного - и коэффициенты случайных эффектов, параметры ковариации, матрицы проекта и связанная статистика:
fixedEffects
извлечения оценили коэффициенты фиксированных эффектов и связали статистику от подобранной модели. Связанные статистические данные включают стандартную погрешность; t - статистическая величина, степени свободы, и p - значение для теста гипотезы того, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects
извлечения оценили коэффициенты случайных эффектов и связали статистику из подбиравшей модели GLME. Связанные статистические данные включают предполагаемый эмпирический предиктор Бейеса (EBP) каждого случайного эффекта, квадратный корень из условной среднеквадратической ошибки предсказания (CMSEP), учитывая параметры ковариации и ответ; t - статистическая величина, оцененные степени свободы, и p - значение для теста гипотезы того, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters
извлечения оценили параметры ковариации и связали статистику из подбиравшей модели GLME. Связанные статистические данные включают оценку параметра ковариации и доверительные интервалы.
designMatrix
извлекает матрицы, построенные на основе фиксированных или случайных эффектов или заданное подмножество этого, из подбиравшей модели GLME.
Провести настроенные тесты гипотезы для значения фиксированных - и коэффициенты случайных эффектов и вычислить пользовательские доверительные интервалы:
anova
выполняет крайний F - тест (тест гипотезы) на условиях фиксированных эффектов, чтобы определить, равны ли все коэффициенты, представляющие условия фиксированных эффектов, 0. Можно использовать anova
протестировать объединенное значение коэффициентов категориальных предикторов.
coefCI
вычисляет доверительные интервалы для фиксированного - и параметры случайных эффектов из подбиравшей модели GLME. По умолчанию, fitglme
вычисляет 95% доверительных интервалов. Используйте coefCI
вычислить контуры на различном доверительном уровне.
coefTest
выполняет пользовательские тесты гипотезы на фиксированных эффектах или векторах случайных эффектов из подбиравшей обобщенной линейной модели смешанных эффектов. Например, можно задать контрастные матрицы.
Сгенерировать новые значения отклика, включая подходящие, предсказанные, и случайные ответы, на основе подбиравшей модели GLME:
fitted
вычисляет адаптированные значения отклика с помощью исходных значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
predict
вычисляет предсказанное условное или крайнее среднее значение ответа с помощью или исходных значений предиктора или новых значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.
random
генерирует случайные ответы от подобранной модели.
refit
создает новую подбиравшую модель GLME, на основе исходной модели и новый вектор отклика.
Извлекать и визуализировать остаточные значения подбиравшей модели GLME:
residuals
извлекает сырые данные или остаточные значения Пирсона подобранной модели. Можно также задать, вычислить ли условные или крайние остаточные значения.
plotResiduals
создает графики с помощью сырых данных или остаточных значений Пирсона подобранной модели, включая:
Гистограмма остаточных значений
scatterplot остаточных значений по сравнению с подходящими значениями
scatterplot остаточных значений по сравнению с изолированными остаточными значениями
fitglme
| GeneralizedLinearMixedModel