Обобщенные модели линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными, используя коэффициенты, которые могут варьироваться относительно одной или нескольких сгруппированных переменных, для данных с переменным распределением отклика, отличным от нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собираются и суммируются в группах. Кроме того, можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (LME) для данных, где переменная отклика обычно не распределена.
Модель смешанных эффектов состоит из членов с фиксированными эффектами и случайными эффектами. Условия с фиксированными эффектами обычно являются обычной линейной регрессионой частью модели. Условия случайных эффектов связаны с отдельными экспериментальными модулями, полученными случайным образом из населения, и учитывают изменения между группами, которые могут повлиять на ответ. Случайные эффекты имеют предшествующие распределения, в то время как фиксированные эффекты не имеют.
Стандартная форма обобщенной модели линейных смешанных эффектов
где
y является n вектором отклика -by-1, и yi является его i-м элементом.
b - вектор случайных эффектов.
Distr является заданным условным распределением y заданных b.
μ - условное среднее значение y заданных b, а μi - его i-й элемент.
σ2 - параметр дисперсии.
w - эффективный вектор веса наблюдений, а wi - вес для i наблюдений.
Для биномиального распределения эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights'
аргумент пары "имя-значение" в fitglme
, умноженный на биномиальный размер, заданный с помощью 'BinomialSize'
аргумент пары "имя-значение".
Для всех других распределений эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights'
аргумент пары "имя-значение" в fitglme
.
g (μ) является функцией ссылки, которая задает отношение между средней μ отклика и линейной комбинацией предикторов.
X является n матрицей проекта -by p fixed-effects.
β является вектором p -by-1 с фиксированными эффектами.
Z является n матрицей проекта -by q random-эффектов.
b является q вектором случайных эффектов -by-1.
δ является вектором смещения модели.
Модель для средней μ отклика
где g-1 обратная функции ссылки связи g (μ), и является линейным предиктором фиксированных и случайных эффектов обобщенной модели линейных смешанных эффектов
Модель GLME параметризируется β, θ и σ2.
Допущения для обобщенных моделей линейных смешанных эффектов:
Вектор b случайных эффектов имеет предшествующее распределение:
где2 является параметром дисперсии, а D - симметричной и положительной полуопределенной матрицей, параметризованной вектором θ без ограничений.
yi наблюдений являются условно независимыми по данным b.
Чтобы соответствовать модели GLME своим данным, используйте fitglme
. Форматируйте свои входные данные с помощью table
тип данных. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет одну переменную предиктора. Для получения дополнительной информации о создании и использовании table
, см. Создание и работа с таблицами.
Входные данные могут включать непрерывные и сгруппированные переменные. fitglme
принимает, что предикторы, использующие следующие типы данных, категоричны:
Логичный
Категоричный
Вектор символов или символьный массив
Строковые массивы
Массив ячеек из символьных векторов
Если таблица входных данных содержит какие-либо NaN
значения, затем fitglme
исключает из подгонки целую строку данных. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude'
Аргумент пары "имя-значение" из fitglme
при подгонке модели.
Модели GLME используются, когда данные отклика не следуют нормальному распределению. Поэтому при подборе модели используйте fitglme
, необходимо задать тип распределения отклика с помощью 'Distribution'
аргумент пары "имя-значение". Часто, тип данных отклика предполагает соответствующий тип распределения для модели.
Тип ответных данных | Предлагаемый тип распределения отклика |
---|---|
Любое действительное число | 'Normal' |
Любое положительное число | 'Gamma' или 'InverseGaussian' |
Любое неотрицательное целое число | 'Poisson' |
Целое число от 0 до n, где n является фиксированным положительным значением | 'Binomial' |
Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средней характеристикой и линейной комбинацией предикторов. По умолчанию, fitglme
использует предопределенную, обычно принятую функцию ссылки, основанную на заданном распределении данных отклика, как показано в следующей таблице. Однако можно задать другую функцию ссылки из списка предопределенных функций или определить свою собственную с помощью 'Link'
Аргумент пары "имя-значение" из fitglme
.
Значение | Описание |
---|---|
'comploglog' | g(mu) = log(-log(1-mu)) |
'identity' |
Каноническая ссылка для нормального распределения. |
'log' |
Каноническая ссылка для распределения Пуассона. |
'logit' |
Каноническая ссылка для биномиального распределения. |
'loglog' | g(mu) = log(-log(mu)) |
'probit' | g(mu) = norminv(mu) |
'reciprocal' | g(mu) = mu.^(-1) |
Скалярное значение P | g(mu) = mu.^P |
Структурные S | Структура, содержащая четыре поля, значения которых являются указателями на функцию:
Если |
При подборе модели к данным, fitglme
использует функцию канонической ссылки по умолчанию.
Распределение | Функция ссылки по умолчанию |
---|---|
'Normal' | 'identity' |
'Binomial' | 'logit' |
'Poisson' | 'log' |
'Gamma' | -1 |
'InverseGaussian' | -2 |
Функции ссылки 'comploglog'
, 'loglog'
, и 'probit'
в основном полезны для биномиальных моделей.
Спецификация модели для fitglme
использует обозначение Уилкинсона, который является вектором символов или строковым скаляром вида 'y ~ terms'
, где y
- имя переменной отклика, и terms
написано в следующем обозначении.
Уилкинсон Обозначение | Факторы в стандартном обозначении |
---|---|
1 | Константа ( точку пересечения) термин |
X^k , где k является положительным целым числом | X , X2 ,..., Xk |
X1 + X2 | X1 , X2 |
X1*X2 | X1 , X2 , X1.*X2 (element-wise multiplication of X1 and X2) |
X1:X2 | X1.*X2 только |
- X2 | Не включать X2 |
X1*X2 + X3 | X1 , X2 , X3 , X1*X2 |
X1 + X2 + X3 + X1:X2 | X1 , X2 , X3 , X1*X2 |
X1*X2*X3 - X1:X2:X3 | X1 , X2 , X3 , X1*X2 , X1*X3 , X2*X3 |
X1*(X2 + X3) | X1 , X2 , X3 , X1*X2 , X1*X3 |
Формулы включают постоянный (перехват) термин по умолчанию. Чтобы исключить постоянный термин из модели, включите –1
в формуле.
Для обобщенных линейных моделей смешанных эффектов спецификация формул имеет вид 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'
, где fixed
и random
содержат фиксированные эффекты и условия случайных эффектов, соответственно.
Предположим, что таблица входных данных содержит следующее:
Переменная отклика, y
Переменные предиктора, X1
, X2
..., XJ
, где J - общее количество переменных предиктора (включая непрерывные и сгруппированные переменные).
Сгруппированные переменные, g1
, g2
..., gR
, где R количество сгруппированных переменных.
The сгруппированных переменных in XJ
и gR
могут быть категориальными, логическими, символьными массивами, строковыми массивами или массивами ячеек векторов символов.
Затем в формуле вида 'y ~ fixed + (random1|g1) + ... + (randomR|gR)'
, термин fixed
соответствует спецификации матрицы проекта с фиксированными эффектами X
, random1
является спецификацией матрицы проекта случайных эффектов Z1
соответствующая сгруппированная переменная g1
, и аналогично randomR
является спецификацией матрицы проекта случайных эффектов ZR
соответствующая сгруппированная переменная gR
. Вы можете выразить fixed
и random
термины, использующие обозначение Уилкинсона следующим образом.
Формула | Описание |
---|---|
'y ~ X1 + X2' | Фиксированные эффекты для точки пересечения, X1 , и X2 . Эта формула эквивалентна 'y ~ 1 + X1 + X2' . |
'y ~ -1 + X1 + X2' | Нет точки пересечения, с фиксированными эффектами для X1 и X2 . Неявный термин точки пересечения подавляется включением -1 . |
'y ~ 1 + (1 | g1)' | Фиксированный эффект для точки пересечения плюс случайный эффект для точки пересечения для каждого уровня сгруппированной переменной g1 . |
'y ~ X1 + (1 | g1)' | Модель случайной точки пересечения с фиксированным уклоном. |
'y ~ X1 + (X1 | g1)' | Случайная точка пересечения и наклон, с возможной корреляцией между ними. Эта формула эквивалентна 'y ~ 1 + X1 + (1 + X1|g1)' . |
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' | Независимые условия случайных эффектов для точки пересечения и наклона. |
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)' | Модель случайной точки пересечения с независимыми основными эффектами для g1 и g2 , плюс независимый эффект взаимодействия. |
Для примера, выборочные данные mfr
содержит моделируемые данные от производственной компании, которая управляет 50 заводами по всему миру. Каждый завод запускает пакетный процесс для создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих фабрик наугад для участия в эксперименте: Десять фабрик реализовали новый процесс, а другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания запустила пять партий (в общей сложности 100 партий) и записала данные о времени вычислений (time_dev
), температура (temp_dev
), количество дефектов (defects
) и категориальную переменную, указывающую на поставщика сырья (supplier
) для каждой партии.
Чтобы определить, является ли новый процесс (представленным переменной предиктора newprocess
) значительно уменьшает количество дефектов, подбирает модель GLME используя newprocess
, time_dev
, temp_dev
, и supplier
как предикторы фиксированных эффектов. Включите точку пересечения случайных эффектов, сгруппированный по factory
, для расчета различий в качестве, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects
имеет распределение Пуассона.
Количество дефектов может быть смоделировано с помощью распределения Пуассона
Это соответствует обобщенной модели линейных смешанных эффектов
где
defectsij - количество дефектов, наблюдаемых в партии, произведенной заводскими i (где i = 1, 2,..., 20) во время партии j (где j = 1, 2,..., 5).
μij - среднее количество дефектов, соответствующих заводским i во время пакетной j.
supplier_Cij и supplier_Bij являются фиктивными переменными, которые указывают, C
ли компания или
B
, соответственно, поставляла химикаты для партии, произведенной заводским i во время j партии.
bi ~ N (0, σb2) является точка пересечения случайных эффектов для каждого производственного i, которая учитывает специфическое для завода изменение качества.
Используя обозначение Уилкинсона, задайте эту модель как:
'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'
Для расчета распределения Пуассона переменной отклика, при подборе модели используя fitglme
, задайте 'Distribution'
аргумент пары "имя-значение" как 'Poisson'
. По умолчанию, fitglme
использует функцию log link для переменных отклика с распределением Пуассона.
Выход функции аппроксимации fitglme
предоставляет информацию об обобщенной модели линейных смешанных эффектов.
Использование mfr
производство данных эксперимента, подбор модели с помощью newprocess
, time_dev
, temp_dev
, и supplier
как предикторы фиксированных эффектов. Укажите распределение отклика как Poisson, функцию link - как журнал, а метод fit - как Laplace.
load mfr glme = fitglme(mfr,... 'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',... 'Distribution','Poisson','Link','log','FitMethod','Laplace',... 'DummyVarCoding','effects')
glme = Generalized linear mixed-effects model fit by ML Model information: Number of observations 100 Fixed effects coefficients 6 Random effects coefficients 20 Covariance parameters 1 Distribution Poisson Link Log FitMethod Laplace Formula: defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory) Model fit statistics: AIC BIC LogLikelihood Deviance 416.35 434.58 -201.17 402.35 Fixed effects coefficients (95% CIs): Name Estimate SE tStat DF pValue '(Intercept)' 1.4689 0.15988 9.1875 94 9.8194e-15 'newprocess' -0.36766 0.17755 -2.0708 94 0.041122 'time_dev' -0.094521 0.82849 -0.11409 94 0.90941 'temp_dev' -0.28317 0.9617 -0.29444 94 0.76907 'supplier_C' -0.071868 0.078024 -0.9211 94 0.35936 'supplier_B' 0.071072 0.07739 0.91836 94 0.36078 Lower Upper 1.1515 1.7864 -0.72019 -0.015134 -1.7395 1.5505 -2.1926 1.6263 -0.22679 0.083051 -0.082588 0.22473 Random effects covariance parameters: Group: factory (20 Levels) Name1 Name2 Type Estimate '(Intercept)' '(Intercept)' 'std' 0.31381 Group: Error Name Estimate 'sqrt(Dispersion)' 1
The Model information
таблица отображает общее количество наблюдений в выборочных данных (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20, соответственно) и количество ковариационных параметров (1). Это также указывает, что переменная отклика имеет Poisson
распределение, функция ссылки Log
, и метод подгонки Laplace
.
Formula
указывает спецификацию модели, использующую обозначение Уилкинсона.
The Model fit statistics
таблица отображает статистику, используемую для оценки качества подгонки модели. Это включает информационный критерий Акаике (AIC
), байесовский информационный критерий (BIC
) значения, журнал правдоподобия (LogLikelihood
), и отклонение (Deviance
) значения.
The Fixed effects coefficients
таблица указывает, что fitglme
возвращено 95% доверительных интервалов. Он содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name
) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate
) содержит его расчетное значение и столбец 3 (SE
) содержит стандартную ошибку коэффициента. Столбец 4 (tStat
) содержит t -статистическую для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF
) и столбец 6 (pValue
) содержат степени свободы и p -значение, которые соответствуют t -statistic, соответственно. Последние два столбца (Lower
и Upper
) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента фиксированных эффектов.
Random effects covariance parameters
отображает таблицу для каждой сгруппированной переменной (только здесь factory
), включая его общее количество уровней (20), и тип и оценку ковариационного параметра. Здесь, std
указывает, что fitglme
возвращает стандартное отклонение случайного эффекта, сопоставленного с заводским предиктором, которое имеет оценочное значение 0,31381. В нем также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его предполагаемое значение 1.
Стандартное отображение, сгенерированное fitglme
не предоставляет доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters
.
После создания модели GLME с помощью fitglme
можно использовать дополнительные функции для работы с моделью.
Чтобы извлечь оценки коэффициентов фиксированных и случайных эффектов, ковариационных параметров, матриц проекта и связанной статистики:
fixedEffects
извлекает оцененные коэффициенты фиксированных эффектов и связанную статистику из подобранной модели. Связанные статистические данные включают стандартную ошибку; t -statistic, степени свободы и p - значение для проверки гипотезы, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects
извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подобранной модели GLME. Родственная статистика включает предполагаемый эмпирический предиктор Байеса (EBP) каждого случайного эффекта, квадратный корень условной средней квадратичной невязки предсказания (CMSEP), учитывая ковариационные параметры и ответ; t -статистический, предполагаемые степени свободы и p - значение для проверки гипотезы, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters
извлекает оцененные ковариационные параметры и связанную статистику из подобранной модели GLME. Связанная статистика включает оценку ковариационного параметра и доверительных интервалов.
designMatrix
извлекает матрицы проекта фиксированных и случайных эффектов или их заданный подмножество из подобранной модели GLME.
Чтобы провести индивидуальные проверку гипотезы на значимость коэффициентов фиксированных и случайных эффектов и вычислить пользовательские доверительные интервалы:
anova
выполняет маргинальный F -test (тест гипотезы) на терминах с фиксированными эффектами, чтобы определить, все ли коэффициенты, представляющие условия с фиксированными эффектами, равны 0. Можно использовать anova
проверить совокупную значимость коэффициентов категориальных предикторов.
coefCI
вычисляет доверительные интервалы для параметров фиксированных и случайных эффектов из подобранной модели GLME. По умолчанию, fitglme
вычисляет 95% доверительные интервалы. Использование coefCI
для вычисления контуров на другом доверительном уровне.
coefTest
выполняет пользовательские проверку гипотез векторов с фиксированными эффектами или случайными эффектами подобранной обобщенной модели линейных смешанных эффектов. Для примера можно задать контрастные матрицы.
Чтобы сгенерировать новые значения отклика, включая подобранные, предсказанные и случайные отклики, основанные на подобранной модели GLME:
fitted
вычисляет подобранные значения отклика с помощью исходных значений предиктора и оценочных коэффициентов и значений параметров из подобранной модели.
predict
вычисляет предсказанное условное или маргинальное среднее отклика, используя либо исходные предикторные значения, либо новые предикторные значения, а также оцененный коэффициент и значения параметров от подобранной модели.
random
генерирует случайные отклики от подобранной модели.
refit
создает новую подобранную модель GLME, основанную на исходной модели и новом векторе отклика.
Чтобы извлечь и визуализировать невязки из подобранной модели GLME:
residuals
извлекает необработанные остатки или невязки Пирсона из подобранной модели. Можно также задать, вычислять ли условные или маргинальные невязки.
plotResiduals
создает графики с использованием необработанных остатков или невязок Пирсона из подобранной модели, включая:
Гистограмма невязок
Рассеянный график невязок от подобранных значений
Рассеянный график невязок от отстающих невязок
fitglme
| GeneralizedLinearMixedModel