Обобщенные модели линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными, используя коэффициенты, которые могут варьироваться относительно одной или нескольких сгруппированных переменных, для данных с переменным распределением отклика, отличным от нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собираются и суммируются в группах. Кроме того, можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (LME) для данных, где переменная отклика обычно не распределена.
Модель смешанных эффектов состоит из членов с фиксированными эффектами и случайными эффектами. Условия с фиксированными эффектами обычно являются обычной линейной регрессионой частью модели. Условия случайных эффектов связаны с отдельными экспериментальными модулями, полученными случайным образом из населения, и учитывают изменения между группами, которые могут повлиять на ответ. Случайные эффекты имеют предшествующие распределения, в то время как фиксированные эффекты не имеют.
Стандартная форма обобщенной модели линейных смешанных эффектов
где
y является n вектором отклика -by-1, и yi является его i-м элементом.
b - вектор случайных эффектов.
Distr является заданным условным распределением y заданных b.
μ - условное среднее значение y заданных b, а μi - его i-й элемент.
σ2 - параметр дисперсии.
w - эффективный вектор веса наблюдений, а wi - вес для i наблюдений.
Для биномиального распределения эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme, умноженный на биномиальный размер, заданный с помощью 'BinomialSize' аргумент пары "имя-значение".
Для всех других распределений эффективный вес наблюдения равен предыдущему весу, заданному с помощью 'Weights' аргумент пары "имя-значение" в fitglme.
g (μ) является функцией ссылки, которая задает отношение между средней μ отклика и линейной комбинацией предикторов.
X является n матрицей проекта -by p fixed-effects.
β является вектором p -by-1 с фиксированными эффектами.
Z является n матрицей проекта -by q random-эффектов.
b является q вектором случайных эффектов -by-1.
δ является вектором смещения модели.
Модель для средней μ отклика
где g-1 обратная функции ссылки связи g (μ), и является линейным предиктором фиксированных и случайных эффектов обобщенной модели линейных смешанных эффектов
Модель GLME параметризируется β, θ и σ2.
Допущения для обобщенных моделей линейных смешанных эффектов:
Вектор b случайных эффектов имеет предшествующее распределение:
где2 является параметром дисперсии, а D - симметричной и положительной полуопределенной матрицей, параметризованной вектором θ без ограничений.
yi наблюдений являются условно независимыми по данным b.
Чтобы соответствовать модели GLME своим данным, используйте fitglme. Форматируйте свои входные данные с помощью table тип данных. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет одну переменную предиктора. Для получения дополнительной информации о создании и использовании table, см. Создание и работа с таблицами.
Входные данные могут включать непрерывные и сгруппированные переменные. fitglme принимает, что предикторы, использующие следующие типы данных, категоричны:
Логичный
Категоричный
Вектор символов или символьный массив
Строковые массивы
Массив ячеек из символьных векторов
Если таблица входных данных содержит какие-либо NaN значения, затем fitglme исключает из подгонки целую строку данных. Чтобы исключить дополнительные строки данных, можно использовать 'Exclude' Аргумент пары "имя-значение" из fitglme при подгонке модели.
Модели GLME используются, когда данные отклика не следуют нормальному распределению. Поэтому при подборе модели используйте fitglme, необходимо задать тип распределения отклика с помощью 'Distribution' аргумент пары "имя-значение". Часто, тип данных отклика предполагает соответствующий тип распределения для модели.
| Тип ответных данных | Предлагаемый тип распределения отклика |
|---|---|
| Любое действительное число | 'Normal' |
| Любое положительное число | 'Gamma' или 'InverseGaussian' |
| Любое неотрицательное целое число | 'Poisson' |
| Целое число от 0 до n, где n является фиксированным положительным значением | 'Binomial' |
Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средней характеристикой и линейной комбинацией предикторов. По умолчанию, fitglme использует предопределенную, обычно принятую функцию ссылки, основанную на заданном распределении данных отклика, как показано в следующей таблице. Однако можно задать другую функцию ссылки из списка предопределенных функций или определить свою собственную с помощью 'Link' Аргумент пары "имя-значение" из fitglme.
| Значение | Описание |
|---|---|
'comploglog' | g(mu) = log(-log(1-mu)) |
'identity' |
Каноническая ссылка для нормального распределения. |
'log' |
Каноническая ссылка для распределения Пуассона. |
'logit' |
Каноническая ссылка для биномиального распределения. |
'loglog' | g(mu) = log(-log(mu)) |
'probit' | g(mu) = norminv(mu) |
'reciprocal' | g(mu) = mu.^(-1) |
Скалярное значение P | g(mu) = mu.^P |
Структурные S | Структура, содержащая четыре поля, значения которых являются указателями на функцию:
Если |
При подборе модели к данным, fitglme использует функцию канонической ссылки по умолчанию.
| Распределение | Функция ссылки по умолчанию |
|---|---|
'Normal' | 'identity' |
'Binomial' | 'logit' |
'Poisson' | 'log' |
'Gamma' | -1 |
'InverseGaussian' | -2 |
Функции ссылки 'comploglog', 'loglog', и 'probit' в основном полезны для биномиальных моделей.
Спецификация модели для fitglme использует обозначение Уилкинсона, который является вектором символов или строковым скаляром вида 'y ~ terms', где y - имя переменной отклика, и terms написано в следующем обозначении.
| Уилкинсон Обозначение | Факторы в стандартном обозначении |
|---|---|
1 | Константа ( точку пересечения) термин |
X^k, где k является положительным целым числом | X, X2,..., Xk |
X1 + X2 | X1, X2 |
X1*X2 | X1, X2, X1.*X2 (element-wise multiplication of X1 and X2) |
X1:X2 | X1.*X2 только |
- X2 | Не включать X2 |
X1*X2 + X3 | X1, X2, X3, X1*X2 |
X1 + X2 + X3 + X1:X2 | X1, X2, X3, X1*X2 |
X1*X2*X3 - X1:X2:X3 | X1, X2, X3, X1*X2, X1*X3, X2*X3 |
X1*(X2 + X3) | X1, X2, X3, X1*X2, X1*X3 |
Формулы включают постоянный (перехват) термин по умолчанию. Чтобы исключить постоянный термин из модели, включите –1 в формуле.
Для обобщенных линейных моделей смешанных эффектов спецификация формул имеет вид 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)', где fixed и random содержат фиксированные эффекты и условия случайных эффектов, соответственно.
Предположим, что таблица входных данных содержит следующее:
Переменная отклика, y
Переменные предиктора, X1, X2..., XJ, где J - общее количество переменных предиктора (включая непрерывные и сгруппированные переменные).
Сгруппированные переменные, g1, g2..., gR, где R количество сгруппированных переменных.
The сгруппированных переменных in XJ и gR могут быть категориальными, логическими, символьными массивами, строковыми массивами или массивами ячеек векторов символов.
Затем в формуле вида 'y ~ fixed + (random1|g1) + ... + (randomR|gR)', термин fixed соответствует спецификации матрицы проекта с фиксированными эффектами X, random1 является спецификацией матрицы проекта случайных эффектов Z1 соответствующая сгруппированная переменная g1, и аналогично randomR является спецификацией матрицы проекта случайных эффектов ZR соответствующая сгруппированная переменная gR. Вы можете выразить fixed и random термины, использующие обозначение Уилкинсона следующим образом.
| Формула | Описание |
|---|---|
'y ~ X1 + X2' | Фиксированные эффекты для точки пересечения, X1, и X2. Эта формула эквивалентна 'y ~ 1 + X1 + X2'. |
'y ~ -1 + X1 + X2' | Нет точки пересечения, с фиксированными эффектами для X1 и X2. Неявный термин точки пересечения подавляется включением -1. |
'y ~ 1 + (1 | g1)' | Фиксированный эффект для точки пересечения плюс случайный эффект для точки пересечения для каждого уровня сгруппированной переменной g1. |
'y ~ X1 + (1 | g1)' | Модель случайной точки пересечения с фиксированным уклоном. |
'y ~ X1 + (X1 | g1)' | Случайная точка пересечения и наклон, с возможной корреляцией между ними. Эта формула эквивалентна 'y ~ 1 + X1 + (1 + X1|g1)'. |
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' | Независимые условия случайных эффектов для точки пересечения и наклона. |
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)' | Модель случайной точки пересечения с независимыми основными эффектами для g1 и g2, плюс независимый эффект взаимодействия. |
Для примера, выборочные данные mfr содержит моделируемые данные от производственной компании, которая управляет 50 заводами по всему миру. Каждый завод запускает пакетный процесс для создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих фабрик наугад для участия в эксперименте: Десять фабрик реализовали новый процесс, а другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания запустила пять партий (в общей сложности 100 партий) и записала данные о времени вычислений (time_dev), температура (temp_dev), количество дефектов (defects) и категориальную переменную, указывающую на поставщика сырья (supplier) для каждой партии.
Чтобы определить, является ли новый процесс (представленным переменной предиктора newprocess) значительно уменьшает количество дефектов, подбирает модель GLME используя newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Включите точку пересечения случайных эффектов, сгруппированный по factory, для расчета различий в качестве, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона.
Количество дефектов может быть смоделировано с помощью распределения Пуассона
Это соответствует обобщенной модели линейных смешанных эффектов
где
defectsij - количество дефектов, наблюдаемых в партии, произведенной заводскими i (где i = 1, 2,..., 20) во время партии j (где j = 1, 2,..., 5).
μij - среднее количество дефектов, соответствующих заводским i во время пакетной j.
supplier_Cij и supplier_Bij являются фиктивными переменными, которые указывают, C ли компания или B, соответственно, поставляла химикаты для партии, произведенной заводским i во время j партии.
bi ~ N (0, σb2) является точка пересечения случайных эффектов для каждого производственного i, которая учитывает специфическое для завода изменение качества.
Используя обозначение Уилкинсона, задайте эту модель как:
'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'
Для расчета распределения Пуассона переменной отклика, при подборе модели используя fitglme, задайте 'Distribution' аргумент пары "имя-значение" как 'Poisson'. По умолчанию, fitglme использует функцию log link для переменных отклика с распределением Пуассона.
Выход функции аппроксимации fitglme предоставляет информацию об обобщенной модели линейных смешанных эффектов.
Использование mfr производство данных эксперимента, подбор модели с помощью newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Укажите распределение отклика как Poisson, функцию link - как журнал, а метод fit - как Laplace.
load mfr glme = fitglme(mfr,... 'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',... 'Distribution','Poisson','Link','log','FitMethod','Laplace',... 'DummyVarCoding','effects')
glme =
Generalized linear mixed-effects model fit by ML
Model information:
Number of observations 100
Fixed effects coefficients 6
Random effects coefficients 20
Covariance parameters 1
Distribution Poisson
Link Log
FitMethod Laplace
Formula:
defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)
Model fit statistics:
AIC BIC LogLikelihood Deviance
416.35 434.58 -201.17 402.35
Fixed effects coefficients (95% CIs):
Name Estimate SE tStat DF pValue
'(Intercept)' 1.4689 0.15988 9.1875 94 9.8194e-15
'newprocess' -0.36766 0.17755 -2.0708 94 0.041122
'time_dev' -0.094521 0.82849 -0.11409 94 0.90941
'temp_dev' -0.28317 0.9617 -0.29444 94 0.76907
'supplier_C' -0.071868 0.078024 -0.9211 94 0.35936
'supplier_B' 0.071072 0.07739 0.91836 94 0.36078
Lower Upper
1.1515 1.7864
-0.72019 -0.015134
-1.7395 1.5505
-2.1926 1.6263
-0.22679 0.083051
-0.082588 0.22473
Random effects covariance parameters:
Group: factory (20 Levels)
Name1 Name2 Type Estimate
'(Intercept)' '(Intercept)' 'std' 0.31381
Group: Error
Name Estimate
'sqrt(Dispersion)' 1 The Model information таблица отображает общее количество наблюдений в выборочных данных (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20, соответственно) и количество ковариационных параметров (1). Это также указывает, что переменная отклика имеет Poisson распределение, функция ссылки Log, и метод подгонки Laplace.
Formula указывает спецификацию модели, использующую обозначение Уилкинсона.
The Model fit statistics таблица отображает статистику, используемую для оценки качества подгонки модели. Это включает информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) значения, журнал правдоподобия (LogLikelihood), и отклонение (Deviance) значения.
The Fixed effects coefficients таблица указывает, что fitglme возвращено 95% доверительных интервалов. Он содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate) содержит его расчетное значение и столбец 3 (SE) содержит стандартную ошибку коэффициента. Столбец 4 (tStat) содержит t -статистическую для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержат степени свободы и p -значение, которые соответствуют t -statistic, соответственно. Последние два столбца (Lower и Upper) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента фиксированных эффектов.
Random effects covariance parameters отображает таблицу для каждой сгруппированной переменной (только здесь factory), включая его общее количество уровней (20), и тип и оценку ковариационного параметра. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с заводским предиктором, которое имеет оценочное значение 0,31381. В нем также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его предполагаемое значение 1.
Стандартное отображение, сгенерированное fitglme не предоставляет доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.
После создания модели GLME с помощью fitglmeможно использовать дополнительные функции для работы с моделью.
Чтобы извлечь оценки коэффициентов фиксированных и случайных эффектов, ковариационных параметров, матриц проекта и связанной статистики:
fixedEffects извлекает оцененные коэффициенты фиксированных эффектов и связанную статистику из подобранной модели. Связанные статистические данные включают стандартную ошибку; t -statistic, степени свободы и p - значение для проверки гипотезы, равен ли каждый параметр 0; и доверительные интервалы.
randomEffects извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подобранной модели GLME. Родственная статистика включает предполагаемый эмпирический предиктор Байеса (EBP) каждого случайного эффекта, квадратный корень условной средней квадратичной невязки предсказания (CMSEP), учитывая ковариационные параметры и ответ; t -статистический, предполагаемые степени свободы и p - значение для проверки гипотезы, равен ли каждый случайный эффект 0; и доверительные интервалы.
covarianceParameters извлекает оцененные ковариационные параметры и связанную статистику из подобранной модели GLME. Связанная статистика включает оценку ковариационного параметра и доверительных интервалов.
designMatrix извлекает матрицы проекта фиксированных и случайных эффектов или их заданный подмножество из подобранной модели GLME.
Чтобы провести индивидуальные проверку гипотезы на значимость коэффициентов фиксированных и случайных эффектов и вычислить пользовательские доверительные интервалы:
anova выполняет маргинальный F -test (тест гипотезы) на терминах с фиксированными эффектами, чтобы определить, все ли коэффициенты, представляющие условия с фиксированными эффектами, равны 0. Можно использовать anova проверить совокупную значимость коэффициентов категориальных предикторов.
coefCI вычисляет доверительные интервалы для параметров фиксированных и случайных эффектов из подобранной модели GLME. По умолчанию, fitglme вычисляет 95% доверительные интервалы. Использование coefCI для вычисления контуров на другом доверительном уровне.
coefTest выполняет пользовательские проверку гипотез векторов с фиксированными эффектами или случайными эффектами подобранной обобщенной модели линейных смешанных эффектов. Для примера можно задать контрастные матрицы.
Чтобы сгенерировать новые значения отклика, включая подобранные, предсказанные и случайные отклики, основанные на подобранной модели GLME:
fitted вычисляет подобранные значения отклика с помощью исходных значений предиктора и оценочных коэффициентов и значений параметров из подобранной модели.
predict вычисляет предсказанное условное или маргинальное среднее отклика, используя либо исходные предикторные значения, либо новые предикторные значения, а также оцененный коэффициент и значения параметров от подобранной модели.
random генерирует случайные отклики от подобранной модели.
refit создает новую подобранную модель GLME, основанную на исходной модели и новом векторе отклика.
Чтобы извлечь и визуализировать невязки из подобранной модели GLME:
residuals извлекает необработанные остатки или невязки Пирсона из подобранной модели. Можно также задать, вычислять ли условные или маргинальные невязки.
plotResiduals создает графики с использованием необработанных остатков или невязок Пирсона из подобранной модели, включая:
Гистограмма невязок
Рассеянный график невязок от подобранных значений
Рассеянный график невязок от отстающих невязок
fitglme | GeneralizedLinearMixedModel