Обобщенные линейные модели Смешанных Эффектов

Что обобщено линейные модели Смешанных Эффектов?

Модели обобщенных линейных смешанных эффектов (GLME) описывают отношение между переменной отклика и независимыми переменными с помощью коэффициентов, которые могут отличаться относительно одной или нескольких группирующих переменных для данных с распределением переменной отклика кроме нормального. Можно думать о моделях GLME как о расширениях обобщенных линейных моделей (GLM) для данных, которые собраны и получены в итоге в группах. Также можно думать о моделях GLME как об обобщении линейных моделей смешанных эффектов (ЛБМ) для данных, где переменная отклика не нормально распределена.

Модель смешанных эффектов состоит из условий случайных эффектов и фиксированных эффектов. Условия фиксированных эффектов обычно являются обычной частью линейной регрессии модели. Условия случайных эффектов сопоставлены с отдельными экспериментальными модулями, чертившими наугад от генеральной совокупности, и составляют изменения между группами, которые могут влиять на ответ. Случайные эффекты имеют предшествующие дистрибутивы, тогда как фиксированные эффекты не делают.

Уравнения модели GLME

Стандартная форма обобщенной линейной модели смешанных эффектов

yi|bDistr(μi,σ2wi)

g(μ)=Xβ+Zb+δ,

где

  • y является n-by-1 вектор отклика, и yi является свой i th элемент.

  • b является вектором случайных эффектов.

  • Distr является заданным условным распределением y, данного b.

  • μ является условным средним значением y, данного b, и μi является свой i th элемент.

  • σ 2 является дисперсионным параметром.

  • w является эффективным вектором веса наблюдения, и wi является весом для наблюдения i.

    • Для биномиального распределения эффективный вес наблюдения равен предшествующему весу, заданному с помощью аргумента пары "имя-значение" 'Weights' в fitglme, умноженном на биномиальный размер, заданный с помощью аргумента пары "имя-значение" 'BinomialSize'.

    • Для всех других дистрибутивов эффективный вес наблюдения равен предшествующему весу, заданному с помощью аргумента пары "имя-значение" 'Weights' в fitglme.

  • g (μ) является функцией ссылки, которая задает отношение между средним ответом μ и линейной комбинацией предикторов.

  • X является n-by-p, фиксированные эффекты разрабатывают матрицу.

  • β является p-by-1 вектор фиксированных эффектов.

  • Z является n-by-q, случайные эффекты разрабатывают матрицу.

  • b является q-by-1 вектор случайных эффектов.

  • δ является образцовым вектором смещения.

Модель для среднего ответа μ

μ=g1(η),

где g-1 является инверсией функции ссылки g (μ), и η^ME линейный предиктор фиксированных и случайных эффектов обобщенной линейной модели смешанных эффектов

η=Xβ+Zb+δ.

Модель GLME параметризована β, θ и σ 2.

Предположения для обобщенных линейных моделей смешанных эффектов:

  • Случайный вектор эффектов b имеет предшествующее распределение:

    b|σ2,θN(0,σ2D(θ)),

    где σ2 является дисперсионным параметром, и D является симметричной и положительной полуопределенной матрицей, параметризованной неограниченным вектором параметра θ.

  • Наблюдениями yi является условно независимый данный b.

Подготовка данных для образцового подбора кривой

Чтобы соответствовать модели GLME к вашим данным, используйте fitglme. Отформатируйте свои входные данные с помощью типа данных table. Каждая строка таблицы представляет одно наблюдение, и каждый столбец представляет одну переменную прогноза. Для получения дополнительной информации о создании и использовании table, смотрите, Создают и работа с Таблицами (MATLAB).

Входные данные могут включать непрерывный и группирующие переменные. fitglme принимает, что предикторы с помощью следующих типов данных являются категориальными:

  • Логический

  • Категориальный

  • Вектор символов или символьный массив

  • StringArray

  • Массив ячеек из символьных векторов

Если таблица входных данных содержит какие-либо значения NaN, то fitglme исключает ту целую строку данных из подгонки. Чтобы исключить дополнительные строки данных, можно использовать аргумент пары "имя-значение" 'Exclude' fitglme при подборе кривой модели.

Выберите тип распределения для модели

Модели GLME используются, когда данные об ответе не следуют за нормальным распределением. Поэтому при подборе кривой модели с помощью fitglme, необходимо задать тип распределения ответа с помощью аргумента пары "имя-значение" 'Distribution'. Часто, тип данных об ответе предлагает соответствующий тип распределения для модели.

Тип данных об ответеПредложенный тип распределения ответа
Любое вещественное число'Normal'
Любое положительное число'Gamma' или 'InverseGaussian'
Любое неотрицательное целое число'Poisson'
Целое число от 0 до n, где n является фиксированным положительным значением'Binomial'

Выберите функцию ссылки для модели

Модели GLME используют функцию ссылки, g, чтобы сопоставить отношение между средним ответом и линейной комбинацией предикторов. По умолчанию fitglme использует предопределенный, обычно принимаемую функцию ссылки на основе заданного распределения данных об ответе, как показано в следующей таблице. Однако можно задать различную функцию ссылки из списка предопределенных функций или задать собственное, с помощью аргумента пары "имя-значение" 'Link' fitglme.

ЗначениеОписание
'comploglog'g(mu) = log(-log(1-mu))
'identity'

g(mu) = mu

Каноническая ссылка для нормального распределения.

'log'

g(mu) = log(mu)

Каноническая ссылка для распределения Пуассона.

'logit'

g(mu) = log(mu/(1-mu))

Каноническая ссылка для биномиального распределения.

'loglog'g(mu) = log(-log(mu))
'probit'g(mu) = norminv(mu)
'reciprocal'g(mu) = mu.^(-1)
Скалярное значение Pg(mu) = mu.^P
Структуры

Структура, содержащая четыре поля, значения которых являются указателями на функцию:

  • S.Link — Функция ссылки

  • S.Derivative — Производная

  • S.SecondDerivative — Вторая производная

  • S.Inverse — Инверсия ссылки

Если 'FitMethod' является 'MPL' или 'REMPL', или если S представляет каноническую ссылку для заданного распределения, можно не использовать спецификацию S.SecondDerivative.

При подбирании модели к данным fitglme использует каноническую функцию ссылки по умолчанию.

РаспределениеФункция ссылки по умолчанию
'Normal''identity'
'Binomial''logit'
'Poisson''log'
'Gamma'-1
'InverseGaussian'-2

Функции ссылки 'comploglog', 'loglog' и 'probit' в основном полезны для биномиальных моделей.

Задайте образцовую формулу

Образцовая спецификация для fitglme использует обозначение Уилкинсона, которое является вектором символов или скаляром строки формы 'y ~ terms', где y является именем переменной отклика, и terms написан в следующем обозначении.

Обозначение УилкинсонаВключает стандартное обозначение
1Постоянный (прерывание) термин
X^k, где k является положительным целым числомX, X2..., Xk
X1 + X2X1, x2
X1*X2X1, X2, X1.*X2 (element-wise multiplication of X1 and X2)
X1:X2X1.*X2 только
- X2Не включайте X2
X1*X2 + X3X1, X2, X3, X1*X2
X1 + X2 + X3 + X1:X2X1, X2, X3, X1*X2
X1*X2*X3 - X1:X2:X3X1, X2, X3, X1*X2, X1*X3, X2*X3
X1*(X2 + X3)X1, X2, X3, X1*X2, X1*X3

Формулы включают константу (прерывание) термин по умолчанию. Чтобы исключить постоянный термин из модели, включайте –1 в формулу.

Для обобщенных линейных моделей смешанных эффектов спецификация формулы имеет форму 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)', где fixed и random содержат фиксированные эффекты и условия случайных эффектов, соответственно.

Предположим, что таблица входных данных содержит следующее:

  • Переменная отклика, y

  • Переменные прогноза, X1, X2..., XJ, где J является общим количеством переменных прогноза (включая непрерывный и группирующие переменные).

  • Группирующие переменные, g1, g2..., gR, где R является количеством группирующих переменных.

Группирующие переменные в XJ и gR могут быть категориальными, логическими, символьные массивы, строковые массивы или массивы ячеек из символьных векторов.

Затем в формуле формы 'y ~ fixed + (random1|g1) + ... + (randomR|gR)' термин fixed соответствует спецификации проекта фиксированных эффектов матричный X, random1 является спецификацией проекта случайных эффектов матричный Z1, соответствующий группирующей переменной g1, и так же randomR является спецификацией проекта случайных эффектов матричный ZR, соответствующий группирующей переменной gR. Можно выразить fixed и условия random с помощью обозначения Уилкинсона можно следующим образом.

ФормулаОписание
'y ~ X1 + X2'Фиксированные эффекты для прерывания, X1 и X2. Эта формула эквивалентна 'y ~ 1 + X1 + X2'.
'y ~ -1 + X1 + X2'Никакое прерывание, с фиксированными эффектами для X1 и X2. Неявный термин прерывания подавлен включением -1.
'y ~ 1 + (1 | g1)'Фиксированный эффект для прерывания, плюс случайный эффект для прерывания для каждого уровня группирующей переменной g1.
'y ~ X1 + (1 | g1)'Случайная модель прерывания с фиксированным наклоном.
'y ~ X1 + (X1 | g1)'Случайное прерывание и наклон, с возможной корреляцией между ними. Эта формула эквивалентна 'y ~ 1 + X1 + (1 + X1|g1)'.
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' Независимые случайные эффекты называют для прерывания и наклона.
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)'Случайная модель прерывания с независимыми основными эффектами для g1 и g2, плюс независимый эффект взаимодействия.

Например, выборочные данные, mfr содержит моделируемые данные компании-производителя, которая управляет 50 фабриками во всем мире. Каждая фабрика запускает процесс пакетной обработки, чтобы создать готовое изделие. Компания хочет сократить число дефектов в каждом пакете, таким образом, это разработало новый производственный процесс. Чтобы протестировать эффективность нового процесса, компания выбрала 20 своих фабрик наугад, чтобы участвовать в эксперименте: Десять фабрик реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждой из этих 20 фабрик компания запустила пять пакетов (для в общей сложности 100 пакетов) и записала данные по времени вычислений (time_dev), температура (temp_dev), количество дефектов (defects) и категориальная переменная, указывающая на поставщика сырья (supplier) для каждого пакета.

Чтобы определить, сокращает ли новый процесс (представленный переменной прогноза newprocess) значительно количество дефектов, соответствуйте модели GLME с помощью newprocess, time_dev, temp_dev и supplier как предикторы фиксированных эффектов. Включайте прерывание случайных эффектов, сгруппированное factory, чтобы составлять качественные различия, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

defectsij~Poisson(μij)

Это соответствует обобщенной линейной модели смешанных эффектов

журнал(μij)=β0+β1newprocessij+β2time_devij+β3temp_devij+β4supplier_Cij+β5supplier_Bij+bi,

где

  • defectsij является количеством дефектов, наблюдаемых в пакете, произведенном фабрикой i (где i = 1, 2..., 20) во время пакетного j (где j = 1, 2..., 5).

  • μij является средним количеством дефектов, соответствующих фабрике i во время пакетного j.

  • supplier_Cij и supplier_Bij являются фиктивными переменными, которые указывают или компания C, или B, соответственно, предоставил химикаты процесса для пакета, произведенного фабрикой i во время пакетного j.

  • bi ~ N (0, σb 2) является прерыванием случайных эффектов для каждой фабрики i, который составляет специфичное для фабрики изменение по качеству.

Используя обозначение Уилкинсона, задайте эту модель как:

'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'

Чтобы составлять распределение Пуассона переменной отклика, при подборе кривой модели с помощью fitglme, задают аргумент пары "имя-значение" 'Distribution' как 'Poisson'. По умолчанию fitglme использует логарифмическую функцию ссылки для переменных отклика с распределением Пуассона.

Отобразите модель

Вывод подходящего функционального fitglme предоставляет информацию об обобщенной линейной модели смешанных эффектов.

Используя mfr, производящий данные об эксперименте, соответствуйте модели с помощью newprocess, time_dev, temp_dev и supplier как предикторы фиксированных эффектов. Задайте распределение ответа как Пуассона, функцию ссылки как журнал и подходящий метод как Лаплас.

load mfr

glme = fitglme(mfr,...
		'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)',...
		'Distribution','Poisson','Link','log','FitMethod','Laplace',...
		'DummyVarCoding','effects')
glme = 


Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1       

Таблица Model information показывает общее количество наблюдений в выборочных данных (100), количество фиксированных - и коэффициенты случайных эффектов (6 и 20, соответственно), и количество параметров ковариации (1). Это также указывает, что переменная отклика имеет распределение Poisson, функцией ссылки является Log, и подходящим методом является Laplace.

Formula указывает на образцовую спецификацию с помощью обозначения Уилкинсона.

Статистика отображений таблицы Model fit statistics раньше оценивала качество подгонки модели. Это включает критерий информации о Akaike (AIC), Байесов информационный критерий (BIC) значения, логарифмическая вероятность (LogLikelihood) и отклонение (Deviance) значения.

Таблица Fixed effects coefficients показывает, что fitglme возвратил 95% доверительных интервалов. Это содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую тому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента фиксированных эффектов, столбец 2 (Estimate) содержит свою ориентировочную стоимость, и столбец 3 (SE) содержит стандартную погрешность коэффициента. Столбец 4 (tStat) содержит t - статистическая величина для теста гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержит степени свободы и p - значение, которые соответствуют t - статистическая величина, соответственно. Последние два столбца (Lower и Upper) отображают нижние и верхние пределы, соответственно, 95%-го доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой группирующей переменной (здесь, только factory), включая его общее количество уровней (20), и тип и оценка параметра ковариации. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с предиктором фабрики, который имеет ориентировочную стоимость 0,31381. Это также отображает таблицу, содержащую тип параметра ошибок (здесь, квадратный корень из дисперсионного параметра), и его ориентировочная стоимость 1.

Стандартное отображение, сгенерированное fitglme, не обеспечивает доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Работа с моделью

После того, как вы создадите модель GLME с помощью fitglme, можно использовать дополнительные функции, чтобы работать с моделью.

Осмотрите и протестируйте коэффициенты и доверительные интервалы

Извлекать оценки фиксированного - и коэффициенты случайных эффектов, параметры ковариации, матрицы проекта и связанная статистика:

  • fixedEffects извлекает оцененные коэффициенты фиксированных эффектов и связанную статистику от подобранной модели. Связанные статистические данные включают стандартную погрешность; t - статистическая величина, степени свободы, и p - значение для теста гипотезы того, равен ли каждый параметр 0; и доверительные интервалы.

  • randomEffects извлекает оцененные коэффициенты случайных эффектов и связанную статистику из подходящей модели GLME. Связанные статистические данные включают предполагаемый эмпирический предиктор Бейеса (EBP) каждого случайного эффекта, квадратный корень из условной среднеквадратической ошибки прогноза (CMSEP), учитывая параметры ковариации и ответ; t - статистическая величина, оцененные степени свободы, и p - значение для теста гипотезы того, равен ли каждый случайный эффект 0; и доверительные интервалы.

  • covarianceParameters извлекает оцененные параметры ковариации и связанную статистику из подходящей модели GLME. Связанные статистические данные включают оценку параметра ковариации и доверительные интервалы.

  • designMatrix извлекает фиксированное - и случайные эффекты разрабатывают матрицы или заданное подмножество этого, из подходящей модели GLME.

Провести настроенные тесты гипотезы для значения фиксированных - и коэффициенты случайных эффектов и вычислить пользовательские доверительные интервалы:

  • anova выполняет крайний F - тест (тест гипотезы) на условиях фиксированных эффектов, чтобы определить, равны ли все коэффициенты, представляющие условия фиксированных эффектов, 0. Можно использовать anova, чтобы протестировать объединенное значение коэффициентов категориальных предикторов.

  • coefCI вычисляет доверительные интервалы для фиксированного - и параметры случайных эффектов из подходящей модели GLME. По умолчанию fitglme вычисляет 95% доверительных интервалов. Используйте coefCI, чтобы вычислить контуры на различном доверительном уровне.

  • coefTest выполняет пользовательские тесты гипотезы на фиксированных эффектах или векторах случайных эффектов подходящей обобщенной линейной модели смешанных эффектов. Например, можно задать контрастные матрицы.

Сгенерируйте новые значения ответа и модель ремонта

Сгенерировать новые значения ответа, включая подходящие, предсказанные, и случайные ответы, на основе подходящей модели GLME:

  • fitted вычисляет адаптированные значения ответа с помощью исходных значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.

  • predict вычисляет предсказанное условное или крайнее среднее значение ответа с помощью или исходных значений предиктора или новых значений предиктора, и предполагаемого коэффициента и значений параметров от подобранной модели.

  • random генерирует случайные ответы от подобранной модели.

  • refit создает новую подходящую модель GLME, на основе исходной модели и новый вектор отклика.

Осмотрите и визуализируйте невязки

Извлекать и визуализировать невязки из подходящей модели GLME:

  • residuals извлекает сырые данные или невязки Пирсона от подобранной модели. Можно также задать, вычислить ли условные или крайние невязки.

  • plotResiduals создает графики с помощью сырых данных или невязок Пирсона от подобранной модели, включая:

    • Гистограмма невязок

    • scatterplot невязок по сравнению с подходящими значениями

    • scatterplot невязок по сравнению с изолированными невязками

Смотрите также

|

Похожие темы