exponenta event banner

Класс GeneralizedLinearTramedModel

Обобщенный класс модели с линейными смешанными эффектами

Описание

A GeneralizedLinearMixedModel объект представляет регрессионную модель переменной отклика, которая содержит как фиксированные, так и случайные эффекты. Объект содержит данные, описание модели, подогнанные коэффициенты, ковариационные параметры, матрицы проектирования, остатки, остаточные графики и другую диагностическую информацию для обобщенной модели линейных смешанных эффектов (GLME). Вы можете предсказать ответы модели с помощью predict и генерировать случайные данные в новых точках проектирования с помощью random функция.

Строительство

Модель с обобщенными линейными смешанными эффектами (GLME) можно подогнать к образцу данных с помощью fitglme(tbl,formula). Дополнительные сведения см. в разделе fitglme.

Входные аргументы

развернуть все

Входные данные, которые включают переменную ответа, переменные предиктора и переменные группировки, указанные как таблица или массив наборов данных. Переменные предиктора могут быть непрерывными или группирующими переменными (см. Группирование переменных). Необходимо указать модель для переменных с помощью formula.

Типы данных: table

Формула для спецификации модели, заданная как вектор символа или скаляр строки формы 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'. Полное описание см. в разделе Формула.

Пример: 'y ~ treatment +(1|block)'

Свойства

развернуть все

Оценки коэффициентов с фиксированными эффектами и связанной статистики, хранящиеся в виде массива наборов данных, который имеет одну строку для каждого коэффициента и следующие столбцы:

  • Name - Наименование коэффициента

  • Estimate - Расчетное значение коэффициента

  • SE - Стандартная погрешность оценки

  • tStat - t-статистика для теста, что коэффициент равен 0

  • DF - Степени свободы, связанные со статистикой t

  • pValue - p-значение для t-статистики

  • Lower - Нижний доверительный предел

  • Upper - Верхний доверительный предел

Чтобы получить любой из этих столбцов в виде вектора, выполните индексирование в свойство с помощью точечной нотации.

Используйте coefTest способ проведения других тестов коэффициентов.

Ковариация оцененного вектора с фиксированными эффектами, хранящегося в виде матрицы.

Типы данных: single | double

Имена коэффициентов с фиксированными эффектами, хранящиеся в виде массива ячеек символьных векторов. Метка для коэффициента постоянного члена (Intercept). Метки для других коэффициентов указывают члены, которые они умножают. Когда термин включает категориальный предиктор, метка также указывает уровень этого предиктора.

Типы данных: cell

Степени свободы для ошибок, хранящиеся как положительное целое значение. DFE - количество наблюдений минус количество оценочных коэффициентов.

DFE содержит степени свободы, соответствующие 'Residual' способ вычисления степеней свободы знаменателя для гипотезных тестов по коэффициентам с фиксированными эффектами. Если n - число наблюдений, а p - число коэффициентов с фиксированными эффектами, то DFE равно n - p.

Типы данных: double

Параметр дисперсии модели, хранящийся как скалярное значение. Параметр дисперсии определяет условную дисперсию отклика.

Для наблюдения i условная дисперсия отклика yi, учитывая условное среднее λ i и дисперсионный параметр start2, в обобщённой линейной модели смешанных эффектов равна

var (yi 'pcii, start2) =

где wi - i-й вес наблюдения, а v - функция дисперсии для заданного условного распределения отклика. Dispersion Свойство содержит оценку, равную start2, для указанной модели GLME. Значение Dispersion зависит от указанного условного распределения ответа. Для биномиальных и пуассоновых распределений теоретическое значение Dispersion равно start2 = 1,0.

  • Если FitMethod является MPL или REMPL и 'DispersionFlag' аргумент пары имя-значение в fitglme является true, то параметр дисперсии оценивается из данных для всех распределений, включая биномиальные и пуассоновы распределения.

  • Если FitMethod является ApproximateLaplace или Laplace, то 'DispersionFlag' аргумент пары имя-значение в fitglme не применяется, и параметр дисперсии зафиксирован на уровне 1,0 для биномиальных и пуассоновских распределений. Для всех других дистрибутивов, Dispersion оценивается по данным.

Типы данных: double

Флаг, указывающий оценочный параметр дисперсии, сохраненный как логическое значение.

  • Если FitMethod является ApproximateLaplace или Laplace, затем фиксируют параметр дисперсии при его теоретическом значении 1,0 для биномиального и пуассоновского распределений, и DispersionEstimated является false. Для других распределений параметр дисперсии оценивается на основе данных, и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и 'DispersionFlag' аргумент пары имя-значение в fitglme указывается как true, то параметр дисперсии оценивается для всех распределений, включая биномиальные и пуассоновы распределения, и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и 'DispersionFlag' аргумент пары имя-значение в fitglme указывается как false, затем фиксируют параметр дисперсии при его теоретическом значении для биномиального и пуассоновского распределений, и DispersionEstimated является false. Для распределений, отличных от биномиальных и пуассоновских, параметр дисперсии оценивается по данным, и DispersionEstimated является true.

Типы данных: logical

Имя рассылки ответа, сохраненное как одно из следующих:

  • 'Normal' - Нормальное распределение

  • 'Binomial' - Биномиальное распределение

  • 'Poisson' - распределение Пуассона

  • 'Gamma' - Гамма-распределение

  • 'InverseGaussian' - Обратное гауссово распределение

Метод, используемый для подгонки модели, сохраненный как один из следующих.

  • 'MPL' - Максимальное псевдоправдоподобие

  • 'REMPL' - Ограниченная максимальная псевдопонятность

  • 'ApproximateLaplace' - Максимальная вероятность с помощью приближенного метода Лапласа с профилированными фиксированными эффектами

  • 'Laplace' - Максимальная вероятность с помощью метода Лапласа

Формула спецификации модели, сохраненная как объект. Формула спецификации модели использует нотацию Уилкинсона для описания взаимосвязи между терминами фиксированных эффектов, терминами случайных эффектов и переменными группировки в модели GLME. Дополнительные сведения см. в разделе Формула.

Log функции правдоподобия, оцениваемой при оцененных значениях коэффициентов, хранящихся как скалярное значение. LogLikelihood зависит от метода, используемого для подгонки модели.

  • Если вы используете 'Laplace' или 'ApproximateLaplace', то LogLikelihood является максимизированным логарифмическим правдоподобием.

  • Если вы используете 'MPL', то LogLikelihood является максимизированным логарифмическим правдоподобием псевдоданных из окончательной псевдопонятной итерации.

  • Если вы используете 'REMPL', то LogLikelihood является максимизированным ограниченным логарифмическим правдоподобием псевдоданных из окончательной псевдопонятной итерации.

Типы данных: double

Критерий модели для сравнения подогнанных обобщенных линейных моделей смешанных эффектов, хранящихся в виде таблицы со следующими полями.

ОбластьОписание
AICИнформационный критерий Акаике
BICБайесовский информационный критерий
LogLikelihood
  • Для подгонки модели с помощью 'Laplace' или 'ApproximateLaplace', LogLikelihood является максимизированным логарифмическим правдоподобием.

  • Для подгонки модели с помощью 'MPL', LogLikelihood является максимизированным логарифмическим правдоподобием псевдоданных из окончательной псевдопонятной итерации.

  • Для подгонки модели с помощью 'REMPL', LogLikelihood является максимизированным ограниченным логарифмическим правдоподобием псевдоданных из окончательной псевдопонятной итерации.

Deviance-2 раза LogLikelihood

Количество коэффициентов с фиксированными эффектами в аппроксимированной модели с обобщенными линейными смешанными эффектами, сохраненное как положительное целое значение.

Типы данных: double

Количество оцененных коэффициентов с фиксированными эффектами в аппроксимированной модели с обобщенными линейными смешанными эффектами, сохраненных в виде положительного целого значения.

Типы данных: double

Количество наблюдений, используемых в аппроксимации, хранящихся как положительное целое значение. NumObservations - количество строк в таблице или массиве наборов данных tbl, минус строки, исключенные с помощью 'Exclude' пара имя-значение fitglme или строки, содержащие NaN значения.

Типы данных: double

Количество переменных, используемых в качестве предикторов в обобщенной линейной модели смешанных эффектов, хранящихся как положительное целое значение.

Типы данных: double

Общее количество переменных, включая отклик и предикторы, сохраненных как положительное целое значение. Если образец данных находится в таблице или массиве наборов данных tbl, то NumVariables - общее число переменных в tbl, включая переменную ответа. NumVariables включает переменные, если таковые имеются, которые не используются в качестве предикторов или в качестве ответа.

Типы данных: double

Сведения о наблюдениях, используемых при посадке, хранятся в виде таблицы.

ObservationInfo имеет одну строку для каждого наблюдения и следующие столбцы.

ИмяОписание
WeightsЗначение веса для наблюдения. Значение по умолчанию - 1.
ExcludedЕсли наблюдение было исключено из посадки с помощью 'Exclude' аргумент пары имя-значение в fitglme, то Excluded является true, или 1. В противном случае Excluded является false, или 0.
Missing

Если наблюдение было исключено из соответствия, потому что отсутствует какой-либо ответ или значение предиктора, то Missing является true. В противном случае Missing является false.

Отсутствующие значения включают NaN для числовых переменных, пустые ячейки для массивов ячеек, пустые строки для символьных массивов и <undefined> значение для категориальных массивов.

SubsetЕсли наблюдение использовалось при посадке, то Subset является true. Если наблюдение не использовалось в посадке, поскольку оно отсутствует или исключено, то Subset является false.
BinomSizeБиномиальный размер для каждого наблюдения. Этот столбец применяется только при подгонке биномиального распределения.

Типы данных: table

Имена наблюдений, используемых в подгонке, хранящихся в виде клеточного массива символьных векторов.

  • Если данные находятся в таблице или массиве наборов данных tbl который содержит имена наблюдений, то ObservationNames использует эти имена.

  • Если данные предоставляются в матрицах или в таблице или массиве наборов данных без имен наблюдений, то ObservationNames является пустым массивом ячеек.

Типы данных: cell

Имена переменных, используемых в качестве предикторов в аппроксимации, хранятся в виде клеточного массива символьных векторов, имеющих ту же длину, что и NumPredictors.

Типы данных: cell

Имя переменной, используемой в качестве ответной переменной в подгонке, хранящейся в виде символьного вектора.

Типы данных: char

Доля изменчивости в ответе, объясненная подогнанной моделью, хранящейся в виде структуры. Rsquared содержит значение R-квадрата аппроксимированной модели, также известное как коэффициент множественной корреляции. Rsquared содержит следующие поля.

ОбластьОписание
OrdinaryR-квадрат, хранящийся как скалярное значение в структуре.
Rsquared.Ordinary = 1 — SSE./SST
AdjustedR-квадратичное значение, скорректированное на количество коэффициентов с фиксированными эффектами, сохраненное как скалярное значение в структуре.
Rsquared.Adjusted = 1 — (SSE./SST)*(DFT./DFE),
где DFE = n – p, DFT = n – 1, n - общее число наблюдений, и p - количество коэффициентов с фиксированными эффектами.

Типы данных: struct

Сумма ошибок квадратов, сохраненная как положительное скалярное значение. SSE является взвешенной суммой возведенных в квадрат условных остатков и рассчитывается как

SSE=∑i=1nwieff (yi fi) 2,

где n - число наблюдений, wieff - ith эффективный вес, yi - ith отклик, а fi - ith аппроксимированное значение.

i-й эффективный вес рассчитывается как

wieff = {wivi (мкi (β ^, b ^))},

где vi - член дисперсии для i-го наблюдения, β ^ и b ^ - оценочные значения β и b соответственно.

i-е установленное значение рассчитывается как

fi = g 1 (xiTβ ^ + ziTb ^ + δi),

где xiT - i-я строка матрицы X проектирования с фиксированными эффектами, а ziT - i-я строка матрицы Z. δi проектирования со случайными эффектами - i-е значение смещения.

Типы данных: double

Регрессионная сумма квадратов, сохраненная как положительное скалярное значение. SSR - сумма квадратов, объясняемая обобщенной линейной регрессией смешанных эффектов, или эквивалентно взвешенная сумма квадратичных отклонений условных аппроксимированных значений от их средневзвешенного значения. SSR рассчитывается как

SSR=∑i=1Nwieff (fi f) 2,

где n - число наблюдений, wieff - i-й эффективный вес, fi - i-е подходящее значение, f - средневзвешенное значение соответствующих значений.

i-й эффективный вес рассчитывается как

wieff = {wivi (мкi (β ^, b ^))},

где β ^ и b ^ - оценочные значения β и b соответственно.

i-е установленное значение рассчитывается как

fi = g 1 (xiTβ ^ + ziTb ^ + δi),

где xiT - i-я строка матрицы X проектирования с фиксированными эффектами, а ziT - i-я строка матрицы Z. δi проектирования со случайными эффектами - i-е значение смещения.

Средневзвешенное подогнанных значений рассчитывается как

f¯=[∑i=1nwiefffi]∑i=1nwieff.

Типы данных: double

Общая сумма квадратов, сохраненная как положительное скалярное значение. Для модели GLME SST определяется как SST = SSE + SSR.

Типы данных: double

Сведения о переменных, используемых в подгонке, хранятся в виде таблицы. VariableInfo имеет одну строку для каждой переменной и содержит следующие столбцы.

Имя столбцаОписание
ClassКласс переменной ('double', 'cell', 'nominal'и так далее).
Range

Диапазон значений переменной.

  • Для числовой переменной: Range - двухэлементный вектор вида [min,max].

  • Для ячейки или категориальной переменной Range является ячейкой или категориальным массивом, содержащим все уникальные значения переменной.

InModel

Если переменная является предиктором в подогнанной модели, InModel является true.

Если переменная отсутствует в подогнанной модели, InModel является false.

IsCategorical

Если тип переменной рассматривается как категориальный предиктор (например, клеточный, логический или категориальный), то IsCategorical является true.

Если переменная является непрерывным предиктором, то IsCategorical является false.

Типы данных: table

Имена всех переменных, содержащихся в таблице или массиве наборов данных tbl, хранящийся как массив ячеек символьных векторов.

Типы данных: cell

Переменные, хранящиеся в виде таблицы. Если аппроксимация основана на таблице или массиве наборов данных tbl, то Variables идентичен tbl.

Типы данных: table

Функции объекта

anovaАнализ дисперсии для обобщенной линейной модели смешанных эффектов
coefCIДоверительные интервалы для коэффициентов обобщенной линейной модели смешанных эффектов
coefTestТест гипотез о фиксированных и случайных эффектах обобщенной линейной модели смешанных эффектов
compareСравнение обобщенных линейных моделей смешанных эффектов
covarianceParametersИзвлечь ковариационные параметры обобщенной линейной модели смешанных эффектов
designMatrixМатрицы проектирования с фиксированными и случайными эффектами
fittedПодогнанные ответы из обобщенной линейной модели смешанных эффектов
fixedEffectsОценки фиксированных эффектов и смежная статистика
partialDependenceВычислить частичную зависимость
plotPartialDependenceСоздание графиков частичной зависимости (PDP) и индивидуального условного ожидания (ICE)
plotResidualsОстатки графика обобщенной линейной модели смешанных эффектов
predictПрогнозировать отклик обобщенной линейной модели смешанных эффектов
randomГенерировать случайные отклики из подогнанной модели обобщенных линейных смешанных эффектов
randomEffectsОценки случайных эффектов и соответствующая статистика
refit Переработка обобщенной линейной модели смешанных эффектов
residualsОстатки подогнанной обобщенной линейной модели смешанных эффектов
responseВектор ответа обобщенной линейной модели смешанных эффектов

Примеры

свернуть все

Загрузите образцы данных.

load mfr

Эти смоделированные данные получены от производственной компании, которая эксплуатирует 50 заводов по всему миру, причем на каждом заводе выполняется пакетный процесс создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих заводов случайным образом для участия в эксперименте: Десять заводов реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания провела пять партий (всего 100 партий) и записала следующие данные:

  • Флаг, указывающий, использовала ли партия новый процесс (newprocess)

  • Время обработки для каждой партии, в часах (time)

  • Температура партии, в градусах Цельсия (temp)

  • Категориальная переменная, указывающая поставщика (A, B, или C) химического вещества, используемого в партии (supplier)

  • Количество дефектов в партии (defects)

Данные также включают time_dev и temp_dev, которые представляют собой абсолютное отклонение времени и температуры соответственно от технологического стандарта 3 часов при 20 градусах Цельсия.

Подгонка обобщенной линейной модели смешанных эффектов с использованием newprocess, time_dev, temp_dev, и supplier в качестве предикторов с фиксированными эффектами. Включить термин случайных эффектов для перехвата, сгруппированного по factory, чтобы учесть различия в качестве, которые могут существовать из-за специфичных для завода вариаций. Переменная ответа defects имеет распределение Пуассона, и соответствующей функцией связи для этой модели является log. Для оценки коэффициентов используется метод аппроксимации Лапласа. Укажите фиктивную кодировку переменной как 'effects'так что фиктивные переменные коэффициенты суммируются до 0.

Количество дефектов можно смоделировать с помощью распределения Пуассона

defectsij∼Poisson (мкидж)

Это соответствует обобщенной линейной модели смешанных эффектов

log (micij) = β0 + β1newprocessij + β2time _ devij + β3temp _ devij + β4supplier _ Cij + β5supplier _ Bij + bi,

где

  • defectsij - количество дефектов, наблюдаемых в партии, произведенной заводом i во время партии j.

  • pciij - среднее число дефектов, соответствующих заводу i (где i = 1,2,..., 20) во время партии j (где j = 1,2,..., 5).

  • newprocessij, time_devij и temp_devij являются измерениями для каждой переменной, которые соответствуют фабрике i во время партии j. Например, newprocessij указывает, использовала ли партия, произведенная заводом i во время партии j, новый процесс.

  • supplier_Cij и supplier_Bij являются фиктивными переменными, которые используют кодирование эффектов (сумма к нулю), чтобы указать, C или B, соответственно, поставлялись технологические химикаты для партии, произведенной заводом i во время партии j.

  • bi∼N (0, startb2) - перехват случайных эффектов для каждой фабрики i, который учитывает специфичные для фабрики вариации качества.

glme = fitglme(mfr,'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)', ...
    'Distribution','Poisson','Link','log','FitMethod','Laplace','DummyVarCoding','effects');

Отображение модели.

disp(glme)
Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                   Estimate     SE          tStat       DF    pValue    
    {'(Intercept)'}           1.4689     0.15988      9.1875    94    9.8194e-15
    {'newprocess' }         -0.36766     0.17755     -2.0708    94      0.041122
    {'time_dev'   }        -0.094521     0.82849    -0.11409    94       0.90941
    {'temp_dev'   }         -0.28317      0.9617    -0.29444    94       0.76907
    {'supplier_C' }        -0.071868    0.078024     -0.9211    94       0.35936
    {'supplier_B' }         0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                  Name2                  Type           Estimate
    {'(Intercept)'}        {'(Intercept)'}        {'std'}        0.31381 

Group: Error
    Name                        Estimate
    {'sqrt(Dispersion)'}        1       

Model information таблица отображает общее количество наблюдений в данных выборки (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20 соответственно) и количество параметров ковариации (1). Это также указывает, что переменная ответа имеет Poisson распределение, функция линии связи Log, и метод подгонки Laplace.

Formula указывает спецификацию модели с помощью нотации Уилкинсона.

Model fit statistics В таблице представлены статистические данные, используемые для оценки соответствия модели. Это включает в себя информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) значения, логарифмическое правдоподобие (LogLikelihood) и отклонение (Deviance) значения.

Fixed effects coefficients таблица показывает, что fitglme возвращены 95% доверительные интервалы. Он содержит одну строку для каждого предиктора с фиксированными эффектами, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate) содержит его оценочное значение и столбец 3 (SE) содержит стандартную ошибку коэффициента. Колонка 4 (tStat) содержит t-статистику для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF) и колонку 6 (pValue) содержат степени свободы и p-значение, которые соответствуют t-статистике соответственно. Последние два столбца (Lower и Upper) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента с фиксированными эффектами.

Random effects covariance parameters отображает таблицу для каждой переменной группировки (здесь, только factory), включая его общее количество уровней (20), и тип и оценку параметра ковариации. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, связанного с заводским предиктором, которое имеет оценочное значение 0,31381. Также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его оценочное значение 1.

Стандартный экран, созданный fitglme не обеспечивает доверительные интервалы для параметров случайных эффектов. Для вычисления и отображения этих значений используйте covarianceParameters.

Подробнее

развернуть все