GeneralizedLinearMixedModel class

Обобщенный класс модели линейных смешанных эффектов

Описание

A GeneralizedLinearMixedModel объект представляет регрессионную модель переменной отклика, которая содержит как фиксированные, так и случайные эффекты. Объект содержит данные, описание модели, подобранные коэффициенты, ковариационные параметры, матрицы проекта, невязки, остаточные графики и другую диагностическую информацию для обобщенной модели линейных смешанных эффектов (GLME). Можно предсказать ответы модели с помощью predict и генерируйте случайные данные в новых проектных точках, используя random функция.

Конструкция

Можно подгонять обобщенную модель линейных смешанных эффектов (GLME) для выборочных данных с помощью fitglme(tbl,formula). Для получения дополнительной информации см. fitglme.

Входные параметры

расширить все

Входные данные, который включает переменную отклика, переменные предиктора и сгруппированные переменные, заданные как таблица или массив набора данных. Переменные предиктора могут быть непрерывными или сгруппированные переменные (см. Сгруппированные переменные). Вы должны задать модель для переменных, используя formula.

Типы данных: table

Формула для спецификации модели, заданная как вектор символов или строковый скаляр вида 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'. Полное описание см. в Формуле.

Пример: 'y ~ treatment +(1|block)'

Свойства

расширить все

Оценки коэффициентов с фиксированными эффектами и связанной статистики, сохраненные как массив набора данных, который имеет одну строку для каждого коэффициента и следующие столбцы:

  • Name - Имя коэффициента

  • Estimate - Расчетное значение коэффициента

  • SE - Стандартная ошибка оценки

  • tStat - t -статистический для теста, что коэффициент равен 0

  • DF - Степени свободы, связанные с t статистикой

  • pValue - p -value для t -statistic

  • Lower - Нижний доверительный предел

  • Upper - Верхний доверительный предел

Чтобы получить любой из этих столбцов в качестве вектора, индексируйте в свойство с помощью записи через точку.

Используйте coefTest метод для выполнения других тестов коэффициентов.

Ковариация предполагаемого вектора с фиксированными эффектами, сохраненная в виде матрицы.

Типы данных: single | double

Имена коэффициентов с фиксированными эффектами, сохраненные как массив ячеек из векторов символов. Метка для коэффициента постоянного члена (Intercept). Метки для других коэффициентов указывают условия, которые они умножают. Когда термин включает категориальный предиктор, метка также указывает уровень этого предиктора.

Типы данных: cell

Степени свободы от ошибки, сохраненные как положительное целое значение. DFE количество наблюдений минус количество оцененных коэффициентов.

DFE содержит степени свободы, соответствующие 'Residual' способ вычисления знаменательных степеней свободы для проверки гипотез на коэффициентах с фиксированными эффектами. Если n - количество наблюдений, а p - количество коэффициентов с фиксированными эффектами, то DFE равно n - p.

Типы данных: double

Моделируйте параметр дисперсии, сохраненный в виде скалярного значения. Параметр дисперсии задает условное отклонение отклика.

Для i наблюдений условное отклонение отклика y i, учитывая условное среднее мкi и параметр дисперсии σ2, в обобщенной линейной модели смешанных эффектов,

var(yi|μi,σ2)=σ2wiv(μi),

где w i - i-й вес наблюдения, а v - функция отклонения для заданного условного распределения отклика. The Dispersion свойство содержит оценку σ2 для указанной модели GLME. Значение Dispersion зависит от заданного условного распределения отклика. Для биномиальных и Пуассоновых распределений теоретическое значение Dispersion равно σ2 = 1.0.

  • Если FitMethod является MPL или REMPL и 'DispersionFlag' аргумент пары "имя-значение" в fitglme является true, затем параметр дисперсии оценивается из данных для всех распределений, включая биномиальные и распределения Пуассона.

  • Если FitMethod является ApproximateLaplace или Laplace, затем 'DispersionFlag' аргумент пары "имя-значение" в fitglme не применяется, и параметр дисперсии фиксируется на уровне 1.0 для биномиальных и пуассоновских распределений. Для всех других распределений Dispersion оценивается из данных.

Типы данных: double

Флаг, указывающий предполагаемый параметр дисперсии, сохраненный как логическое значение.

  • Если FitMethod является ApproximateLaplace или Laplace, затем параметр дисперсии фиксируется на своем теоретическом значении 1,0 для биномиальных и пуассоновских распределений, и DispersionEstimated является false. Для других распределений параметр дисперсии оценивается из данных и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и 'DispersionFlag' аргумент пары "имя-значение" в fitglme задается как true, затем параметр дисперсии оценивается для всех распределений, включая биномиальные и Пуассоновские распределения, и DispersionEstimated является true.

  • Если FitMethod является MPL или REMPL, и 'DispersionFlag' аргумент пары "имя-значение" в fitglme задается как false, затем параметр дисперсии фиксируется на своем теоретическом значении для биномиальных и пуассоновских распределений, и DispersionEstimated является false. Для распределений, отличных от биномиальных и Пуассона, параметр дисперсии оценивается из данных и DispersionEstimated является true.

Типы данных: logical

Имя распределения отклика, сохраненное как одно из следующего:

  • 'Normal' - Нормальное распределение

  • 'Binomial' - Биномиальное распределение

  • 'Poisson' - Распределение Пуассона

  • 'Gamma' - Гамма-распределение

  • 'InverseGaussian' - Обратное Гауссово распределение

Метод, используемый для подгонки модели, хранится как одно из следующего.

  • 'MPL' - Максимальная псевдоправдоподобность

  • 'REMPL' - Ограниченная максимальная псевдоподобность

  • 'ApproximateLaplace' - Максимальная правдоподобность с использованием приблизительного метода Лапласа, с профилированными фиксированными эффектами

  • 'Laplace' - Максимальная вероятность с использованием метода Лапласа

Формула спецификации модели, сохраненная как объект. Формула спецификации модели использует обозначение Уилкинсона, чтобы описать связь между терминами фиксированных эффектов, терминами случайных эффектов и сгруппированными переменными в модели GLME. Для получения дополнительной информации смотрите Формулу.

Логарифмическая функция правдоподобия, оцененная по оцененным значениям коэффициентов, сохранена в виде скалярного значения. LogLikelihood зависит от метода, используемого для подгонки модели.

  • Если вы используете 'Laplace' или 'ApproximateLaplace', затем LogLikelihood является максимальным журналом вероятностью.

  • Если вы используете 'MPL', затем LogLikelihood является максимизированной журналом вероятностью псевдопроверки данных от конечной итерации псевдопроверки.

  • Если вы используете 'REMPL', затем LogLikelihood является максимально ограничивать журналом вероятностью псевдослучайных данных от конечной итерации псевдослучайности.

Типы данных: double

Критерий модели для сравнения подобранных обобщенных линейных моделей смешанных эффектов, сохраненных как таблица со следующими полями.

ОбластьОписание
AICИнформационный критерий Акайке
BICБайесовский информационный критерий
LogLikelihood
  • Для модели подгонки используя 'Laplace' или 'ApproximateLaplace', LogLikelihood является максимальным журналом вероятностью.

  • Для модели подгонки используя 'MPL', LogLikelihood является максимизированной журналом вероятностью псевдопроверки данных от конечной итерации псевдопроверки.

  • Для модели подгонки используя 'REMPL', LogLikelihood является максимально ограничивать журналом вероятностью псевдослучайных данных от конечной итерации псевдослучайности.

Deviance-2 раза LogLikelihood

Количество коэффициентов с фиксированными эффектами в подобранной обобщенной линейной модели с смешанными эффектами, сохраненное в виде положительного целого значения.

Типы данных: double

Количество оцененных коэффициентов фиксированных эффектов в подобранной обобщенной линейной модели смешанных эффектов, сохраненное в виде положительного целого значения.

Типы данных: double

Количество наблюдений, используемых в подгонке, сохраненных в виде положительного целого значения. NumObservations количество строк в таблице или массиве наборов данных tbl, минус строки, исключенные с помощью 'Exclude' пара "имя-значение" fitglme или строки, содержащие NaN значения.

Типы данных: double

Количество переменных, используемых в качестве предикторов в обобщенной модели линейных смешанных эффектов, сохраненных в виде положительного целого значения.

Типы данных: double

Общее количество переменных, включая ответ и предикторы, сохраненных в виде положительного целого значения. Если выборочные данные находятся в таблице или массиве набора данных tbl, затем NumVariables - общее количество переменных в tbl, включая переменную отклика. NumVariables включает переменные, если таковые имеются, которые не используются в качестве предикторов или в качестве отклика.

Типы данных: double

Информация о наблюдениях, используемых в подгонке, хранится в виде таблицы.

ObservationInfo имеет по одной строке для каждого наблюдения и следующих столбцов.

ИмяОписание
WeightsЗначение веса для наблюдения. Значение по умолчанию является 1.
ExcludedЕсли наблюдение было исключено из подгонки с помощью 'Exclude' аргумент пары "имя-значение" в fitglme, затем Excluded является true, или 1. В противном случае Excluded является false, или 0.
Missing

Если наблюдение было исключено из подгонки, потому что отсутствует какой-либо ответ или значение предиктора, то Missing является true. В противном случае Missing является false.

Отсутствующие значения включают NaN для числовых переменных, пустых камер для массивов ячеек, пустых строк для символьных массивов и <undefined> значение для категориальных массивов.

SubsetЕсли наблюдение использовалось в подгонке, то Subset является true. Если наблюдение не использовалось в подгонке, потому что оно отсутствует или исключено, то Subset является false.
BinomSizeБиномиальный размер для каждого наблюдения. Этот столбец применяется только при подборе биномиального распределения.

Типы данных: table

Имена наблюдений, используемых в подгонке, хранятся как массив ячеек из векторов символов.

  • Если данные находятся в таблице или массиве набора данных tbl который содержит имена наблюдений, затем ObservationNames использует эти имена.

  • Если данные предоставлены в матрицах или в массиве таблицы или набора данных без имен наблюдений, то ObservationNames - пустой массив ячеек.

Типы данных: cell

Имена переменных, используемых в качестве предикторов в подгонке, хранятся в виде массива ячеек из векторов символов, который имеет ту же длину, что и NumPredictors.

Типы данных: cell

Имя переменной, используемой в качестве переменной отклика в подгонке, сохраненное в виде вектора символов.

Типы данных: char

Доля изменчивости в отклике, объясняемая подобранной моделью, сохраненной как структура. Rsquared содержит R -squared значение подобранной модели, также известное как множественный коэффициент корреляции. Rsquared содержит следующие поля.

ОбластьОписание
OrdinaryR-квадрат, сохраненный как скалярное значение в структуре.
Rsquared.Ordinary = 1 — SSE./SST
AdjustedR-квадратичное значение, скорректированное для количества коэффициентов с фиксированными эффектами, сохраненное в виде скалярного значения в структуре.
Rsquared.Adjusted = 1 — (SSE./SST)*(DFT./DFE),
где DFE = n – p, DFT = n – 1, n - общее количество наблюдений и p - количество коэффициентов с фиксированными эффектами.

Типы данных: struct

Сумма ошибок квадратов, сохраненная как положительная скалярная величина значение. SSE является взвешенной суммой квадратов условных невязок и вычисляется как

SSE=i=1nwieff(yifi)2,

где n количество наблюдений, wieff - i-й эффективный вес, yi - i-й ответ, и fi - i-е подобранное значение.

i эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где vi - член отклонения для i-го наблюдения ,β^ и b^ - оценочные значения β и b, соответственно.

i-е установленное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xiT - i строка матричных X с фиксированными эффектами, и ziT - i строка матричного Z случайных эффектов. δi - i-е значение смещения.

Типы данных: double

Регрессионная сумма квадратов, сохраненная как положительная скалярная величина значение. SSR - сумма квадратов, объясненная обобщенной линейной регрессией смешанных эффектов или эквивалентно взвешенная сумма квадратов отклонений условных подобранных значений от их взвешенного среднего. SSR вычисляется как

SSR=i=1Nwieff(fif¯)2,

где n количество наблюдений, wieff - i-й эффективный вес, fi - i-е установленное значение, иf¯ - взвешенное среднее значение подобранных значений.

i эффективный вес вычисляется как

wieff={wivi(μi(β^,b^))},

где β^ и b^ - оценочные значения β и b, соответственно.

i-е установленное значение вычисляется как

fi=g1(xiTβ^+ziTb^+δi),

где xiT - i строка матричных X с фиксированными эффектами, и ziT - i строка матричного Z случайных эффектов. δi - i-е значение смещения.

Взвешенное среднее значение подобранных значений вычисляется как

f¯=[i=1nwiefffi]i=1nwieff.

Типы данных: double

Общая сумма квадратов, сохраненная как положительная скалярная величина значение. Для модели GLME, SST определяется как SST = SSE + SSR.

Типы данных: double

Сведения о переменных, используемых в подгонке, хранятся в виде таблицы. VariableInfo имеет по одной строке для каждой переменной и содержит следующие столбцы.

Имя столбцаОписание
ClassКласс переменной ('double', 'cell', 'nominal', и так далее).
Range

Область значений значений переменной.

  • Для числовой переменной, Range является двухэлементным вектором вида [min,max].

  • Для камеры или категориальной переменной, Range - массив ячеек или категориальный массив, содержащий все уникальные значения переменной.

InModel

Если переменная является предиктором в подобранной модели, InModel является true.

Если переменная не находится в подобранной модели, InModel является false.

IsCategorical

Если тип переменной рассматривается как категориальный предиктор (такой как камера, логический или категориальный), то IsCategorical является true.

Если переменная является непрерывным предиктором, то IsCategorical является false.

Типы данных: table

Имена всех переменных, содержащихся в таблице или массиве набора данных tbl, сохраненный как массив ячеек из векторов символов.

Типы данных: cell

Переменные, хранящиеся в виде таблицы. Если подгонка основана на таблице или массиве набора данных tbl, затем Variables идентичен tbl.

Типы данных: table

Функции объекта

anovaАнализ отклонения для обобщенной модели линейных смешанных эффектов
coefCIДоверительные интервалы для коэффициентов обобщенной линейной модели смешанных эффектов
coefTestТест гипотезы на фиксированных и случайных эффектах обобщенной модели линейных смешанных эффектов
compareСравнение обобщенных линейных моделей смешанных эффектов
covarianceParametersИзвлечение ковариационных параметров обобщенной линейной модели смешанных эффектов
designMatrixМатрицы разработки фиксированных и случайных эффектов
fittedПодгонянные отклики обобщенной модели линейных смешанных эффектов
fixedEffectsОценки фиксированных эффектов и соответствующие статистические данные
partialDependenceВычисление частичной зависимости
plotPartialDependenceСоздайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
plotResidualsПостройте графики невязок обобщенной модели линейных смешанных эффектов
predictПредсказать ответ обобщенной модели линейных смешанных эффектов
randomСгенерируйте случайные отклики из подобранной обобщенной линейной модели смешанных эффектов
randomEffectsОценки случайных эффектов и соответствующие статистические данные
refit Обновите обобщенную линейную модель смешанных эффектов
residualsНевязки подобранной обобщенной линейной модели смешанных эффектов
responseВектор отклика обобщенной линейной модели смешанных эффектов

Примеры

свернуть все

Загрузите выборочные данные.

load mfr

Эти моделируемые данные получены от производственной компании, которая управляет 50 заводами по всему миру, причем каждый завод выполняет пакетный процесс для создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих фабрик наугад для участия в эксперименте: Десять фабрик реализовали новый процесс, а другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания запустила пять партий (в общей сложности 100 партий) и записала следующие данные:

  • Флаг, указывающий, использовал ли пакет новый процесс (newprocess)

  • Время вычислений для каждой партии, в часах (time)

  • Температура партии, в степенях Цельсия (temp)

  • Категориальная переменная, указывающая на поставщика (A, B, или C) химического вещества, используемого в партии (supplier)

  • Количество дефектов в партии (defects)

Данные также включают time_dev и temp_dev, которые представляют абсолютное отклонение времени и температуры, соответственно, от стандарта процесса в 3 часа при 20 степенях Цельсии.

Подбор обобщенной линейной модели смешанных эффектов с помощью newprocess, time_dev, temp_dev, и supplier как предикторы фиксированных эффектов. Включите термин случайных эффектов для точки пересечения, сгруппированного по factory, для расчета различий в качестве, которые могут существовать из-за специфичных для фабрики изменений. Переменная отклика defects имеет распределение Пуассона, и соответствующая функция ссылки для этой модели является логарифмической. Используйте метод Laplace fit, чтобы оценить коэффициенты. Задайте кодировку фиктивной переменной следующим 'effects', поэтому фиктивные переменные коэффициенты равны 0.

Количество дефектов может быть смоделировано с помощью распределения Пуассона

defectsijПуассон(μij)

Это соответствует обобщенной модели линейных смешанных эффектов

log(μij)=β0+β1newprocessij+β2time_devij+β3temp_devij+β4supplier_Cij+β5supplier_Bij+bi,

где

  • defectsij количество дефектов, наблюдаемых в партии, произведенной заводом-изготовителем i во время партии j.

  • μij - среднее количество дефектов, соответствующих заводу i (где i=1,2,...,20) во время партии j (где j=1,2,...,5).

  • newprocessij, time_devij, и temp_devij являются измерениями для каждой переменной, которые соответствуют фабрике i во время партии j. Для примера, newprocessij указывает, производится ли партия заводом-изготовителем i во время партии j использовали новый процесс.

  • supplier_Cij и supplier_Bij являются фиктивными переменными, которые используют эффекты (сумма к нулю) кодирования, чтобы указать, является ли компания C или B, соответственно, поставила химикаты для партии, произведенной заводом i во время партии j.

  • biN(0,σb2) является точка пересечения случайных эффектов для каждого завода i который учитывает специфические для завода изменения в качестве.

glme = fitglme(mfr,'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)', ...
    'Distribution','Poisson','Link','log','FitMethod','Laplace','DummyVarCoding','effects');

Отобразите модель.

disp(glme)
Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                   Estimate     SE          tStat       DF    pValue    
    {'(Intercept)'}           1.4689     0.15988      9.1875    94    9.8194e-15
    {'newprocess' }         -0.36766     0.17755     -2.0708    94      0.041122
    {'time_dev'   }        -0.094521     0.82849    -0.11409    94       0.90941
    {'temp_dev'   }         -0.28317      0.9617    -0.29444    94       0.76907
    {'supplier_C' }        -0.071868    0.078024     -0.9211    94       0.35936
    {'supplier_B' }         0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                  Name2                  Type           Estimate
    {'(Intercept)'}        {'(Intercept)'}        {'std'}        0.31381 

Group: Error
    Name                        Estimate
    {'sqrt(Dispersion)'}        1       

The Model information таблица отображает общее количество наблюдений в выборочных данных (100), количество коэффициентов фиксированных и случайных эффектов (6 и 20, соответственно) и количество ковариационных параметров (1). Это также указывает, что переменная отклика имеет Poisson распределение, функция ссылки Log, и метод подгонки Laplace.

Formula указывает спецификацию модели, использующую обозначение Уилкинсона.

The Model fit statistics таблица отображает статистику, используемую для оценки качества подгонки модели. Это включает информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) значения, журнал правдоподобия (LogLikelihood), и отклонение (Deviance) значения.

The Fixed effects coefficients таблица указывает, что fitglme возвращено 95% доверительных интервалов. Он содержит одну строку для каждого предиктора фиксированных эффектов, и каждый столбец содержит статистику, соответствующую этому предиктору. Столбец 1 (Name) содержит имя каждого коэффициента с фиксированными эффектами, столбец 2 (Estimate) содержит его расчетное значение и столбец 3 (SE) содержит стандартную ошибку коэффициента. Столбец 4 (tStat) содержит t-statistic для проверки гипотезы, что коэффициент равен 0. Столбец 5 (DF) и столбец 6 (pValue) содержат степени свободы и p-значение, которое соответствует t-статистический, соответственно. Последние два столбца (Lower и Upper) отображать нижний и верхний пределы, соответственно, 95% доверительного интервала для каждого коэффициента фиксированных эффектов.

Random effects covariance parameters отображает таблицу для каждой сгруппированной переменной (только здесь factory), включая его общее количество уровней (20), и тип и оценку ковариационного параметра. Здесь, std указывает, что fitglme возвращает стандартное отклонение случайного эффекта, сопоставленного с заводским предиктором, которое имеет оценочное значение 0,31381. В нем также отображается таблица, содержащая тип параметра ошибки (здесь квадратный корень параметра дисперсии) и его предполагаемое значение 1.

Стандартное отображение, сгенерированный fitglme не предоставляет доверительные интервалы для параметров случайных эффектов. Чтобы вычислить и отобразить эти значения, используйте covarianceParameters.

Подробнее о

расширить все