exponenta event banner

Класс модели LinearTaxedModel

Класс модели с линейными смешанными эффектами

Описание

A LinearMixedModel объект представляет модель переменной отклика с фиксированными и случайными эффектами. Он содержит данные, описание модели, подогнанные коэффициенты, ковариационные параметры, матрицы проектирования, остатки, остаточные графики и другую диагностическую информацию для линейной модели смешанных эффектов. Вы можете предсказать ответы модели с помощью predict и генерировать случайные данные в новых точках проектирования с помощью random функция.

Строительство

Можно подогнать линейную модель смешанных эффектов с помощью fitlme(tbl,formula) если данные находятся в таблице или массиве набора данных. Кроме того, если модель не легко описать с помощью формулы, можно создать матрицы для определения фиксированных и случайных эффектов и подогнать модель с помощью fitlmematrix(X,y,Z,G).

Входные аргументы

развернуть все

Входные данные, которые включают переменную ответа, переменные предиктора и переменные группировки, указанные как таблица или dataset массив. Переменные предиктора могут быть непрерывными или группирующими переменными (см. Группирование переменных). Необходимо указать модель для переменных с помощью formula.

Типы данных: table

Формула для спецификации модели, заданная как вектор символа или скаляр строки формы 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)'. Полное описание см. в разделе Формула.

Пример: 'y ~ treatment +(1|block)'

Матрица проектирования с фиксированными эффектами, заданная как матрица n-by-p, где n - количество наблюдений, а p - количество переменных предиктора с фиксированными эффектами. Каждая строка X соответствует одному наблюдению и каждому столбцу X соответствует одной переменной.

Типы данных: single | double

Значения ответа, заданные как вектор n-by-1, где n - количество наблюдений.

Типы данных: single | double

Дизайн случайных эффектов, указанный как один из следующих.

  • Если в модели есть один член случайных эффектов, то Z должна быть матрицей n-by-q, где n - число наблюдений, а q - число переменных в слагаемом случайных эффектов.

  • Если существуют R членов случайных эффектов, то Z должен быть массивом ячеек длиной R. Каждая ячейка Z содержит матрицу проектирования n-by-q (r)Z{r}, r = 1, 2,..., R, соответствующий каждому члену случайных эффектов. Здесь q (r) - число членов случайных эффектов в матрице проектирования случайных эффектов rth, Z{r}.

Типы данных: single | double | cell

Группирование переменной или переменных, указанных как одно из следующих значений.

  • Если существует один член случайных эффектов, то G должен быть вектором n-by-1, соответствующим одной переменной группировки с M уровнями или группами.

    G может быть категориальным вектором, логическим вектором, числовым вектором, символьным массивом, строковым массивом или массивом ячеек символьных векторов.

  • Если существует несколько членов случайных эффектов, то G должен быть массивом ячеек длиной R. Каждая ячейка G содержит переменную группировки G{r}, r = 1, 2,..., R, с уровнями M (r).

    G{r} может быть категориальным вектором, логическим вектором, числовым вектором, символьным массивом, строковым массивом или массивом ячеек символьных векторов.

Типы данных: categorical | logical | single | double | char | string | cell

Свойства

развернуть все

Оценки коэффициентов с фиксированными эффектами и связанная статистика хранятся в виде массива наборов данных, содержащего следующие поля.

NameНазвание термина.
EstimateОценочное значение коэффициента.
SEСтандартная погрешность коэффициента.
tStatt-статистика для проверки нулевой гипотезы, что коэффициент равен нулю.
DFСтепени свободы для t-теста. Вычисляемый метод DF определяется 'DFMethod' аргумент пары имя-значение. Coefficients всегда использует 'Residual' способ для 'DFMethod'.
pValueзначение p для t-теста.
LowerНижний предел доверительного интервала для коэффициента. Coefficients всегда использует 95% доверительный уровень, т. е.'alpha' составляет 0,05.
UpperВерхний предел доверительного интервала для коэффициента. Coefficients всегда использует 95% доверительный уровень, т. е.'alpha' составляет 0,05.

Вы можете изменить 'DFMethod' и 'alpha' при вычислении доверительных интервалов для или проверке гипотез, включающих фиксированные и случайные эффекты, с использованием coefCI и coefTest методы.

Ковариация оцененных коэффициентов с фиксированными эффектами линейной модели с смешанными эффектами, хранящейся в виде матрицы p-by-p, где p - количество коэффициентов с фиксированными эффектами.

Параметры ковариации, связанные со случайными эффектами, можно отобразить с помощью covarianceParameters способ.

Типы данных: double

Имена коэффициентов с фиксированными эффектами линейной модели с смешанными эффектами, хранящиеся в виде массива символьных векторов 1 за p.

Типы данных: cell

Остаточные степени свободы, хранящиеся как положительное целое значение. DFE = n - p, где n - число наблюдений, а p - число коэффициентов с фиксированными эффектами.

Это соответствует 'Residual' метод вычисления степеней свободы в fixedEffects и randomEffects методы.

Типы данных: double

Метод, используемый для соответствия линейной модели смешанных эффектов, хранящейся как одно из следующих значений.

  • ML, если метод подгонки является максимальным правдоподобием

  • REML, если метод подгонки ограничен максимальным правдоподобием

Типы данных: char

Спецификация терминов с фиксированными эффектами, терминов с случайными эффектами и переменных группировки, которые определяют линейную модель с смешанными эффектами, хранящуюся как объект.

Дополнительные сведения о том, как задать модель для вписывания с помощью формулы, см. в разделе Формула.

Максимизированное логарифмическое правдоподобие или максимизированное ограниченное логарифмическое правдоподобие аппроксимированной линейной модели смешанных эффектов в зависимости от выбранного метода подгонки, сохраненное как скалярное значение.

Типы данных: double

Критерий модели для сравнения установленных линейных моделей смешанных эффектов, сохраненных в виде массива наборов данных со следующими столбцами.

AICИнформационный критерий Akaike
BICБайесовский информационный критерий
LoglikelihoodЛогарифмическое значение правдоподобия модели
Deviance-2 раза больше логарифмической вероятности модели

Если n - количество наблюдений, используемых при подборе модели, а p - количество коэффициентов с фиксированными эффектами, то для вычисления AIC и BIC,

  • Общее число параметров - nc + p + 1, где nc - общее число параметров в ковариации случайных эффектов, исключая остаточную дисперсию

  • Эффективное количество наблюдений составляет

    • n, когда метод подгонки является методом максимального правдоподобия (ML)

    • n - p, когда метод подгонки ограничен максимальным правдоподобием (REML)

Оценка ML или REML, основанная на методе аппроксимации, используемом для оценки start2, хранится как положительное скалярное значение. start2 - остаточная дисперсия или дисперсия члена ошибки наблюдения линейной модели смешанных эффектов.

Типы данных: double

Число коэффициентов с фиксированными эффектами в аппроксимированной линейной модели с смешанными эффектами, сохраненное как положительное целое значение.

Типы данных: double

Количество оцененных коэффициентов с фиксированными эффектами в аппроксимированной линейной модели с смешанными эффектами, сохраненных как положительное целое значение.

Типы данных: double

Количество наблюдений, используемых в аппроксимации, хранящихся как положительное целое значение. Это количество строк в таблице или массиве наборов данных или матриц проектирования минус исключенные строки или строки с NaN значения.

Типы данных: double

Количество переменных, используемых в качестве предикторов в линейной модели смешанных эффектов, хранящихся как положительное целое значение.

Типы данных: double

Общее количество переменных, включая отклик и предикторы, сохраненных как положительное целое значение.

  • Если образец данных находится в таблице или массиве наборов данных tbl, NumVariables - общее число переменных в tbl включая переменную ответа.

  • Если аппроксимация основана на матричном вводе, NumVariables - общее число столбцов в матрице или матрицах предиктора и вектор отклика.

NumVariables включает переменные, если таковые имеются, которые не используются в качестве предикторов или в качестве ответа.

Типы данных: double

Сведения о наблюдениях, используемых при посадке, хранятся в виде таблицы.

ObservationInfo имеет одну строку для каждого наблюдения и следующие четыре столбца.

WeightsЗначение взвешенной переменной для этого наблюдения. Значение по умолчанию - 1.
Excludedtrue, если наблюдение было исключено из посадки с использованием 'Exclude' аргумент пары имя-значение, false, в противном случае. 1 обозначает true и 0 означает false.
Missing

true, если наблюдение было исключено из соответствия, потому что отсутствует какой-либо ответ или значение предиктора, false, в противном случае.

Отсутствующие значения включают NaN для числовых переменных, пустые ячейки для массивов ячеек, пустые строки для символьных массивов и <undefined> значение для категориальных массивов.

Subsettrue, если наблюдение использовалось при посадке, false, если он не использовался, поскольку отсутствует или исключен.

Типы данных: table

Имена наблюдений, используемых в подгонке, хранящихся в виде клеточного массива символьных векторов.

  • Если данные находятся в таблице или массиве наборов данных, tbl, содержащие имена наблюдений, ObservationNames имеет эти имена.

  • Если данные представлены в матрицах или в массиве таблиц или наборов данных без имен наблюдений, то ObservationNames является пустым массивом ячеек.

Типы данных: cell

Имена переменных, которые используются в качестве предикторов в аппроксимации, хранятся в виде клеточного массива символьных векторов, имеющих ту же длину, что и NumPredictors.

Типы данных: cell

Имя переменной, используемой в качестве ответной переменной в подгонке, хранящейся в виде символьного вектора.

Типы данных: char

Доля изменчивости в ответе, объясненная подогнанной моделью, хранящейся в виде структуры. Это коэффициент множественной корреляции или R-квадрат. Rsquared имеет два поля.

OrdinaryR-квадрат, хранящийся как скалярное значение в структуре. Rsquared.Ordinary = 1 – SSE./SST
Adjusted

R-квадратичное значение, скорректированное на количество коэффициентов с фиксированными эффектами, сохраненное как скалярное значение в структуре.

Rsquared.Adjusted = 1 – (SSE./SST)*(DFT./DFE),

где DFE = n – p, DFT = n – 1, и n - общее число наблюдений, p - количество коэффициентов с фиксированными эффектами.

Типы данных: struct

Ошибочная сумма квадратов, то есть сумма возведенных в квадрат условных остатков, сохраненных как положительное скалярное значение.

SSE = sum((y – F).^2), где y является вектором отклика, и F - подогнанный условный отклик линейной модели смешанных эффектов. Условная модель имеет вклад как фиксированных, так и случайных эффектов.

Типы данных: double

Регрессионная сумма квадратов, то есть сумма квадратов, объясняемая линейной регрессией со смешанными эффектами, сохраняется как положительное скалярное значение. Это сумма квадратичных отклонений условных аппроксимированных значений от их среднего значения.

SSR = sum((F – mean(F)).^2), где F - подогнанный условный отклик линейной модели смешанных эффектов. Условная модель имеет вклад как фиксированных, так и случайных эффектов.

Типы данных: double

Суммарная сумма квадратов, то есть сумма квадратичных отклонений наблюдаемых значений отклика от их среднего, сохраняется как положительное скалярное значение.

SST = sum((y – mean(y)).^2) = SSR + SSE, где y - вектор отклика.

Типы данных: double

Переменные, хранящиеся в виде таблицы.

  • Если аппроксимация основана на таблице или массиве наборов данных tbl, то Variables идентичен tbl.

  • Если аппроксимация основана на матричном вводе, то Variables - таблица, содержащая все переменные в матрице или матрицах предиктора и переменную отклика.

Типы данных: table

Сведения о переменных, используемых в подгонке, хранятся в виде таблицы.

VariableInfo имеет одну строку для каждой переменной и содержит следующие четыре столбца.

ClassКласс переменной ('double', 'cell', 'nominal'и так далее).
Range

Диапазон значений переменной.

  • Для числовой переменной это двухэлементный вектор вида [min,max].

  • Для ячейки или категориальной переменной это ячейка или категориальный массив, содержащий все уникальные значения переменной.

InModel

true, если переменная является предиктором в подогнанной модели.

false, если переменная отсутствует в подогнанной модели.

IsCategorical

true, если переменная имеет тип, который рассматривается как категориальный предиктор, такой как клетка, логическая или категориальная, или если она указана как категориальная 'Categorical' аргумент пары имя-значение fit способ.

false, если это непрерывный предиктор.

Типы данных: table

Имена переменных, используемых в аппроксимации, хранящихся в виде массива ячеек символьных векторов.

  • Если образец данных находится в таблице или массиве набора данных tbl, VariableNames содержит имена переменных в tbl.

  • Если данные выборки находятся в матричном формате, то VariableInfo включает имена переменных, которые задаются при подгонке модели. Если имена переменных не указаны, то VariableInfo содержит имена по умолчанию.

Типы данных: cell

Функции объекта

anovaАнализ дисперсии для линейной модели смешанных эффектов
coefCI Доверительные интервалы для коэффициентов линейной модели смешанных эффектов
coefTestТест гипотез о фиксированных и случайных эффектах линейной модели смешанных эффектов
compareСравнение линейных моделей смешанных эффектов
covarianceParametersИзвлечь ковариационные параметры линейной модели смешанных эффектов
designMatrixМатрицы проектирования с фиксированными и случайными эффектами
fittedПодогнанные ответы из линейной модели смешанных эффектов
fixedEffectsОценки фиксированных эффектов и смежная статистика
partialDependenceВычислить частичную зависимость
plotPartialDependenceСоздание графиков частичной зависимости (PDP) и индивидуального условного ожидания (ICE)
plotResidualsПечать остатков линейной модели смешанных эффектов
predict Прогнозирование реакции линейной модели смешанных эффектов
random Генерировать случайные отклики из аппроксимированной линейной модели смешанных эффектов
randomEffects Оценки случайных эффектов и соответствующая статистика
residualsОстатки установленной линейной модели смешанных эффектов
responseВектор отклика линейной модели смешанных эффектов

Копирование семантики

Значение. Сведения о том, как классы значений влияют на операции копирования, см. в разделе Копирование объектов.

Примеры

свернуть все

Загрузите образцы данных.

load flu

flu массив наборов данных имеет Date переменная и 10 переменных, содержащих оценочные показатели гриппа (в 9 различных регионах, оцененные по поискам Google ®, плюс общенациональная оценка Центра по контролю и профилактике заболеваний, CDC).

Для соответствия модели с линейными смешанными эффектами данные должны находиться в правильно отформатированном массиве наборов данных. Чтобы подогнать линейную модель смешанных эффектов с частотой гриппа в качестве ответов и областью в качестве предикторной переменной, объедините девять столбцов, соответствующих областям, в массив. Новый массив наборов данных, flu2, должна иметь переменную ответа, FluRate, номинальная переменная, Region, которая показывает, из какой области взята каждая оценка, и переменную группировки Date.

flu2 = stack(flu,2:10,'NewDataVarName','FluRate',...
    'IndVarName','Region');
flu2.Date = nominal(flu2.Date);

Подгонка линейной модели смешанных эффектов с фиксированными эффектами для области и случайным перехватом, который варьируется в Date.

Поскольку область является номинальной переменной, fitlme принимает первый регион, NE, в качестве ссылки и создает восемь фиктивных переменных, представляющих другие восемь областей. Например, I [MidAtl] - фиктивная переменная, представляющая регион.MidAtl. Дополнительные сведения см. в разделе Фиктивные переменные.

Соответствующая модель:

yim = β0 + β1I [MidAtl] i + β2I [ENCentral] i + β3I [WNCentral] i + β4I [SAtl] i + β5I [ESCentral] i + β6I [WSCentral] i + β7I [Mt] i

где yim - наблюдение i для уровня m переменной группировки Date, βj, j = 0, 1,..., 8, - коэффициенты с фиксированными эффектами, b0m - случайный эффект для уровня m переменной группировки Date, и αim - погрешность наблюдения для наблюдения i. Случайный эффект имеет предыдущее распределение, b0m∼N (0, startb2), а член ошибки имеет распределение, εim∼N (0, start2).

lme = fitlme(flu2,'FluRate ~ 1 + Region + (1|Date)')
lme = 
Linear mixed-effects model fit by ML

Model information:
    Number of observations             468
    Fixed effects coefficients           9
    Random effects coefficients         52
    Covariance parameters                2

Formula:
    FluRate ~ 1 + Region + (1 | Date)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    318.71    364.35    -148.36          296.71  

Fixed effects coefficients (95% CIs):
    Name                        Estimate    SE          tStat      DF 
    {'(Intercept)'     }          1.2233    0.096678     12.654    459
    {'Region_MidAtl'   }        0.010192    0.052221    0.19518    459
    {'Region_ENCentral'}        0.051923    0.052221     0.9943    459
    {'Region_WNCentral'}         0.23687    0.052221     4.5359    459
    {'Region_SAtl'     }        0.075481    0.052221     1.4454    459
    {'Region_ESCentral'}         0.33917    0.052221      6.495    459
    {'Region_WSCentral'}           0.069    0.052221     1.3213    459
    {'Region_Mtn'      }        0.046673    0.052221    0.89377    459
    {'Region_Pac'      }        -0.16013    0.052221    -3.0665    459


    pValue        Lower        Upper    
     1.085e-31       1.0334       1.4133
       0.84534    -0.092429      0.11281
        0.3206    -0.050698      0.15454
    7.3324e-06      0.13424      0.33949
       0.14902     -0.02714       0.1781
    2.1623e-10      0.23655      0.44179
       0.18705    -0.033621      0.17162
       0.37191    -0.055948      0.14929
     0.0022936     -0.26276    -0.057514

Random effects covariance parameters (95% CIs):
Group: Date (52 Levels)
    Name1                  Name2                  Type           Estimate
    {'(Intercept)'}        {'(Intercept)'}        {'std'}        0.6443  


    Lower     Upper  
    0.5297    0.78368

Group: Error
    Name               Estimate    Lower      Upper
    {'Res Std'}        0.26627     0.24878    0.285

Значения p 7.3324e-06 и 2.1623e-10 соответственно показывают, что фиксированные эффекты заболеваемости гриппом в регионах WNCentral и ESCentral значительно отличаются по сравнению с показателями гриппа в регионе NE.

Доверительные пределы для среднеквадратического отклонения члена случайных эффектов, startb, не включают 0 (0,5297, 0,78368), что указывает на то, что член случайных эффектов является значимым. Можно также проверить значимость терминов случайных эффектов с помощью compare способ.

Оцененное значение наблюдения является суммой фиксированных эффектов и значения случайного эффекта на уровне переменной группировки, соответствующем этому наблюдению. Например, предполагаемый лучший линейный несмещенный предиктор (BLUP) частоты гриппа для региона WNCentral на неделе 10/9/2005

yˆWNCentral,10/9/2005=βˆ0+βˆ3I[WNCentral]+bˆ10/9/2005=1.2233+0.23687-0.1718=1.28837.

Это аппроксимированный условный ответ, поскольку он включает в себя вклад в оценку как фиксированных, так и случайных эффектов. Это значение можно вычислить следующим образом.

beta = fixedEffects(lme);
[~,~,STATS] = randomEffects(lme); % Compute the random-effects statistics (STATS)
STATS.Level = nominal(STATS.Level);
y_hat = beta(1) + beta(4) + STATS.Estimate(STATS.Level=='10/9/2005')
y_hat = 1.2884

Вы можете просто отобразить подогнанное значение с помощью fitted способ.

F = fitted(lme);
F(flu2.Date == '10/9/2005' & flu2.Region == 'WNCentral')
ans = 1.2884

Вычислить подходящий предельный отклик для региона WNCentral на 10/9/2005 неделе.

F = fitted(lme,'Conditional',false);
F(flu2.Date == '10/9/2005' & flu2.Region == 'WNCentral')
ans = 1.4602

Загрузите образцы данных.

load carbig

Установите линейную модель смешанных эффектов для миль на галлон (MPG) с фиксированными эффектами для ускорения, лошадиных сил и цилиндров, а также некоррелированным случайным эффектом для перехвата и ускорения, сгруппированным по модельному году. Эта модель соответствует

MPGim = β0 + β1Acci + β2HP + b0m + b1mAccim + αim, m = 1,2,3,

с терминами случайных эффектов, имеющими следующие предшествующие распределения:

bm = (b0mb1m) ∼N (0, (

где m представляет модельный год.

Сначала подготовьте матрицы проектирования для подгонки линейной модели смешанных эффектов.

X = [ones(406,1) Acceleration Horsepower];
Z = [ones(406,1) Acceleration];
Model_Year = nominal(Model_Year);
G = Model_Year;

Теперь подгоните модель с помощью fitlmematrix с определенными матрицами конструкции и переменными группировки. Используйте 'fminunc' алгоритм оптимизации.

lme = fitlmematrix(X,MPG,Z,G,'FixedEffectPredictors',....
{'Intercept','Acceleration','Horsepower'},'RandomEffectPredictors',...
{{'Intercept','Acceleration'}},'RandomEffectGroups',{'Model_Year'},...
'FitMethod','REML')
lme = 
Linear mixed-effects model fit by REML

Model information:
    Number of observations             392
    Fixed effects coefficients           3
    Random effects coefficients         26
    Covariance parameters                4

Formula:
    Linear Mixed Formula with 4 predictors.

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    2202.9    2230.7    -1094.5          2188.9  

Fixed effects coefficients (95% CIs):
    Name                    Estimate    SE           tStat      DF 
    {'Intercept'   }          50.064       2.3176     21.602    389
    {'Acceleration'}        -0.57897      0.13843    -4.1825    389
    {'Horsepower'  }        -0.16958    0.0073242    -23.153    389


    pValue        Lower       Upper   
    1.4185e-68      45.507       54.62
    3.5654e-05    -0.85112    -0.30681
    3.5289e-75    -0.18398    -0.15518

Random effects covariance parameters (95% CIs):
Group: Model_Year (13 Levels)
    Name1                   Name2                   Type            Estimate
    {'Intercept'   }        {'Intercept'   }        {'std' }           3.72 
    {'Acceleration'}        {'Intercept'   }        {'corr'}        -0.8769 
    {'Acceleration'}        {'Acceleration'}        {'std' }         0.3593 


    Lower       Upper   
      1.5215      9.0954
    -0.98275    -0.33845
     0.19418     0.66483

Group: Error
    Name               Estimate    Lower     Upper 
    {'Res Std'}        3.6913      3.4331    3.9688

Отображение коэффициентов фиксированных эффектов включает оценку, стандартные ошибки (SE) и пределы доверительного интервала 95% (Lower и Upper). P-значения для (pValue) указывают, что все три коэффициента с фиксированными эффектами значимы.

Доверительные интервалы для стандартных отклонений и корреляция между случайными эффектами для перехвата и ускорения не включают нули, поэтому они кажутся значительными. Используйте compare способ проверки случайных эффектов.

Отображение ковариационной матрицы оцененных коэффициентов с фиксированными эффектами.

lme.CoefficientCovariance
ans = 3×3

    5.3711   -0.2809   -0.0126
   -0.2809    0.0192    0.0005
   -0.0126    0.0005    0.0001

Диагональные элементы показывают дисперсии оценок коэффициента с фиксированными эффектами. Например, дисперсия оценки перехвата равна 5.3711. Следует отметить, что стандартные ошибки оценок являются квадратными корнями отклонений. Например, стандартная ошибка перехвата - 2.3176, то есть sqrt(5.3711).

Внедиагональные элементы показывают корреляцию между оценками коэффициента с фиксированными эффектами. Например, корреляция между перехватом и ускорением равна -0.2809, а корреляция между ускорением и лошадиной силой равна 0,0005.

Просмотрите коэффициент определения для модели.

lme.Rsquared
ans = struct with fields:
    Ordinary: 0.7866
    Adjusted: 0.7855

Скорректированное значение представляет собой R-квадрат, скорректированный на количество предикторов в модели.

Подробнее

развернуть все

См. также

|