devianceTest

Анализ отклонения для обобщенной линейной регрессионой модели

Синтаксис

Описание

пример

tbl = devianceTest(mdl) возвращает анализ таблицы отклонений для обобщенной линейной регрессионой модели mdl. Таблица tbl приводит результат теста, который определяет, является ли модель mdl подходит значительно лучше, чем постоянная модель.

Примеры

свернуть все

Выполните тест отклонения на обобщенной линейной регрессионой модели.

Сгенерируйте выборочные данные с помощью случайных чисел Пуассона с двумя базовыми предикторами X(:,1) и X(:,2).

rng('default') % For reproducibility
rndvars = randn(100,2);
X = [2 + rndvars(:,1),rndvars(:,2)];
mu = exp(1 + X*[1;2]);
y = poissrnd(mu);

Создайте обобщенную линейную регрессионую модель данных Пуассона.

mdl = fitglm(X,y,'y ~ x1 + x2','Distribution','poisson')
mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x1 + x2
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE        tStat     pValue
                   ________    _________    ______    ______

    (Intercept)     1.0405      0.022122    47.034      0   
    x1              0.9968      0.003362    296.49      0   
    x2               1.987     0.0063433    313.24      0   


100 observations, 97 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 2.95e+05, p-value = 0

Проверьте, отличается ли модель от константы статистически значимым способом.

tbl = devianceTest(mdl)
tbl=2×4 table
                             Deviance     DFE     chi2Stat     pValue
                            __________    ___    __________    ______

    log(y) ~ 1              2.9544e+05    99                         
    log(y) ~ 1 + x1 + x2         107.4    97     2.9533e+05       0  

Маленькое p-значение указывает, что модель значительно отличается от константы. Обратите внимание, что отображение модели mdl включает статистику, показанную во второй строке таблицы.

Входные параметры

свернуть все

Обобщенная линейная регрессионая модель, заданная как GeneralizedLinearModel объект, созданный с помощью fitglm или stepwiseglm, или CompactGeneralizedLinearModel объект, созданный с помощью compact.

Выходные аргументы

свернуть все

Анализ сводной статистики отклонений, возвращенный как таблица.

tbl содержит анализ статистики отклонений как для постоянной модели, так и для модели mdl. Таблица включает эти столбцы для каждой модели.

СтолбецОписание
Deviance

Отклонение в два раза больше разницы между логарифмической правдоподобностью соответствующей модели (mdl или константа) и насыщенной модели. Для получения дополнительной информации см. «Отклонение».

DFE

Степени свободы для ошибки (невязки), равные n - p, где n - количество наблюдений, а p - количество оцененных коэффициентов

chi2Stat

F -статистическая или хи-квадратичная статистическая величина, в зависимости от того, оценена ли дисперсия (F -статистическая) или нет (хи-квадратичная статистическая величина)

  • F -статистическая - это различие между отклонением постоянной модели и отклонением полной модели, разделенная на предполагаемую дисперсию.

  • Хи-квадратичная статистическая величина - это различие между отклонением постоянной модели и отклонением полной модели.

pValue

p -значение, сопоставленное с тестом: хи-квадратная статистика с p - 1 степенями свободы, или F -статистическая с p - 1 числителем степеней свободы и DFE знаменательные степени свободы, где p - количество оцененных коэффициентов

Подробнее о

свернуть все

Отклонение

Отклонение - обобщение остаточной суммы квадратов. Он измеряет качество подгонки по сравнению с насыщенной моделью.

Отклонение модели M 1 в два раза больше разницы между логарифмической правдоподобностью модели M 1 и насыщенной моделью M s. Насыщенная модель является моделью с максимальным количеством параметров, которые вы можете оценить.

Например, если у вас есть n наблюдения (y i, i = 1, 2,..., n) с потенциально различными значениями для X iTβ, тогда можно задать насыщенную модель с n параметрами. Пусть L (b, y) обозначают максимальное значение функции правдоподобия для модели с b параметрами. Тогда отклонение модели M 1 является

2(logL(b1,y)logL(bS,y)),

где b 1 и b s содержат предполагаемые параметры для модели M 1 и насыщенной модели, соответственно. Отклонение имеет распределение хи-квадрат с n - p степенями свободы, где n - количество параметров в насыщенной модели и p - количество параметров в модели M 1.

Предположим, что у вас есть две различные обобщенные линейные регрессионые модели M 1 и M 2, и M 1 имеет подмножество членов в M 2. Можно оценить подгонку моделей путем сравнения отклонений D 1 и D 2 двух моделей. Различие отклонений

D=D2D1=2(logL(b2,y)logL(bS,y))+2(logL(b1,y)logL(bS,y))=2(logL(b2,y)logL(b1,y)).

Асимптотически, разностное D имеет хи-квадратное распределение со степенями свободы v равное разности в количестве параметров, оцененных в M 1 и M 2. Вы можете получить p -value для этого теста с помощью   1 – chi2cdf(D,v).

Обычно вы исследуете D с помощью модели M 2 с постоянным термином и без предикторов. Поэтому D имеет распределение хи-квадрат с p - 1 степенями свободы. Если дисперсия оценена, различие, разделенная на предполагаемую дисперсию, имеет F распределение с p - 1 числительными степенями свободы и n - p знаменательными степенями свободы.

Расширенные возможности

Введенный в R2012a