exponenta event banner

devianceTest

Анализ отклонения для обобщенной модели линейной регрессии

Синтаксис

Описание

пример

tbl = devianceTest(mdl) возвращает анализ таблицы отклонений для обобщенной модели линейной регрессии mdl. Стол tbl дает результат теста, который определяет, является ли модель mdl подходит значительно лучше, чем постоянная модель.

Примеры

свернуть все

Выполните тест отклонения для обобщенной модели линейной регрессии.

Создание выборочных данных с использованием случайных чисел Пуассона с двумя основными предикторами X(:,1) и X(:,2).

rng('default') % For reproducibility
rndvars = randn(100,2);
X = [2 + rndvars(:,1),rndvars(:,2)];
mu = exp(1 + X*[1;2]);
y = poissrnd(mu);

Создайте обобщенную модель линейной регрессии данных Пуассона.

mdl = fitglm(X,y,'y ~ x1 + x2','Distribution','poisson')
mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x1 + x2
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE        tStat     pValue
                   ________    _________    ______    ______

    (Intercept)     1.0405      0.022122    47.034      0   
    x1              0.9968      0.003362    296.49      0   
    x2               1.987     0.0063433    313.24      0   


100 observations, 97 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 2.95e+05, p-value = 0

Проверьте, отличается ли модель от константы статистически значимым образом.

tbl = devianceTest(mdl)
tbl=2×4 table
                             Deviance     DFE     chi2Stat     pValue
                            __________    ___    __________    ______

    log(y) ~ 1              2.9544e+05    99                         
    log(y) ~ 1 + x1 + x2         107.4    97     2.9533e+05       0  

Небольшое значение p указывает на то, что модель значительно отличается от константы. Обратите внимание, что модель отображает mdl включает статистику, показанную во второй строке таблицы.

Входные аргументы

свернуть все

Обобщенная модель линейной регрессии, заданная как GeneralizedLinearModel объект, созданный с помощью fitglm или stepwiseglm, или CompactGeneralizedLinearModel объект, созданный с помощью compact.

Выходные аргументы

свернуть все

Анализ сводной статистики отклонений, возвращенной в виде таблицы.

tbl содержит анализ статистики отклонений как для постоянной модели, так и для модели mdl. Таблица содержит эти столбцы для каждой модели.

КолонкаОписание
Deviance

Отклонение вдвое больше разницы между логарифмами соответствующей модели (mdl или константа) и насыщенную модель. Дополнительные сведения см. в разделе Отклонение.

DFE

Степени свободы для ошибки (остатки), равные n - p, где n - число наблюдений, а p - число оцененных коэффициентов

chi2Stat

F-статистика или статистика хи-квадрат, в зависимости от того, оценена ли дисперсия (F-статистика) или нет (статистика хи-квадрат)

  • F-статистика - разница между отклонением постоянной модели и отклонением полной модели, деленная на оценочную дисперсию.

  • Хи-квадратичная статистика - это разница между отклонением постоянной модели и отклонением полной модели.

pValue

p-значение, связанное с тестом: хи-квадратичная статистика с p-1 степенями свободы, или F-статистика с p-1 числительными степенями свободы и DFE степени свободы знаменателя, где p - количество оцененных коэффициентов

Подробнее

свернуть все

Отклонение

Отклонение - это обобщение остаточной суммы квадратов. Он измеряет доброту посадки по сравнению с насыщенной моделью.

Отклонение M1 модели в два раза больше разницы между логикой модели M1 и насыщенной моделью Ms A насыщенная модель является моделью с максимальным количеством параметров, которое можно оценить.

Например, если есть n наблюдений (yi, i = 1, 2,..., n) с потенциально различными значениями для XiTβ, то можно определить насыщенную модель с n параметрами. Пусть L (b, y) обозначает максимальное значение функции правдоподобия для модели с параметрами b. Тогда отклонение модели M1

2 (logL (b1, y) logL (bS, y)),

где b1 и bs содержат оценочные параметры для модели M1 и насыщенной модели соответственно. Отклонение имеет хи-квадратное распределение с n - p степенями свободы, где n - число параметров в насыщенной модели и p - число параметров в M1 модели.

Предположим, что у вас есть две различные обобщенные модели линейной регрессии M1 и M2, и M1 имеет подмножество членов в M2. Можно оценить соответствие моделей, сравнив отклонения D1 и D2 двух моделей. Разница отклонений

D = D2 D1 = 2 (logL (b2, y) logL (bS, y)) + 2 (logL (b1, y) logL (bS, y)) = 2 (logL (b2, y) − logL (b1, y)).

Асимптотически разность D имеет хи-квадратное распределение со степенями свободы v, равными разнице в количестве параметров, оцениваемых в M1 и M2. Значение p для этого теста можно получить с помощью 1 – chi2cdf(D,v).

Обычно вы исследуете D с помощью модели, M2 с постоянным термином и без предикторов. Поэтому D имеет распределение хи-квадрат с p - 1 степенями свободы. Если дисперсия оценивается, разница, деленная на расчетную дисперсию, имеет F-распределение с p-1 числительными степенями свободы и n-p знаменательными степенями свободы.

Расширенные возможности

Представлен в R2012a