Невязки

Цель

Невязки полезны для обнаружения отдаленных значений y и проверки допущений линейной регрессии относительно термина ошибки в регрессионой модели. Наблюдения с высоким коэффициентом использования имеют меньшие невязки, потому что они часто смещают регрессионую линию или поверхность ближе к ним. Можно также использовать невязки для обнаружения некоторых форм гетероскедастичности и автокорреляции.

Определение

The Residuals матрица является таблицей n-на-4, содержащей четыре типа невязок, с одной строкой для каждого наблюдения.

Необработанные невязки

Наблюдаемые минус установленные значения, то есть,

ri=yiy^.i

Пирсон- Невязки

Необработанные невязки, разделенные на корневую среднюю квадратичную невязку, то есть

pri=riMSE,

где r i - сырая невязка, а MSE - средняя квадратичная невязка.

Стандартизированные невязки

Стандартизированные невязки являются необработанными невязками, разделенными на их предполагаемое стандартное отклонение. Стандартизированная невязка для i наблюдений

sti=riMSE(1hii),

где MSE - средняя квадратичная невязка, а h ii - величина рычага для i наблюдений .

Исследуемые невязки

Исследуемые невязки являются необработанными невязками, разделенными независимой оценкой остаточного стандартного отклонения. Невязка для i наблюдения делится на оценку стандартного отклонения ошибки, основанную на всех наблюдениях, кроме i наблюдения.

sri=riMSE(i)(1hii),

где MSE (i) - средняя квадратичная невязка регрессионной подгонки, рассчитанная путем удаления i наблюдения, и h ii является значением рычага для i наблюдения. Исследуемая невязка sr i имеет t - распределение с n - p - 1 степенями свободы.

Как

После получения подобранной модели, скажем mdl, использование fitlm или stepwiselm, можно:

  • Найдите Residuals таблица под mdl объект.

  • Получите любой из этих столбцов в качестве вектора путем индексации в свойство с помощью записи через точку, например,

    mdl.Residuals.Raw

  • Постройте график любого из невязок для значений, подобранных вашей моделью, используя

    plotResiduals(mdl)
    Для получения дополнительной информации смотрите plotResiduals метод LinearModel класс.

Оцените допущения модели с помощью невязок

Этот пример показывает, как оценить допущения модели путем исследования невязок подобранной линейной регрессионой модели.

Загрузите выборочные данные и сохраните независимые и ответные переменные в таблице.

 load imports-85
 tbl = table(X(:,7),X(:,8),X(:,9),X(:,15),'VariableNames',...
{'curb_weight','engine_size','bore','price'});

Подбор линейной регрессионой модели.

mdl = fitlm(tbl)
mdl = 
Linear regression model:
    price ~ 1 + curb_weight + engine_size + bore

Estimated Coefficients:
                    Estimate        SE         tStat       pValue  
                   __________    _________    _______    __________

    (Intercept)        64.095        3.703     17.309    2.0481e-41
    curb_weight    -0.0086681    0.0011025    -7.8623      2.42e-13
    engine_size     -0.015806     0.013255    -1.1925       0.23452
    bore              -2.6998       1.3489    -2.0015      0.046711


Number of observations: 201, Error degrees of freedom: 197
Root Mean Squared Error: 3.95
R-squared: 0.674,  Adjusted R-Squared: 0.669
F-statistic vs. constant model: 136, p-value = 1.14e-47

Постройте гистограмму необработанных невязок.

plotResiduals(mdl)

Figure contains an axes. The axes with title Histogram of residuals contains an object of type patch.

Гистограмма показывает, что невязки слегка искривлены.

Постройте график для всех четырех типов невязок.

 Res = table2array(mdl.Residuals);
 boxplot(Res)

Figure contains an axes. The axes contains 28 objects of type line.

На прямоугольном графике также отображается структура невязок с перекосами справа.

Постройте график нормальной вероятности необработанных невязок.

plotResiduals(mdl,'probability')

Figure contains an axes. The axes with title Normal probability plot of residuals contains 2 objects of type line.

Этот график нормальной вероятности также показывает отклонение от нормальности и перекос на правом хвосте распределения невязок.

Постройте график невязок от отстающих невязок.

plotResiduals(mdl,'lagged')

Figure contains an axes. The axes with title Plot of residuals vs. lagged residuals contains 3 objects of type line.

Этот график показывает тренд, которая указывает на возможную корреляцию среди невязок. Вы можете дополнительно проверить это с помощью dwtest(mdl). Последовательная корреляция среди невязок обычно означает, что модель может быть улучшена.

Постройте график симметрии невязок.

plotResiduals(mdl,'symmetry')

Figure contains an axes. The axes with title Symmetry plot of residuals around their median contains 2 objects of type line.

Этот график также предполагает, что невязки не распределены равномерно вокруг их медианы, как ожидалось бы для нормального распределения.

Постройте график невязок от подобранных значений.

plotResiduals(mdl,'fitted')

Figure contains an axes. The axes with title Plot of residuals vs. fitted values contains 2 objects of type line.

Увеличение отклонения по мере увеличения подобранных значений предполагает возможную гетероскедастичность.

Ссылки

[1] Atkinson, A. T. Plots, Transformations, and Regression. Введение в графические методы диагностического регрессионного анализа. New York: Oxford Statistical Science Series, Oxford University Press, 1987.

[2] Нетер, Дж., М. Х. Кутнер, К. Дж. Нахтсхайм и У. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.

[3] Belsley, D. A., E. Kuh, and R. E. Welsch. Регрессионная диагностика, идентификация влиятельных данных и источников коллинеарности. Серия Wiley в вероятностной и математической статистике, John Wiley and Sons, Inc., 1980.

См. также

| | | | |

Похожие темы