Невязки полезны для обнаружения отдаленных значений y и проверки допущений линейной регрессии относительно термина ошибки в регрессионой модели. Наблюдения с высоким коэффициентом использования имеют меньшие невязки, потому что они часто смещают регрессионую линию или поверхность ближе к ним. Можно также использовать невязки для обнаружения некоторых форм гетероскедастичности и автокорреляции.
The Residuals
матрица является таблицей n-на-4, содержащей четыре типа невязок, с одной строкой для каждого наблюдения.
Наблюдаемые минус установленные значения, то есть,
Необработанные невязки, разделенные на корневую среднюю квадратичную невязку, то есть
где r i - сырая невязка, а MSE - средняя квадратичная невязка.
Стандартизированные невязки являются необработанными невязками, разделенными на их предполагаемое стандартное отклонение. Стандартизированная невязка для i наблюдений
где MSE - средняя квадратичная невязка, а h ii - величина рычага для i наблюдений .
Исследуемые невязки являются необработанными невязками, разделенными независимой оценкой остаточного стандартного отклонения. Невязка для i наблюдения делится на оценку стандартного отклонения ошибки, основанную на всех наблюдениях, кроме i наблюдения.
где MSE (i) - средняя квадратичная невязка регрессионной подгонки, рассчитанная путем удаления i наблюдения, и h ii является значением рычага для i наблюдения. Исследуемая невязка sr i имеет t - распределение с n - p - 1 степенями свободы.
После получения подобранной модели, скажем mdl
, использование fitlm
или stepwiselm
, можно:
Найдите Residuals
таблица под mdl
объект.
Получите любой из этих столбцов в качестве вектора путем индексации в свойство с помощью записи через точку, например,
mdl.Residuals.Raw
Постройте график любого из невязок для значений, подобранных вашей моделью, используя
plotResiduals(mdl)
plotResiduals
метод LinearModel
класс.
Этот пример показывает, как оценить допущения модели путем исследования невязок подобранной линейной регрессионой модели.
Загрузите выборочные данные и сохраните независимые и ответные переменные в таблице.
load imports-85 tbl = table(X(:,7),X(:,8),X(:,9),X(:,15),'VariableNames',... {'curb_weight','engine_size','bore','price'});
Подбор линейной регрессионой модели.
mdl = fitlm(tbl)
mdl = Linear regression model: price ~ 1 + curb_weight + engine_size + bore Estimated Coefficients: Estimate SE tStat pValue __________ _________ _______ __________ (Intercept) 64.095 3.703 17.309 2.0481e-41 curb_weight -0.0086681 0.0011025 -7.8623 2.42e-13 engine_size -0.015806 0.013255 -1.1925 0.23452 bore -2.6998 1.3489 -2.0015 0.046711 Number of observations: 201, Error degrees of freedom: 197 Root Mean Squared Error: 3.95 R-squared: 0.674, Adjusted R-Squared: 0.669 F-statistic vs. constant model: 136, p-value = 1.14e-47
Постройте гистограмму необработанных невязок.
plotResiduals(mdl)
Гистограмма показывает, что невязки слегка искривлены.
Постройте график для всех четырех типов невязок.
Res = table2array(mdl.Residuals); boxplot(Res)
На прямоугольном графике также отображается структура невязок с перекосами справа.
Постройте график нормальной вероятности необработанных невязок.
plotResiduals(mdl,'probability')
Этот график нормальной вероятности также показывает отклонение от нормальности и перекос на правом хвосте распределения невязок.
Постройте график невязок от отстающих невязок.
plotResiduals(mdl,'lagged')
Этот график показывает тренд, которая указывает на возможную корреляцию среди невязок. Вы можете дополнительно проверить это с помощью dwtest(mdl)
. Последовательная корреляция среди невязок обычно означает, что модель может быть улучшена.
Постройте график симметрии невязок.
plotResiduals(mdl,'symmetry')
Этот график также предполагает, что невязки не распределены равномерно вокруг их медианы, как ожидалось бы для нормального распределения.
Постройте график невязок от подобранных значений.
plotResiduals(mdl,'fitted')
Увеличение отклонения по мере увеличения подобранных значений предполагает возможную гетероскедастичность.
[1] Atkinson, A. T. Plots, Transformations, and Regression. Введение в графические методы диагностического регрессионного анализа. New York: Oxford Statistical Science Series, Oxford University Press, 1987.
[2] Нетер, Дж., М. Х. Кутнер, К. Дж. Нахтсхайм и У. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.
[3] Belsley, D. A., E. Kuh, and R. E. Welsch. Регрессионная диагностика, идентификация влиятельных данных и источников коллинеарности. Серия Wiley в вероятностной и математической статистике, John Wiley and Sons, Inc., 1980.
dwtest
| fitlm
| LinearModel
| plotDiagnostics
| plotResiduals
| stepwiselm