Невязки

Цель

Невязки полезны для обнаружения отдаленных значений y и проверки предположений линейной регрессии относительно остаточного члена в модели регрессии. Наблюдения высоких рычагов имеют меньшие невязки, потому что они часто переключают линию регрессии или поверхность ближе им. Можно также использовать невязки, чтобы обнаружить некоторые формы heteroscedasticity и автокорреляции.

Определение

Матрицей Residuals является n-by-4 таблица, содержащая четыре типа невязок с одной строкой для каждого наблюдения.

Необработанные невязки

Наблюдаемый минус подходящие значения, то есть,

$r_{i} = y_{i} - \hat{y} {}_{i}.$

Невязки Пирсона

Необработанные невязки, разделенные полностью среднеквадратическая ошибка, то есть,

$p r_{i} = \frac{r_{i}}{\sqrt{M S E}},$

где r_{, i} является необработанной невязкой и MSE, является среднеквадратической ошибкой.

Стандартизированные невязки

Стандартизированные невязки являются необработанными невязками, разделенными на их предполагаемое стандартное отклонение. Стандартизированная невязка для наблюдения i

$s t_{i} = \frac{r_{i}}{\sqrt{M S E (1 - h_{i i})}},$

где MSE является среднеквадратической ошибкой и h_{, ii} является значением рычагов для наблюдения i.

Невязки Studentized

Невязки Studentized являются необработанными невязками, разделенными на независимую оценку остаточного стандартного отклонения. Невязка для наблюдения i разделена на оценку ошибочного стандартного отклонения на основе всех наблюдений за исключением наблюдения i.

$s r_{i} = \frac{r_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}},$

где MSE _(i) является среднеквадратической ошибкой подгонки регрессии, вычисленной путем удаления наблюдения i и h_{, ii} является значением рычагов для наблюдения i. studentized остаточный sr _i имеет t - распределение с n – p – 1 степень свободы.

Как к

После получения подобранной модели, скажем, mdl, с помощью fitlm или stepwiselm, вы можете:

Найдите таблицу Residuals под объектом mdl.
Получите любой из этих столбцов как вектор путем индексации в свойство с помощью записи через точку, например,
```
mdl.Residuals.Raw
```
Постройте любую из невязок для значений, адаптированных вашим образцовым использованием
```
plotResiduals(mdl)
```
Для получения дополнительной информации см. метод plotResiduals класса LinearModel.

Оцените образцовые предположения Используя невязки

Скрипт Open Live Script

Этот пример показывает, как оценить образцовые предположения путем исследования невязок подходящей модели линейной регрессии.

Загрузите выборочные данные и сохраните независимые переменные и переменные отклика в таблице.

 load imports-85
 tbl = table(X(:,7),X(:,8),X(:,9),X(:,15),'VariableNames',...
{'curb_weight','engine_size','bore','price'});

Соответствуйте модели линейной регрессии.

mdl = fitlm(tbl)

mdl = 
Linear regression model:
    price ~ 1 + curb_weight + engine_size + bore

Estimated Coefficients:
                    Estimate        SE         tStat       pValue  
                   __________    _________    _______    __________

    (Intercept)        64.095        3.703     17.309    2.0481e-41
    curb_weight    -0.0086681    0.0011025    -7.8623      2.42e-13
    engine_size     -0.015806     0.013255    -1.1925       0.23452
    bore              -2.6998       1.3489    -2.0015      0.046711


Number of observations: 201, Error degrees of freedom: 197
Root Mean Squared Error: 3.95
R-squared: 0.674,  Adjusted R-Squared: 0.669
F-statistic vs. constant model: 136, p-value = 1.14e-47

Постройте гистограмму необработанных невязок.

plotResiduals(mdl)

Гистограмма показывает, что невязки немного правильные скошенный.

Постройте диаграмму всех четырех типов невязок.

 Res = table2array(mdl.Residuals);
 boxplot(Res)

Вы видите скошенную правом структуру невязок в диаграмме также.

Постройте график нормального распределения необработанных невязок.

plotResiduals(mdl,'probability')

Этот график нормального распределения также показывает отклонение от нормальности и скошенности на правом хвосте распределения невязок.

Постройте невязки по сравнению с изолированными невязками.

plotResiduals(mdl,'lagged')

Этот график показывает тренд, который указывает на возможную корреляцию среди невязок. Можно далее проверять это использование dwtest(mdl). Последовательная корреляция среди невязок обычно означает, что модель может быть улучшена.

Постройте график симметрии невязок.

plotResiduals(mdl,'symmetry')

Этот график также предполагает, что невязки не распределяются одинаково вокруг их медианы, как ожидался бы для нормального распределения.

Постройте невязки по сравнению с подходящими значениями.

plotResiduals(mdl,'fitted')

Увеличение отклонения как подходящее увеличение значений предлагает возможный heteroscedasticity.

Ссылки

[1] Аткинсон, A. T. Графики, преобразования и регрессия. Введение в графические методы диагностического регрессионного анализа. Нью-Йорк: Оксфорд статистический научный ряд, издательство Оксфордского университета, 1987.

[2] Neter, J., М. Х. Катнер, К. Дж. Нахцхайм и В. Вассерман. Прикладные линейные статистические модели. IRWIN, McGraw-Hill Companies, Inc., 1996.

[3] Белсли, D. A. Э. Кух и Р. Э. Велш. Диагностика регрессии, идентифицируя влиятельные данные и источники коллинеарности. Ряд Вайли в вероятности и математической статистике, John Wiley and Sons, Inc., 1980.

Документация