Удалите 1 статистику

Удалите 1 изменение в ковариации (covratio)

Цель

Удалите 1 изменение в ковариации (covratio) идентифицирует наблюдения, которые влияют при подгонке регрессии. Влиятельное наблюдение является тем, где его исключение из силы модели значительно изменяет функцию регрессии. Значения covratio, больше, чем 1 + 3*p/n или меньший, чем 1 – 3*p/n указывают на влиятельные точки, где p является количеством коэффициентов регрессии, и n является количеством наблюдений.

Определение

covratio статистическая величина является отношением определителя содействующей ковариационной матрицы с наблюдением i, удаленный к определителю ковариационной матрицы для полной модели:

$cov r a t i o = \frac{\det {M S E (i) {[X^{'} (i) X (i)]}^{- 1}}}{\det [M S E {(X^{'} X)}^{- 1}]} .$

CovRatio n-by-1 вектор в Diagnostics таблица подходящего LinearModel объект. Каждым элементом является отношение обобщенного отклонения предполагаемых коэффициентов, когда соответствующий элемент удален к обобщенному отклонению коэффициентов с помощью всех данных.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Отобразите CovRatio путем индексации в свойство с помощью записи через точку
```
mdl.Diagnostics.CovRatio
```
Постройте удаление 1 изменения в использовании ковариации
```
plotDiagnostics(mdl,'CovRatio')
```
Для получения дополнительной информации смотрите plotDiagnostics метод LinearModel класс.

Определите влиятельные наблюдения Используя CovRatio

Скрипт Open Live Script

В этом примере показано, как использовать CovRatio статистика, чтобы определить влиятельные точки в данных. Загрузите выборочные данные и задайте переменные отклика и переменные предикторы.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Постройте CovRatio статистика.

plotDiagnostics(mdl,'CovRatio')

В данном примере пороговые пределы равняются 1 + 3*5/100 = 1.15 и 1 - 3*5/100 = 0.85. Существует несколько точек вне пределов, которые могут быть влиятельными точками.

Найдите наблюдения, которые являются вне пределов.

find((mdl.Diagnostics.CovRatio)>1.15|(mdl.Diagnostics.CovRatio)<0.85)

Удалите 1 масштабированное различие в содействующих оценках (Dfbetas)

Цель

Знак удаления 1 масштабированного различия в содействующей оценке (Dfbetas) для коэффициента j и наблюдение, на которое указывает i, вызывает ли то наблюдение увеличение или уменьшение в оценке коэффициента регрессии. Абсолютное значение Dfbetas указывает на величину различия относительно предполагаемого стандартного отклонения коэффициента регрессии. Значение Dfbetas, больше, чем 3/sqrt (n) в абсолютном значении, указывает, что наблюдение имеет большое влияние на соответствующий коэффициент.

Определение

Дфбеты для коэффициента j и наблюдение i являются отношением различия в оценке коэффициента j с помощью всех наблюдений и того, полученного путем удаления наблюдения i и стандартная погрешность содействующей оценки, полученной путем удаления наблюдения i. Дфбеты для коэффициента j и наблюдение i

$D f b e t a s_{i j} = \frac{b_{j} - b_{j (i)}}{\sqrt{M S E_{(i)}} (1 - h_{i i})},$

где b_{, j} является оценкой для коэффициента j, b _{j (i)}, является оценкой для коэффициента j путем удаления наблюдения i, MSE _(i) является среднеквадратической ошибкой подгонки регрессии путем удаления наблюдения i и h_{, ii} является значением рычагов для наблюдения i. Dfbetas n-by-p матрица в Diagnostics таблица подходящего LinearModel объект. Каждая ячейка Dfbetas соответствует значению Dfbetas для соответствующего коэффициента, полученного путем удаления соответствующего наблюдения.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, можно получить значения Dfbetas как n-by-p матрица путем индексации в свойство с помощью записи через точку,

mdl.Diagnostics.Dfbetas

Определите наблюдения, влиятельные на коэффициентах Используя `Dfbetas`

Скрипт Open Live Script

В этом примере показано, как определить наблюдения, которые имеют большое влияние на коэффициенты с помощью Dfbetas. Загрузите выборочные данные и задайте переменные отклика и независимые переменные.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Найдите Dfbetas значения, которые высоки в абсолютном значении.

[row,col] = find(abs(mdl.Diagnostics.Dfbetas)>3/sqrt(100));
disp([row col])

Удалите 1 масштабированное изменение в подходящих значениях (Dffits)

Цель

Удаление 1 масштабированного изменения в подходящих значениях (Dffits) показывает влияние каждого наблюдения относительно подходящих значений отклика. Могут влиять значения Dffits с абсолютным значением, больше, чем 2*sqrt (p/n).

Определение

Dffits для наблюдения i

$D f f i t s_{i} = s r_{i} \sqrt{\frac{h_{i i}}{1 - h_{i i}}},$

где sr_{, i}является studentized невязкой и h _ii, является значением рычагов подходящего LinearModel объект. Dffits n-by-1 вектор-столбец в Diagnostics таблица подходящего LinearModel объект. Каждый элемент в Dffits изменение в подходящем значении, вызванном путем удаления соответствующего наблюдения и масштабирования стандартной погрешностью.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Отобразите Dffits значения путем индексации в свойство с помощью записи через точку
```
mdl.Diagnostics.Dffits
```
Постройте удаление 1 масштабированного изменения в подходящем использовании значений
```
plotDiagnostics(mdl,'Dffits')
```
Для получения дополнительной информации смотрите plotDiagnostics метод LinearModel класс для деталей.

Определите наблюдения, влиятельные на подходящем ответе Используя `Dffits`

Скрипт Open Live Script

В этом примере показано, как определить наблюдения, которые влияют на подходящие значения отклика с помощью Dffits значения. Загрузите выборочные данные и задайте переменные отклика и независимые переменные.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Постройте Dffits значения.

plotDiagnostics(mdl,'Dffits')

Влиятельный порог ограничивает для абсолютного значения Dffits в этом примере 2*sqrt (5/100) = 0.45. Снова, существуют некоторые наблюдения с Dffits значения вне рекомендуемых пределов.

Найдите Dffits значения, которые являются большими в абсолютном значении.

find(abs(mdl.Diagnostics.Dffits)>2*sqrt(4/100))

Удалите 1 отклонение (`S2_i`)

Цель

Удаление 1 отклонения (S2_i) показывает, как среднеквадратическая ошибка изменяется, когда наблюдение удалено из набора данных. Можно сравнить S2_i значения со значением среднеквадратической ошибки.

Определение

S2_i набор остаточных оценок отклонения, полученных путем удаления каждого наблюдения в свою очередь. S2_i значение для наблюдения i

$S 2_i = M S E_{(i)} = \frac{\sum_{j \neq i}^{n} {[y_{j} - {\hat{y}}_{j (i)}]}^{2}}{n - p - 1},$

где y _j является j th наблюдаемое значение отклика. S2_i n-by-1 вектор в Diagnostics таблица подходящего LinearModel объект. Каждый элемент в S2_i среднеквадратическая ошибка регрессии, полученной путем удаления того наблюдения.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Отобразите S2_i вектор путем индексации в свойство с помощью записи через точку
```
mdl.Diagnostics.S2_i
```
Постройте удаление 1 использования значений отклонения
```
plotDiagnostics(mdl,'S2_i')
```
Для получения дополнительной информации смотрите plotDiagnostics метод LinearModel класс.

Вычислите и исследуйте, удаляют 1 значение отклонения

Скрипт Open Live Script

В этом примере показано, как вычислить и построить значения S2_i, чтобы исследовать изменение в среднеквадратической ошибке, когда наблюдение удалено из данных. Загрузите выборочные данные и задайте переменные отклика и независимые переменные.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Отобразите значение MSE для модели.

mdl.MSE

ans = 23.1140

Постройте значения S2_i.

plotDiagnostics(mdl,'S2_i')

Этот график дает возможность сравнивать значения S2_i со значением MSE 23,114, обозначенный горизонтальными пунктирными линиями. Вы видите, как удаление одного наблюдения изменяет ошибочное отклонение.

Документация