Матрица шляпы и рычаги

Матрица шляпы

Цель

Матрица шляпы обеспечивает меру рычагов. Для исследования полезно, являются ли одно или несколько наблюдений отдаленными относительно своих значений X, и поэтому могут чрезмерно влиять на результаты регрессии.

Определение

Матрица шляпы также известна как матрицу проекции, потому что это проектирует вектор из наблюдений, y, на вектор из предсказаний, $\hat{y}$ , таким образом помещая "шляпу" на y. Матрица шляпы H задана в терминах матрицы данных X:

H = X (X^TX^–1X^T

и определяет подходящие или ожидаемые значения с тех пор

$\hat{y} = H y = X b .$

Диагональные элементы H, h _ii, называются рычагами и удовлетворяют

$\begin{array}{l} 0 \leq h_{i i} \leq 1 \\ \sum_{i = 1}^{n} h_{i i} = p, \end{array}$

где p является количеством коэффициентов, и n является количеством наблюдений (строки X) в модели регрессии. HatMatrix n-by-n матрица в Diagnostics таблица.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Отобразите HatMatrix путем индексации в свойство с помощью записи через точку
```
mdl.Diagnostics.HatMatrix
```
Когда n является большим, HatMatrix может быть в вычислительном отношении дорогим. В тех случаях можно получить диагональные значения непосредственно, с помощью
```
mdl.Diagnostics.Leverage
```

Рычаги

Цель

Рычаги являются мерой эффекта конкретного наблюдения относительно предсказаний регрессии из-за положения того наблюдения в течение входных параметров. В общем случае, чем дальше точка от центра входного пространства, тем больше рычагов это имеет. Поскольку суммой значений рычагов является p, наблюдение, которым i может быть рассмотрен как выброс, если его рычаги существенно превышают среднее значение рычагов, p/n, например, значение, больше, чем 2*p/n.

Определение

Рычаги наблюдения i являются значением i th диагональный термин, h _ii, матрицы шляпы, H, где

H = X (X^TX^–1X^T.

Диагональные термины удовлетворяют

$\begin{array}{l} 0 \leq h_{i i} \leq 1 \\ \sum_{i = 1}^{n} h_{i i} = p, \end{array}$

где p является количеством коэффициентов в модели регрессии, и n является количеством наблюдений. Минимальное значение h _ii является 1/n для модели с постоянным термином. Если подобранная модель проходит источник, то минимальное значение рычагов 0 для наблюдения в x = 0.

Возможно описать подходящие значения, $\hat{y}$ , наблюдаемыми величинами, y, с тех пор

$\hat{y} = H y = X b .$

Следовательно, h, который описывает _ii, на какое количество наблюдение _yi оказывает влияние ${\hat{y}}_{i}$ . Большое значение h_{, ii} указывает, что i th случай удален от центра всех X значений для всех случаев n и имеет больше рычагов. Leverage n-by-1 вектор-столбец в Diagnostics таблица.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Отобразите Leverage вектор путем индексации в свойство с помощью записи через точку
```
mdl.Diagnostics.Leverage
```
Постройте рычаги для значений, адаптированных вашим использованием модели
```
plotDiagnostics(mdl)
```
Смотрите plotDiagnostics метод LinearModel класс для деталей.

Определите высокие наблюдения рычагов

Скрипт Open Live Script

В этом примере показано, как вычислить Leverage значения и оценивают высокие наблюдения рычагов. Загрузите выборочные данные и задайте переменные отклика и независимые переменные.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Постройте значения рычагов.

plotDiagnostics(mdl)

Figure contains an axes object. The axes object with title Case order plot of leverage contains 2 objects of type line. These objects represent Leverage, Reference Line.

В данном примере рекомендуемое пороговое значение является 2*5/100 = 0.1. Нет никакой индикации относительно высоких наблюдений рычагов.

Документация