Матрица шляпы и рычаги

Матрица шляпы

Цель

Матрица шляпы обеспечивает меру рычагов. Для исследования полезно, являются ли одно или несколько наблюдений отдаленными относительно своих значений X, и поэтому могут чрезмерно влиять на результаты регрессии.

Определение

Матрица шляпы также известна как матрицу проекции, потому что это проектирует вектор из наблюдений, y, на вектор из предсказаний, y^, таким образом помещая "шляпу" на y. Матрица шляпы H задана в терминах матрицы данных X:

H = X (XTX) –1XT

и определяет подходящие или ожидаемые значения с тех пор

y^=Hy=Xb.

Диагональные элементы H, h ii, называются рычагами и удовлетворяют

0hii1i=1nhii=p,

где p является количеством коэффициентов, и n является количеством наблюдений (строки X) в модели регрессии. HatMatrix n-by-n матрица в Diagnostics таблица.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

  • Отобразите HatMatrix путем индексации в свойство с помощью записи через точку

    mdl.Diagnostics.HatMatrix
    Когда n является большим, HatMatrix может быть в вычислительном отношении дорогим. В тех случаях можно получить диагональные значения непосредственно, с помощью

    mdl.Diagnostics.Leverage

Рычаги

Цель

Рычаги являются мерой эффекта конкретного наблюдения относительно предсказаний регрессии из-за положения того наблюдения в течение входных параметров. В общем случае, чем дальше точка от центра входного пространства, тем больше рычагов это имеет. Поскольку суммой значений рычагов является p, наблюдение, которым i может быть рассмотрен как выброс, если его рычаги существенно превышают среднее значение рычагов, p/n, например, значение, больше, чем 2*p/n.

Определение

Рычаги наблюдения i являются значением i th диагональный термин, h ii, матрицы шляпы, H, где

H = X (X T X) –1XT.

Диагональные термины удовлетворяют

0hii1i=1nhii=p,

где p является количеством коэффициентов в модели регрессии, и n является количеством наблюдений. Минимальное значение h ii является 1/n для модели с постоянным термином. Если подобранная модель проходит источник, то минимальное значение рычагов 0 для наблюдения в x = 0.

Возможно описать подходящие значения, y^, наблюдаемыми величинами, y, с тех пор

y^=Hy=Xb.

Следовательно, h, который описывает ii, на какое количество наблюдение yi оказывает влияние y^i. Большое значение h, ii указывает, что i th случай удален от центра всех X значений для всех случаев n и имеет больше рычагов. Leverage n-by-1 вектор-столбец в Diagnostics таблица.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

  • Отобразите Leverage вектор путем индексации в свойство с помощью записи через точку

    mdl.Diagnostics.Leverage

  • Постройте рычаги для значений, адаптированных вашим использованием модели

    plotDiagnostics(mdl)
    Смотрите plotDiagnostics метод LinearModel класс для деталей.

Определите высокие наблюдения рычагов

В этом примере показано, как вычислить Leverage значения и оценивают высокие наблюдения рычагов. Загрузите выборочные данные и задайте переменные отклика и независимые переменные.

load hospital
y = hospital.BloodPressure(:,1);
X = double(hospital(:,2:5));

Подбирайте модель линейной регрессии.

mdl = fitlm(X,y);

Постройте значения рычагов.

plotDiagnostics(mdl)

В данном примере рекомендуемое пороговое значение является 2*5/100 = 0.1. Нет никакой индикации относительно высоких наблюдений рычагов.

Смотрите также

| | |

Похожие темы