collintest

Диагностика коллинеарности Белсли

Синтаксис

collintest(X)
collintest(X,Name,Value)
sValue = collintest(___)
[sValue,condIdx,VarDecomp] = collintest(___)
collintest(ax,___)
[sValue,condIdx,VarDecomp,h] = collintest(___)

Описание

пример

collintest(X) отображения диагностика коллинеарности Белсли для оценки силы и источников коллинеарности среди переменных в матрице или таблице X в командной строке.

пример

collintest(X,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, collintest(X,'plot','on') строит результаты фигуре.

пример

sValue = collintest(___) возвращает сингулярные значения в порядке убывания с помощью любой из комбинаций входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp] = collintest(___) дополнительно возвращает индексы условия и пропорции разложения отклонения.

collintest(ax,___) графики на осях заданы ax вместо текущей системы координат (gca). ax может предшествовать любой из комбинаций входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp,h] = collintest(___) дополнительно возвращает указатели на нанесенные на график графические объекты. Используйте элементы h, чтобы изменить свойства графика после того, как вы создадите его.

Примеры

свернуть все

Отобразите диагностику коллинеарности для нескольких временных рядов.

Загрузите данные канадской инфляции и процентных ставок.

load Data_Canada

Отобразите диагностику коллинеарности Белсли, с помощью всех опций по умолчанию.

collintest(DataTable)
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

Только последняя строка в отображении имеет индекс условия, больше, чем допуск по умолчанию, 30. В этой строке последние три переменные (в последних трех столбцах) имеют пропорции разложения отклонения, превышающие допуск по умолчанию, 0.5. Это предлагает, чтобы переменные INT_S, INT_M и INT_L показали мультиколлинеарность.

Постройте диагностику коллинеарности для нескольких временных рядов.

Загрузите данные канадской инфляции и процентных ставок.

load Data_Canada

Постройте диагностику коллинеарности Белсли с помощью опции plot.

collintest(DataTable,'plot','on')
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

График соответствует значениям в последней строке пропорций разложения отклонения, которая является единственной с индексом условия, больше, чем допуск по умолчанию, 30. Последние три переменные в этой строке имеют пропорции разложения отклонения, превышающие допуск по умолчанию, 0.5, обозначенный красными маркерами в графике.

Вычислите диагностику коллинеарности для нескольких временных рядов и возвратите сингулярные значения, индексы условия и пропорции разложения отклонения.

Загрузите данные канадской инфляции и процентных ставок.

load Data_Canada

Вычислите диагностику коллинеарности Белсли. Выключите отображение результатов с помощью опции display.

[sv,conIdx,varDecomp] = collintest(DataTable,'display',...
    'off');

Нет никакого отображения результатов.

Отобразите содержимое varDecomp.

varDecomp
varDecomp = 5×5

    0.0012    0.0018    0.0003    0.0000    0.0001
    0.0261    0.0806    0.0035    0.0006    0.0012
    0.3386    0.3802    0.0811    0.0011    0.0137
    0.6138    0.5276    0.1918    0.0004    0.0193
    0.0202    0.0099    0.7233    0.9979    0.9658

Выходным аргументом varDecomp является матрица пропорций разложения отклонения. sv является вектором сингулярных значений в порядке убывания, и condIdx является вектором индексов условия в порядке возрастания.

Входные параметры

свернуть все

Введите переменные регрессии, заданные как numObs-by-numVars числовой матричный или табличный массив. Каждый столбец X соответствует переменной, и каждая строка соответствует наблюдению. Для моделей с прерыванием X должен содержать столбец из единиц.

collintest масштабирует столбцы X к единичной длине перед обработкой. Данные в X не должны быть сосредоточены.

Если X является табличным массивом, то переменные должны быть числовыми.

Типы данных: double | table

Оси, на которых можно построить, заданный как объект Axes.

По умолчанию collintest строит к текущей системе координат (gca).

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'plot','on','tolIdx',35 отображает график результатов с индексом допуска 35

Имена переменных используются в отображениях и графиках результатов, заданных как пара, разделенная запятой, состоящая из 'varNames' и вектор ячейки вектора строки или строк. varNames должен иметь длину numVars, и каждая ячейка соответствует имени переменной. Если термин прерывания присутствует, то varNames должен включать термин прерывания (например, включать имя 'Const'). Программное обеспечение обрезает все имена переменных до первых пяти символов.

  • Если X является матрицей, то значение по умолчанию varNames является вектором ячейки строк {'var1','var2',...}.

  • Если X является табличным массивом, то значение по умолчанию varNames является свойством X.Properties.VariableNames.

Пример: 'varNames',{'Const','AGE','BBD'}

Типы данных: cell | string

Отобразите индикатор результатов для того, отобразить ли результаты в Командном окне, заданном как пара, разделенная запятой, состоящая из 'display' и один из 'on' или 'off'. Если вы задаете значение 'on', то все выводы отображены в табличной форме.

Пример: 'display','off'

Типы данных: cell | string

Постройте индикатор результатов для того, построить ли результаты, заданные как пара, разделенная запятой, состоящая из 'plot' и один из 'on' или 'off'.

  • Если вы задаете значение 'on', то график показывает критические строки вывода VarDecomp, то есть, те строки с индексами условия выше входного допуска tolIdx.

  • Если у группы по крайней мере из двух переменных в критической строке есть пропорции разложения отклонения выше входного допуска tolProp, то группа идентифицирована с красными маркерами.

Пример: 'plot','on'

Типы данных: cell | string

Индексный допуск условия, заданный как пара, разделенная запятой, состоящая из 'tolIdx' и скалярное значение по крайней мере одного. collintest использует допуск, чтобы решить, какие индексы являются достаточно большими, чтобы вывести близкую зависимость в данных. Значение tolIdx только используется, когда plot имеет значение 'on'.

Пример: 'tolIdx',25

Типы данных: double

Допуск пропорции разложения отклонения, заданный как пара, разделенная запятой, состоящая из 'tolProp' и скалярного значения между нулем и один. collintest использует допуск, чтобы решить, какие переменные вовлечены в любую близкую зависимость. Значение tolProp только используется, когда plot имеет значение 'on'.

Пример: 'tolProp',0.4

Типы данных: double

Выходные аргументы

свернуть все

Сингулярные значения масштабированного X, возвращенного как вектор. Элементы sValue в порядке убывания.

Индексы условия, возвращенные как вектор с элементами в порядке возрастания. Все индексы условия имеют значение между одним и количеством условия масштабированного X. Большие индексы идентифицируют близкие зависимости среди переменных в X. Размер индексов является мерой того, как около зависимостей к коллинеарности.

Пропорции разложения отклонения, возвращенные как numVars-by-numVars матрица. Значительные доли, объединенные с большим индексом условия, идентифицируют группы переменных, вовлеченных в близкие зависимости. Размер пропорций является мерой того, как плохо регрессия ухудшается зависимостью.

Указатели на нанесенные на график графические объекты, возвращенные как графический массив. h содержит уникальные идентификаторы графика, которые можно использовать, чтобы запросить или изменить свойства графика.

collintest строит, только если вы устанавливаете 'plot','on'.

Больше о

свернуть все

Диагностика коллинеарности Белсли

Belsley collinearity diagnostics оценивает силу и источники коллинеарности среди переменных в модели линейной регрессии кратного.

Чтобы оценить коллинеарность, программное обеспечение вычисляет сингулярные значения масштабированной переменной матрицы, X, и затем преобразовывает их в индексы условия. Условные индексы идентифицируют номер и силу любых близких зависимостей между переменными в переменной матрице. Программное обеспечение анализирует отклонение оценок обычных наименьших квадратов (OLS) коэффициентов регрессии с точки зрения сингулярных значений, чтобы идентифицировать переменные, вовлеченные в каждую близкую зависимость и степень, до которой зависимости ухудшают регрессию.

Индексы условия

condition indices для масштабированного матричного X идентифицирует номер и силу любых близких зависимостей в X.

Для масштабированного матричного X со столбцами p и сингулярными значениями S(1)S(2)S(p), индексы условия для столбцов X S(1)/S(j), j = 1..., p.

Все индексы условия ограничены между одним и номером условия.

Номер условия

condition number масштабированного матричного X является полной диагностикой для обнаружения коллинеарности.

Для масштабированного матричного X со столбцами p и сингулярными значениями S(1)S(2)S(p), номер условия S(1)/S(p).

Номер условия достигает своей нижней границы той, когда столбцы масштабированного X ортонормированы. Повышения номера условия как варьируемые величины показывают большую зависимость.

Ограничение номера условия как диагностика - то, что ему не удается обеспечить специфические особенности силы и источников любых близких зависимостей.

Несколько модель линейной регрессии

multiple linear regression model является моделью формы Y=Xβ+ε. X является матрицей проекта переменных регрессии, и β является вектором коэффициентов регрессии.

Сингулярные значения

singular values масштабированного матричного X является диагональными элементами матричного S в сингулярном разложении USV.

В порядке убывания сингулярные значения масштабированного матричного X со столбцами p S(1)S(2)S(p).

Пропорции разложения отклонения

Variance-decomposition proportions идентифицирует группы варьируемых величин, вовлеченных в близкие зависимости и степень, до которой зависимости ухудшают регрессию.

От сингулярного разложения USV из масштабированной матрицы проекта X (со столбцами p), позвольте:

  • V быть матрицей ортонормированных собственных векторов XX

  • S(1)S(2)S(p) будьте упорядоченными диагональными элементами матричного S

Отклонение оценки OLS i th несколько коэффициент линейной регрессии, βi, пропорционально сумме

V(i,1)2/S(1)2+V(i,2)2/S(2)2++V(i,p)2/S(p)2,

гдеV(i,j) обозначает (i, j) th элемент V.

(i, j) th пропорция разложения отклонения пропорция j th термин в сумме относительно целой суммы, j = 1..., p.

Условия S(j)2 собственные значения масштабированных XX. Таким образом большие пропорции разложения отклонения соответствуют маленьким собственным значениям XX, общая диагностика для коллинеарности. Сингулярное разложение обеспечивает более прямое, численно стабильное представление eigensystem масштабированных XX.

Советы

  • В целях диагностики коллинеарности Белсли [1] показывает, что масштабирование столбца матрицы проекта, X, всегда желательно. Однако он также показывает, что центрирование данных в X является нежелательным. Для моделей с прерыванием, если вы сосредотачиваете данные в X, затем роль постоянного термина в любой близкой зависимости скрыта, и урожаи, вводящие в заблуждение диагностику.

  • Допуски к идентификации больших индексов условия и пропорций разложения отклонения сопоставимы с критическими значениями в стандартных тестах гипотезы. Опыт определяет самый полезный допуск, но эксперименты предполагают, что значениями по умолчанию collintest являются хорошие отправные точки [1].

Ссылки

[1] Белсли, D. A. Э. Кух и Р. Э. Уэлш. Диагностика регрессии. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Судья, Г. Г., В. Э. Гриффитс, Р. К. Хилл, H. Lϋtkepohl и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.

Смотрите также

Представленный в R2012a