collintest

Диагностика коллинеарности Белсли

Описание

пример

collintest(X) отображает диагностику коллинеарности Белсли для оценки силы и источников коллинеарности среди переменных в матрице или таблице X в командной строке.

пример

collintest(X,Name,Value) использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, collintest(X,'plot','on') строит графики результатов на рисунке.

пример

sValue = collintest(___) возвращает сингулярные значения в порядке убывания, используя любую из комбинаций входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp] = collintest(___) дополнительно возвращает индексы условий и пропорции разложения отклонений.

collintest(ax,___) графики на осях, заданных ax вместо текущих систем координат (gca). ax может предшествовать любой комбинации входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp,h] = collintest(___) дополнительно возвращает указатели на графические объекты. Используйте элементы h для изменения свойств графика после его создания.

Примеры

свернуть все

Отобразите диагностику коллинеарности для нескольких временных рядов.

Загрузка данных по канадской инфляции и процентным ставкам.

load Data_Canada

Отобразите диагностику коллинеарности Белсли, используя все опции по умолчанию.

collintest(DataTable)
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

Только последняя строка на отображении имеет индекс условия, больший, чем допуск по умолчанию 30. В этой строке последние три переменные (в последних трех столбцах) имеют пропорции разложения дисперсий, превышающие допуск по умолчанию 0,5. Это предполагает, что переменные INT_S, INT_M, и INT_L проявляют многоколлинейность.

Постройте диагностику коллинеарности для нескольких временных рядов.

Загрузка данных по канадской инфляции и процентным ставкам.

load Data_Canada

Постройте график диагностики коллинеарности Белсли с помощью plot опция.

collintest(DataTable,'plot','on')
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

Figure contains an axes. The axes with title {\bf High Index Variance Decompositions} contains 3 objects of type line. These objects represent condIdx 87.8, tolProp.

График соответствует значениям в последней строке пропорций разложения дисперсий, которая является единственной с индексом условия, большим, чем допуск по умолчанию, 30. Последние три переменные в этой строке имеют пропорции разложения дисперсий, превышающие допуск по умолчанию 0,5, обозначенный красными маркерами на графике.

Вычислите диагностику коллинеарности для нескольких временных рядов и верните сингулярные значения, индексы условий и пропорции разложения дисперсий.

Загрузка данных по канадской инфляции и процентным ставкам.

load Data_Canada

Вычислите диагностику коллинеарности Белсли. Отключите отображение результатов с помощью display опция.

[sv,conIdx,varDecomp] = collintest(DataTable,'display',...
    'off');

Отображение результатов отсутствует.

Отображение содержимого varDecomp.

varDecomp
varDecomp = 5×5

    0.0012    0.0018    0.0003    0.0000    0.0001
    0.0261    0.0806    0.0035    0.0006    0.0012
    0.3386    0.3802    0.0811    0.0011    0.0137
    0.6138    0.5276    0.1918    0.0004    0.0193
    0.0202    0.0099    0.7233    0.9979    0.9658

Выходной аргумент varDecomp является матрицей пропорций дисперсионного разложения. sv является вектором сингулярных значений в порядке убывания, и condIdx является вектором индексов условий в порядке возрастания.

Входные параметры

свернуть все

Входные переменные регрессии, заданные как numObs-by- numVars числовая матрица или табличный массив. Каждый столбец X соответствует переменной, и каждая строка соответствует наблюдению. Для моделей с точкой пересечения X должен содержать столбец таковых.

collintest масштабирует столбцы X к длине модуля перед обработкой. Данные в X не должен быть центрирован.

Если X является табличным массивом, тогда переменные должны быть числовыми.

Типы данных: double | table

Оси, на которых нужно построить график, заданные как Axes объект.

По умолчанию, collintest графики для текущей системы координат (gca).

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'plot','on','tolIdx',35 отображает график результатов с индексом допуска 35

Имена переменных, используемые в отображениях и графиках результатов, заданные как разделенная разделенными запятой парами, состоящая из 'varNames' и вектор камеры из строк или строкового вектора. varNames должна иметь длину numVars, и каждая камера соответствует имени переменной. Если присутствует термин точки пересечения, то varNames должен включать термин точки пересечения (например, включать имя 'Const'). Программа обрезает все имена переменных до первых пяти символов.

  • Если X является матрицей, затем значением по умолчанию varNames - вектор камер строк {'var1','var2',...}.

  • Если X является табличным массивом, тогда значение по умолчанию varNames свойство X.Properties.VariableNames.

Пример: 'varNames',{'Const','AGE','BBD'}

Типы данных: cell | string

Отобразите индикатор результатов отображения результатов в Командном окне, заданный как разделенная разделенными запятой парами, состоящая из 'display' и один из 'on' или 'off'. Если вы задаете значение 'on'затем все выходы отображаются в табличной форме.

Пример: 'display','off'

Типы данных: cell | string

Постройте индикатор результатов для вывода результатов, заданный как разделенная разделенными запятой парами, состоящая из 'plot' и один из 'on' или 'off'.

  • Если вы задаете значение 'on', затем на графике показаны критические строки выхода VarDecomp, то есть те строки с условием индексами выше входа допуска tolIdx.

  • Если группа из как минимум двух переменных в критической строке имеет пропорции разложения дисперсий выше входа допуска tolPropзатем группу идентифицируют красными маркерами.

Пример: 'plot','on'

Типы данных: cell | string

Допуск индекса условия, заданный как разделенная разделенными запятой парами, состоящая из 'tolIdx' и скалярное значение, по меньшей мере, единицы. collintest использует допуск, чтобы решить, какие индексы являются достаточно большими, чтобы вывести близкую зависимость в данных. The tolIdx значение используется только тогда, когда plot имеет значение 'on'.

Пример: 'tolIdx',25

Типы данных: double

Допуск пропорции разложения и дисперсии, заданный как разделенная разделенными запятой парами, состоящая из 'tolProp' и скалярное значение от нуля до единицы. collintest использует допуск, чтобы решить, какие переменные участвуют в любой близкой зависимости. The tolProp значение используется только тогда, когда plot имеет значение 'on'.

Пример: 'tolProp',0.4

Типы данных: double

Выходные аргументы

свернуть все

Сингулярные значения масштабируемых X, возвращается как вектор. Элементы sValue находятся в порядке убывания.

Индексы условия, возвращенные как вектор с элементами в порядке возрастания. Все индексы условий имеют значение между одним и числом обусловленности масштабированных X. Большие индексы идентифицируют близкие зависимости среди переменных в X. Размер индексов является мерой того, насколько близки зависимости к коллинеарности.

Пропорции дисперсии-разложения, возвращенные как numVars-by- numVars матрица. Большие пропорции в сочетании с большим индексом условий идентифицируют группы переменных, участвующих в близких зависимостях. Размер пропорций является мерой того, насколько сильно регрессия ухудшается зависимостью.

Указатели на графические объекты, возвращенные как графический массив. h содержит уникальные идентификаторы графика, которые можно использовать для запроса или изменения свойств графика.

collintest графики только в том случае, если вы задаете 'plot','on'.

Подробнее о

свернуть все

Диагностика коллинеарности Белсли

Belsley collinearity diagnostics оцениваете силу и источники коллинеарности среди переменных в многофакторные линейные регрессии.

Чтобы оценить коллинеарность, программа вычисляет сингулярные значения масштабированной матрицы переменных, X, и затем преобразует их в индексы условий. Условные индексы идентифицируют количество и силу любых близких зависимостей между переменными в матрице переменных. Программа разлагает отклонение обычных оценок коэффициентов регрессии методом наименьших квадратов (OLS) с точки зрения сингулярных значений, чтобы идентифицировать переменные, участвующие в каждой близкой зависимости, и степень, в которой зависимости ухудшают регрессию.

Индексы условия

condition indices для масштабированной матрицы X идентифицировать количество и силу любых близких зависимостей в X.

Для масштабированных матричных X с p столбцами и сингулярными значениями S1S2Sp, индексы условия столбцов X S1/Sj, j = 1..., p.

Все индексы условий ограничены одним и числом обусловленности.

Число обусловленности

condition number масштабированной матричной X является общей диагностикой для обнаружения коллинеарности.

Для масштабированных матричных X с p столбцами и сингулярными значениями S1S2Sp, число обусловленности S1/Sp.

Число обусловленности достигает своей нижней границы единицы, когда столбцы масштабированных X ортонормальны. Число обусловленности увеличивается, поскольку изменения показывают большую зависимость.

Ограничение числа обусловленности как диагностики заключается в том, что она не обеспечивает специфику на силу и источники любых близких зависимостей.

Множественная линейная регрессионая модель

A multiple linear regression model является моделью вида Y=Xβ+ε. X - проект матрица регрессионных переменных, а β - вектор коэффициентов регрессии.

Сингулярные значения

singular values масштабированных матричных X являются диагональными элементами матричных S в сингулярном разложении USV.

В порядке убывания сингулярные значения масштабированной матрицы, X с p столбцами, S1S2Sp.

Пропорции дисперсии-разложения

Variance-decomposition proportions идентифицируете группы вариатов, участвующих в близких зависимостях, и степень, в которой зависимости ухудшают регрессию.

Из сингулярного разложения USV масштабируемого проекта матрицы Xp столбцами), позвольте:

  • V быть матрицей ортонормальных собственных векторов XX

  • S1S2Sp быть упорядоченными диагональными элементами матрицы S

Дисперсия оценки OLS нескольких i коэффициентов линейной регрессии, βi, пропорциональна сумме

V(i,1)2/S12+V(i,2)2/S22++V(i,p)2/Sp2,

где V(i,j) обозначает элемент (i, j) V.

Пропорция дисперсии-разложения (i, j) - доля членов, j в сумме относительно всей суммы, j = 1,..., p.

Условия Sj2 являются собственными значениями масштабированных XX. Таким образом, большие пропорции дисперсии-разложения соответствуют небольшим собственным значениям XX, общая диагностика коллинеарности. Сингулярное разложение обеспечивает более прямое, численно стабильное представление собственной системы масштабируемых XX.

Совет

  • В целях диагностики коллинеарности Белсли [1] показывает это масштабирование столбцов матрицы проекта X, всегда желательно. Однако он также показывает, что центрирование данных в X нежелательно. Для моделей с точкой пересечения, если вы центрируете данные в X, затем роль постоянного термина в любой близкой зависимости скрыта, и приводит к вводящей в заблуждение диагностике.

  • Допуски для идентификации больших индексов условия и пропорций разложения дисперсий сопоставимы с критическими значениями в стандартных тестах гипотез. Опыт определяет наиболее полезнейший допуск, но эксперименты предполагают collintest значения по умолчанию являются хорошими начальными точками [1].

Ссылки

[1] Belsley, D. A., E. Kuh, and R. E. Welsh. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Судья, Г. Г., У. Э. Гриффитс, Р. К. Хилл, Х. Лткепол и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.

См. также

Введенный в R2012a