exponenta event banner

collintest

Диагностика коллинеарности Белсли

Описание

пример

collintest(X) отображает диагностику коллинеарности Белсли для оценки силы и источников коллинеарности между переменными в матрице или таблице X в командной строке.

пример

collintest(X,Name,Value) использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, collintest(X,'plot','on') строит график результатов на фигуру.

пример

sValue = collintest(___) возвращает сингулярные значения в порядке убывания, используя любую из комбинаций входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp] = collintest(___) дополнительно возвращает индексы условий и пропорции разложения дисперсии.

collintest(ax,___) графики на осях, указанных ax вместо текущих осей (gca). ax может предшествовать любой из комбинаций входных аргументов в предыдущих синтаксисах.

[sValue,condIdx,VarDecomp,h] = collintest(___) дополнительно возвращает дескрипторы для графических объектов, выводимых на печать. Использовать элементы h для изменения свойств графика после его создания.

Примеры

свернуть все

Отображение диагностики коллинеарности для нескольких временных рядов.

Загрузить данные канадской инфляции и процентных ставок.

load Data_Canada

Отображение диагностики коллинеарности Belsley с использованием всех параметров по умолчанию.

collintest(DataTable)
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

Только последняя строка на экране имеет индекс условия, превышающий допуск по умолчанию 30. В этой строке последние три переменные (в последних трех столбцах) имеют пропорции разброса-разложения, превышающие допуск по умолчанию, 0,5. Это говорит о том, что переменные INT_S, INT_M, и INT_L проявляют мультиколлинеарность.

Постройте график диагностики коллинеарности для нескольких временных рядов.

Загрузить данные канадской инфляции и процентных ставок.

load Data_Canada

Постройте график диагностики коллинеарности Белсли с помощью plot вариант.

collintest(DataTable,'plot','on')
Variance Decomposition

 sValue  condIdx   INF_C   INF_G   INT_S   INT_M   INT_L 
---------------------------------------------------------
 2.1748    1      0.0012  0.0018  0.0003  0.0000  0.0001 
 0.4789   4.5413  0.0261  0.0806  0.0035  0.0006  0.0012 
 0.1602  13.5795  0.3386  0.3802  0.0811  0.0011  0.0137 
 0.1211  17.9617  0.6138  0.5276  0.1918  0.0004  0.0193 
 0.0248  87.8245  0.0202  0.0099  0.7233  0.9979  0.9658 

Figure contains an axes. The axes with title {\bf High Index Variance Decompositions} contains 3 objects of type line. These objects represent condIdx 87.8, tolProp.

График соответствует значениям в последней строке пропорций дисперсия-декомпозиция, которая является единственной с индексом условия, большим, чем допуск по умолчанию, 30. Последние три переменные в этой строке имеют пропорции дисперсии-разложения, превышающие допуск по умолчанию, 0,5, обозначенный красными маркерами на графике.

Вычислите диагностику коллинеарности для нескольких временных рядов и верните сингулярные значения, индексы условий и пропорции дисперсии-разложения.

Загрузить данные канадской инфляции и процентных ставок.

load Data_Canada

Вычислите диагностику коллинеарности Белсли. Отключить отображение результатов с помощью display вариант.

[sv,conIdx,varDecomp] = collintest(DataTable,'display',...
    'off');

Результаты не отображаются.

Отображение содержимого varDecomp.

varDecomp
varDecomp = 5×5

    0.0012    0.0018    0.0003    0.0000    0.0001
    0.0261    0.0806    0.0035    0.0006    0.0012
    0.3386    0.3802    0.0811    0.0011    0.0137
    0.6138    0.5276    0.1918    0.0004    0.0193
    0.0202    0.0099    0.7233    0.9979    0.9658

Выходной аргумент varDecomp - матрица пропорций дисперсии-разложения. sv - вектор сингулярных значений в порядке убывания, и condIdx - вектор индексов условий в порядке возрастания.

Входные аргументы

свернуть все

Входные переменные регрессии, указанные как numObsоколо-numVars числовая матрица или табличный массив. Каждый столбец X соответствует переменной, и каждая строка соответствует наблюдению. Для моделей с перехватом, X должен содержать столбец из них.

collintest масштабирует столбцы X в единицу длины перед обработкой. Данные в X не следует центрировать.

Если X является табличным массивом, то переменные должны быть числовыми.

Типы данных: double | table

Оси для печати, указанные как Axes объект.

По умолчанию collintest графики к текущим осям (gca).

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'plot','on','tolIdx',35 отображает график результатов с индексом допуска 35

Имена переменных, используемые на экранах и графиках результатов, указанные как пара, разделенная запятыми, состоящая из 'varNames' и вектор ячейки из строк или вектора строки. varNames должен иметь длину numVars, и каждая ячейка соответствует имени переменной. Если присутствует член перехвата, то varNames должен включать термин перехвата (например, включать имя 'Const'). Программа усекает все имена переменных до первых пяти символов.

  • Если X является матрицей, то значение по умолчанию varNames - вектор ячеек строк {'var1','var2',...}.

  • Если X является табличным массивом, то значение по умолчанию varNames является свойством X.Properties.VariableNames.

Пример: 'varNames',{'Const','AGE','BBD'}

Типы данных: cell | string

Отображение индикатора результатов для определения необходимости отображения результатов в командном окне, указанном как разделенная запятыми пара, состоящая из 'display' и один из 'on' или 'off'. Если указано значение 'on', то все выходы отображаются в табличной форме.

Пример: 'display','off'

Типы данных: cell | string

Индикатор результатов графика для вывода на график результатов, указанный как пара, разделенная запятыми, состоящая из 'plot' и один из 'on' или 'off'.

  • Если указано значение 'on', то график показывает критические строки вывода VarDecomp, то есть строки с индексами условий выше входного допуска tolIdx.

  • Если группа по крайней мере из двух переменных в критической строке имеет пропорции дисперсии-разложения выше входного допуска tolPropзатем группу идентифицируют красными маркерами.

Пример: 'plot','on'

Типы данных: cell | string

Допуск индекса условия, указанный как разделенная запятыми пара, состоящая из 'tolIdx' и скалярное значение, по меньшей мере, одного. collintest использует допуск, чтобы определить, какие индексы достаточно велики для вывода близкой зависимости в данных. tolIdx значение используется только тогда, когда plot имеет значение 'on'.

Пример: 'tolIdx',25

Типы данных: double

Допуск пропорции дисперсии-разложения, заданный как разделенная запятыми пара, состоящая из 'tolProp' и скалярное значение от нуля до единицы. collintest использует допуск для определения переменных, участвующих в любой близкой зависимости. tolProp значение используется только тогда, когда plot имеет значение 'on'.

Пример: 'tolProp',0.4

Типы данных: double

Выходные аргументы

свернуть все

Сингулярные значения масштабированных значений X, возвращено как вектор. Элементы sValue находятся в порядке убывания.

Индексы условий, возвращаемые в виде вектора с элементами в порядке возрастания. Все индексы условий имеют значение от одного до номера условия с масштабированием X. Большие индексы идентифицируют близкие зависимости между переменными в X. Размер индексов является мерой того, насколько близки зависимости к коллинеарности.

Пропорции дисперсии-разложения, возвращаемые как numVarsоколо-numVars матрица. Большие доли в сочетании с большим индексом условия идентифицируют группы переменных, вовлеченных в близкие зависимости. Размер пропорций является мерой того, насколько сильно регрессия ухудшается зависимостью.

Обрабатывает графические объекты, возвращаемые в виде графического массива. h содержит уникальные идентификаторы графика, которые можно использовать для запроса или изменения свойств графика.

collintest графики только при установке 'plot','on'.

Подробнее

свернуть все

Диагностика коллинеарности Белсли

Диагностика коллинеарности Белсли оценивает силу и источники коллинеарности среди переменных в модели множественной линейной регрессии.

Для оценки коллинеарности программа вычисляет сингулярные значения матрицы масштабированных переменных X, а затем преобразует их в индексы условий. Условные индексы определяют количество и степень любых близких зависимостей между переменными в матрице переменных. Программное обеспечение разлагает дисперсию оценок коэффициентов регрессии обычных наименьших квадратов (ОЛС) в терминах сингулярных значений для идентификации переменных, участвующих в каждой близкой зависимости, и степени, в которой зависимости ухудшают регрессию.

Индексы условий

Индексы условий для масштабированной матрицы X определяют количество и силу любых близких зависимостей в X.

Для масштабированной матрицы X со столбцами p и сингулярными значениями S1≥S2≥... ≥Sp индексы условий столбцов X равны S1/Sj , j = 1,..., p.

Все индексы условий ограничены между одним и номером условия.

Номер условия

Номер условия масштабированной матрицы X является общей диагностикой для обнаружения коллинеарности.

Для масштабированной матрицы X со столбцами p и сингулярными значениями S1≥S2≥... ≥Sp номер условия равен S1/Sp.

Номер условия достигает нижней границы единицы, когда столбцы масштабированного X являются ортонормированными. Номер условия увеличивается, поскольку вариации проявляют большую зависимость.

Ограничением номера условия в качестве диагностического является то, что он не дает конкретных данных о силе и источниках любых близких зависимостей.

Модель множественной линейной регрессии

Модель множественной линейной регрессии является моделью вида Y = + X является конструктивной матрицей переменных регрессии, а β - вектором коэффициентов регрессии.

Сингулярные значения

Сингулярные значения масштабированной матрицы X являются диагональными элементами матрицы S в ′ разложения сингулярного значения USV.

В порядке убывания сингулярные значения масштабированной матрицы X со столбцами p равны S1≥S2≥... ≥Sp.

Пропорции дисперсии-декомпозиции

Пропорции дисперсионного разложения определяют группы вариаций, вовлеченных в близкие зависимости, и степень, в которой зависимости ухудшают регрессию.

Из сингулярного значения разложения USV ′ масштабированной матрицы конструкции X (со столбцами p) пусть:

  • V - матрица ортонормированных собственных векторов X′X

  • S1≥S2≥... ≥Sp быть упорядоченными диагональными элементами матрицы S

Дисперсия оценки ОЛС коэффициента множественной линейной регрессии i, βi, пропорциональна сумме

V (i, 1) 2/S12 + V (i, 2) 2/S22 +... + V (i, p) 2/Sp2,

где V (i, j) обозначает элемент (i, j) V.

Пропорция дисперсии-разложения (i, j) - пропорция члена j в сумме относительно всей суммы, j = 1,..., p.

Термины Sj2 являются собственными значениями масштабированных X′X. Таким образом, большие пропорции дисперсии-разложения соответствуют малым собственным значениям X′X, общей диагностике коллинеарности. Разложение по сингулярному значению обеспечивает более прямое, стабильное в числовом отношении представление собственной системы масштабированных X′X.

Совет

  • Для целей диагностики коллинеарности Белсли [1] показывает, что масштабирование столбцов матрицы проектирования, X, всегда желательно. Однако он также показывает, что центрирование данных в X нежелательно. Для моделей с пересечением при центрировании данных в X, то роль постоянного члена в любой близкой зависимости скрыта, и дает вводящую в заблуждение диагностику.

  • Допуски для идентификации больших показателей состояния и пропорций дисперсии-разложения сопоставимы с критическими значениями в стандартных тестах гипотез. Опыт определяет наиболее полезный допуск, но эксперименты предлагают collintest значения по умолчанию являются хорошими начальными точками [1].

Ссылки

[1] Белсли, Д. А., Э. Кух и Р. Э. Уэлш. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Судья, Г. Г., В. Э. Гриффитс, Р. К. Хилл, Х. Lϋtkepohl и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.

См. также

Представлен в R2012a