Этот пример показывает, как обнаружить корреляцию между предикторами и решить проблемы большой дисперсии оценщика. Он является вторым в серии примеров регрессии временных рядов после представления в предыдущем примере.
Экономические модели всегда недооцениваются в отношении истинного процесса генерирования данных (DGP). Модельные предикторы никогда не представляют полностью совокупность причинных факторов, вызывающих экономический ответ. Однако пропущенные переменные продолжают оказывать свое влияние в процессе инноваций, заставляя коэффициенты модели учитывать изменения в ответе, которые они по-настоящему не объясняют. Оценки коэффициентов, которые слишком велики (ошибки типа I) или слишком малы (ошибки типа II), искажают предельный вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются неправильным знаком.
Экономические модели также могут быть чрезмерно конкретизированы путем включения слепого в теории сочетания предикторов с надеждой захватить некоторую значительную часть DGP. Часто методы оценки «от общего к конкретному» (GETS) применяются с неверным доверием, что стандартная диагностическая статистика будет отбирать хорошие предикторы. Однако само наличие причинно незначительных предикторов имеет тенденцию увеличивать дисперсию оценщика, повышая вероятность того, что стандартные выводы будут ненадежными.
Реальность работы с неопределенными моделями рассматривается в этом, и последующих, примерах в этой серии. Недостаточно определенные модели часто вводят корреляцию между предикторами и пропущенными переменными в процессе инноваций. Чрезмерно определенные модели часто вводят корреляцию между предикторами. Каждый представляет свои собственные проблемы для оценки модели. В этом примере мы рассмотрим конкретно проблемы, возникающие из коррелированных предикторов. Несколько более сложные вопросы, связанные с корреляцией между предикторами и инновациями (нарушения экзогенности), рассматриваются в примере Регрессия во временном ряду VIII: запаздывающие переменные и смещение оценщика.
Начнем с загрузки соответствующих данных из предыдущего примера Регрессия временных рядов I: Линейные модели и продолжим анализ представленной там модели кредитного дефолта:
load Data_TSReg1В качестве первого шага к спецификации модели полезно идентифицировать любые возможные зависимости между предикторами. Корреляционная матрица является стандартной мерой силы попарных линейных отношений:
R0 = corrcoef(X0)
R0 = 4×4
1.0000 0.4578 0.0566 -0.0686
0.4578 1.0000 0.3955 0.3082
0.0566 0.3955 1.0000 0.0874
-0.0686 0.3082 0.0874 1.0000
Функция утилиты corrplot помогает визуализировать результаты в корреляционной матрице путем построения матрицы парных рассеиваний. Наклоны отображаемых линий наименьших квадратов равны отображаемым коэффициентам корреляции. Удобно работать с табличной версией массива данных, X0Tbl, который содержит имена предикторов для графиков:
figure corrplot(X0Tbl,'testR','on')

Коэффициенты корреляции, выделенные красным цветом, имеют значительную t-статистику. Предсказатель BBB снова отличает себя своей относительно высокой корреляцией с другими предикторами, хотя сила отношений является умеренной. Здесь визуализация особенно полезна, так как BBB отображает довольно неорганизованные рассеяния, с возможностью ряда небольших, потенциально влиятельных подмножеств данных. Графики напоминают об ограничениях коэффициента линейной корреляции как сводной статистики.
Как масштаб, так и корреляции BBB имеют потенциал для раздувания номера условия, . Номер условия часто используется для характеристики общей чувствительности оценок ОЛС к изменениям в данных. Для модели MLR с перехватом:
kappa0I = cond(X0I)
kappa0I = 205.8085
Номер условия значительно выше «хорошо кондиционированного» эталона 1, который достигается, когда имеет ортонормированные столбцы. Как правило, относительная погрешность 1% в данных может привести к относительной погрешности в оценках коэффициентов [4]:
‖ ‖ Xt ‖
Как показано в предыдущем примере Регрессия временных рядов I: Линейные модели, оценки коэффициентов для этих данных находятся в порядке , так что, порядке , приводит к абсолютным ошибкам оценки ‖, которые аппроксимируются относительными ошибками в данных.
Корреляции и номера условий широко используются для маркировки потенциальных проблем с данными, но их диагностическое значение ограничено. Корреляции учитывают только парные зависимости между предикторами, в то время как номера условий учитывают только в совокупности. Отношения между произвольными подмножествами предикторов (мультиколлинеарности) могут находиться где-то между ними. Допущения CLM запрещают точные взаимосвязи, но выявление силы и источника любых близких взаимосвязей и их специфического влияния на оценку коэффициентов является существенной частью анализа спецификаций.
Многие методы обнаружения близких коллинеарностей фокусируются на оценках коэффициентов в , а не на данных в . Каждое из следующего было предложено в качестве контрольного знака зависимостей предиктора:
Статистически незначительные коэффициенты на теоретически важных предикторах
Коэффициенты со знаками или величинами, не имеющими теоретического смысла
Крайняя чувствительность коэффициента к вставке или удалению других предикторов
Качественный характер этих критериев очевиден, и, к сожалению, ни один из них не является необходимым или достаточным для обнаружения коллинеарности.
Для иллюстрации снова отобразим статистику соответствия OLS модели дефолта по кредиту:
M0
M0 =
Linear regression model:
IGD ~ 1 + AGE + BBB + CPF + SPR
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ _________
(Intercept) -0.22741 0.098565 -2.3072 0.034747
AGE 0.016781 0.0091845 1.8271 0.086402
BBB 0.0042728 0.0026757 1.5969 0.12985
CPF -0.014888 0.0038077 -3.91 0.0012473
SPR 0.045488 0.033996 1.338 0.1996
Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621, Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253
Признаки оценок коэффициентов согласуются с теоретическими ожиданиями: AGE, BBB, и SPR добавить риск; CPF уменьшает его. T-статистика, которая масштабирует оценки коэффициентов по их стандартным ошибкам (вычисленным в предположении о нормальных нововведениях), показывает, что все предикторы значительно отличаются от 0 на уровне 20%. CPF представляется здесь особенно значимым. Значение предиктора, однако, относительно других предикторов в модели.
В стандартных результатах регрессии нет ничего, что могло бы вызвать серьезную обеспокоенность по поводу коллинеарности. Однако для оценки результатов необходимо учитывать другие источники вариации оценщика. В предположениях CLM дисперсию компонента , , можно разложить следующим образом [6]:
1-Ri2),
где - дисперсия инновационного процесса (предполагаемая константа), - полная выборочная вариация предиктора , а - коэффициент определения из регрессии предиктора по оставшимся предикторам (и перехвата, если присутствует).
Термин
11-Ri2
называется фактором дисперсии инфляции (VIF) и является другой распространенной диагностикой коллинеарности. Когда вариация предиктора в значительной степени объясняется линейной комбинацией других предикторов, близка к , и VIF для этого предиктора соответственно велика. Инфляция измеряется относительно 0 (без коллинеарности) и VIF 1.
VIF также являются диагональными элементами обратной корреляционной матрицы [1], что является удобным результатом, исключающим необходимость настройки различных регрессий:
VIF = diag(inv(R0))'
VIF = 1×4
1.3870 1.7901 1.2216 1.1850
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Насколько велик VIF - повод для беспокойства? Как и в случае уровней значимости для стандартных тестов гипотез, опыт с определенными типами данных может указывать на полезные допуски. Общие специальные значения в диапазоне от 5 до 10 в целом мало используются. В этом случае BBB имеет самый высокий VIF, но он не выскакивает из остальных предикторов.
Более важно, что VIF является только одним фактором в разложении дисперсии, приведенном выше. Большая VIF может быть сбалансирована либо небольшой дисперсией инноваций ( подгонка модели), либо большой вариацией выборки (достаточные данные). Как таковая, Голдбергер [2] иронично сравнивает «проблему» мультиколлинеарности, рассматриваемую изолированно, с проблемой «микронумеровости» данных. Оценка комбинированного эффекта различных источников дисперсии оценщика требует более широкого взгляда.
Эконометрики разработали ряд правил большого пальца для решения, когда беспокоиться о коллинеарности. Возможно, наиболее распространенный говорит, что приемлемо игнорировать доказательства коллинеарности, если результирующая t-статистика больше 2 в абсолютном значении. Это гарантирует, что 0 находится вне приблизительно 95% доверительного интервала каждой оценки (предполагая нормальные нововведения или большую выборку). Поскольку t-статистика уже скорректирована с учетом дисперсии оценщика, предполагается, что они адекватно учитывают коллинеарность в контексте других, уравновешивающих эффектов. Результаты регрессии выше показывают, что три из потенциальных предикторов в X0 не пройти этот тест.
Другое правило большого пальца основано на оценке ) [5]:
=1T-nσˆy2σˆi21-R21-Ri2,
где - размер выборки, - количество предикторов, - оценочная дисперсия , - оценочная дисперсия предиктора , - коэффициент определения для регрессии на , и - как указано выше. Правило гласит, что опасения по поводу коллинеарности могут быть проигнорированы, если превышает для каждого предиктора, поскольку каждый VIF будет уравновешен . Все потенциальные предикторы в X0 пройти этот тест:
RSquared = M0.Rsquared
RSquared = struct with fields:
Ordinary: 0.6211
Adjusted: 0.5264
RSquared_i = 1-(1./VIF)
RSquared_i = 1×4
0.2790 0.4414 0.1814 0.1561
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Эти правила пытаются определить последствия коллинеарности, выраженные в результатах регрессии. Как мы видели, они могут предложить противоречивые советы о том, когда и насколько беспокоиться о целостности оценок коэффициентов. Они не обеспечивают какого-либо учета характера множественных зависимостей в данных, а также не обеспечивают какой-либо достоверной оценки степени, в которой эти зависимости ухудшают регрессию.
Более подробный аналитический подход представлен в [1]. Нестабильность оценок OLS можно проследить по небольшим собственным значениям в матрице XtTXt перекрестных продуктов, появляющимся в нормальных уравнениях для :
-1XtTyt.
Белсли переформулирует собственную систему в терминах сингулярных значений матрицы , которые затем могут быть проанализированы непосредственно, с большей числовой точностью. Если сингулярными значениями являются мкн, где n - число предикторов, то число условий Xt равно Belsley определяет спектр индексов условий, 1,..., n, и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.
Белсли идет дальше, описывая метод идентификации конкретных предикторов, участвующих в каждой близкой зависимости, и предоставляет меру того, насколько важны эти зависимости в влиянии на оценки коэффициентов. Это достигается ещё одним разложением ), на этот раз в терминах сингулярных значений. Если Xt имеет сингулярное разложение USVT с vij), то:
=σ2∑j=1nvij2/μj2,
где - дисперсия нововведений. Пропорции дисперсионного разложения определяются следующим образом:
vij2/мкj2,
«»/« »/«».
дана пропорция ), связанная с сингулярным значением мкj.
Индексы и пропорции интерпретируются следующим образом:
Число индексов высоких условий определяет количество близких зависимостей.
Размер индексов условий определяет герметичность каждой зависимости.
Расположение высоких пропорций в строке с высоким индексом идентифицирует зависимые предикторы.
Размер пропорций определяет степень деградации для регрессионных оценок.
Опять же, необходимо определить допустимость «высокого». Эксперименты Белсли по моделированию предполагают, что индексы состояния в диапазоне от 5 до 10 отражают слабые зависимости, а индексы в диапазоне от 30 до 100 отражают зависимости от средней до высокой. Он предлагает допуск 0,5 для пропорций разложения дисперсии, идентифицирующих отдельные предикторы. Эксперименты по моделированию, однако, обязательно основаны на конкретных моделях взаимной зависимости, поэтому допуски должны быть переоценены в каждой эмпирической установке.
Функция collintest реализует процедуру Белсли. Выходные данные отображаются в табличной форме:
collintest(X0ITbl);
Variance Decomposition sValue condIdx Const AGE BBB CPF SPR --------------------------------------------------------- 2.0605 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.1585 0.0173 0.6170
Если мы понизим допуск индекса до 10 и сохраним допуск пропорции 0,5, анализ выявит одну слабую зависимость между AGE и SPR в последнем ряду. Его можно визуализировать, установив 'tolIdx' и 'tolProp' параметры в collintest и включение 'plot' флаг:
figure collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');

График показывает критические строки в таблице разложения дисперсии выше допуска индекса. Строка, связанная с индексом 12 условия, имеет только один предиктор, BBB, с долей выше допуска, а не двух или более предикторов, необходимых для зависимости. Строка, связанная с индексом условия 15.3, показывает слабую зависимость, связанную с AGE, SPRи перехват. Эта взаимосвязь не была очевидна на начальном графике корреляционной матрицы.
Таким образом, результаты различной диагностики коллинеарности согласуются с данными, в которых отсутствуют ухудшающие близкие отношения. Действительно, обзор экономического значения потенциальных предикторов (легко теряемых в чисто статистическом анализе) не предполагает каких-либо теоретических оснований для прочных отношений. Независимо от слабых зависимостей, оценки OLS остаются BLUE, и стандартные ошибки в результатах регрессии показывают точность, которая, вероятно, приемлема для большинства целей моделирования.
В заключение мы кратко рассмотрим метод регрессии хребта, который часто предлагается в качестве средства для оценки дисперсии в моделях MLR данных с некоторой степенью коллинеарности. Метод также может быть использован в качестве диагностики коллинеарности.
Для решения проблемы близкой сингулярности в оценки регрессии хребта с использованием регуляризации нормальных уравнений:
-1XtTyt,
где - положительный параметр гребня, а - единичная матрица. Возмущение диагонали предназначено для улучшения кондиционирования проблемы собственных значений и уменьшения дисперсии оценок коэффициентов. С увеличением k оценки гребней становятся смещенными к нулю, но уменьшенная дисперсия может привести к меньшей среднеквадратичной ошибке (MSE) относительно сопоставимых оценок OLS, особенно при наличии коллинеарности.
Регрессия хребта осуществляется функцией ridge. Для изучения результатов по диапазону параметров гребня получают след гребня [3]:
Mu0I = mean(diag(X0I'*X0I)); % Scale of cross-product diagonal k = 0:Mu0I/10; % Range of ridge parameters ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept figure plot(k,ridgeBetas(2:end,:),'LineWidth',2) xlim([0 Mu0I/10]) legend(predNames0) xlabel('Ridge Parameter') ylabel('Ridge Coefficient Estimate') title('{\bf Ridge Trace}') axis tight grid on

Оценки OLS с 0 появляются слева. Важный вопрос заключается в том, снижает ли какая-либо из оценок хребта MSE:
[numRidgeParams,numRidgeBetas] = size(ridgeBetas); y0Hat = X0I*ridgeBetas; RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat; RidgeSSE = RidgeRes'*RidgeRes; RidgeDFE = T0-numRidgeParams; RidgeMSE = diag(RidgeSSE/RidgeDFE); figure plot(k,RidgeMSE,'m','LineWidth',2) xlim([0 Mu0I/10]) xlabel('Ridge Parameter') ylabel('MSE') title('{\bf Ridge MSE}') axis tight grid on

Сюжет показывает прямо противоположное тому, на что можно было бы надеяться при применении хребтовой регрессии. MSE фактически увеличивается во всем диапазоне параметров гребня, что опять же предполагает отсутствие значительной коллинеарности в данных для коррекции регрессии гребня.
Методика, связанная с регрессией гребня, лассо, описана в примере Регрессия временного ряда V: Выбор предиктора.
Этот пример был сосредоточен на свойствах данных предиктора, которые могут привести к высокой дисперсии оценки ОЛС, и поэтому ненадежные оценки коэффициентов. Методы Белсли полезны для определения конкретных взаимосвязей данных, которые способствуют проблеме, и для оценки степени влияния на оценку. Одним из способов размещения дисперсии оценщика является регрессия гребня. Способы выборочного удаления проблемных предикторов рассматриваются в примерах Регрессия временного ряда III: Влиятельные наблюдения и Регрессия временного ряда V: Выбор предиктора.
[1] Белсли, Д. А., Э. Кух и Р. Э. Уэлш. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.
[2] Голдбергер, А. Т. Курс по эконометрике. Кембридж, Массачусетс: Harvard University Press, 1991.
[3] Хоэрл, А. Э. и Р. У. Кеннард. «Регрессия Риджа: применение к неоргональным проблемам». Технометрические данные. т. 12, № 1, 1970, стр. 69-82.
[4] Молер, C. Численные вычисления с MATLAB. Филадельфия, Пенсильвания: Общество промышленной и прикладной математики, 2004.
[5] Стоун, Р. «Анализ рыночного спроса». Журнал Королевского статистического общества. Том 108, 1945, стр. 1-98.
[6] Вулдридж, Дж. М. Вводная эконометрика. Цинциннати, О: Юго-Запад, 2009.