Этот пример показывает, как обнаружить корреляцию среди предикторов и принять проблемы большого отклонения оценщика. Это второй в серии примеров по регрессии временных рядов, после презентации в предыдущем примере.
Экономические модели всегда недооцениваются в отношении истинного процесса генерации данных (DGP). Предикторы модели никогда не полностью представляют совокупность причинных факторов, вызывающих экономическую реакцию. Однако опущенные переменные продолжают оказывать свое влияние через инновационный процесс, заставляя коэффициенты модели учитывать изменения в ответе, которые они действительно не объясняют. Оценки коэффициентов, которые являются слишком большими (ошибки типа I) или слишком маленькими (ошибки типа II), искажают предельный вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются неправильным знаком.
Экономические модели также могут быть переопределены, путем включения теоретически слепого сочетания предикторов с надеждой на захват некоторой значительной части DGP. Часто методы оценки «общий к конкретному» (GETS) применяются с неправильным доверием, что стандартная диагностическая статистика отсортирует хорошие предикторы. Однако само присутствие причинно-незначительных предикторов имеет тенденцию увеличивать отклонение оценки, повышая вероятность того, что стандартные выводы будут ненадежными.
Реальность работы с исследуемыми моделями рассматривается в этом, и последующих, примерах в этой серии. Недоопределенные модели часто вводят корреляцию между предикторами и опущенными переменными в процессе инноваций. Переопределенные модели часто вводят корреляцию среди предикторов. Каждый представляет свои собственные проблемы для оценки модели. В этом примере мы смотрим конкретно на проблемы, возникающие из-за коррелированных предикторов. Несколько более сложные проблемы, связанные с корреляцией между предикторами и инновациями (нарушения экзогенности), рассматриваются в примере регрессии временных рядов VIII: Задержанные переменные и смещение оценщика.
Начнем с загрузки соответствующих данных из предыдущего примера Временные Ряды Regression I: Linear Models и продолжим анализ представленной там модели кредитного дефолта:
load Data_TSReg1
В качестве первого шага к спецификации модели полезно идентифицировать любые возможные зависимости среди предикторов. Матрица корреляции является стандартной мерой силы парных линейных отношений:
R0 = corrcoef(X0)
R0 = 4×4
1.0000 0.4578 0.0566 -0.0686
0.4578 1.0000 0.3955 0.3082
0.0566 0.3955 1.0000 0.0874
-0.0686 0.3082 0.0874 1.0000
Область служебной функции corrplot
помогает визуализировать результаты в корреляционной матрице путем построения матрицы парных рассеивателей. Наклоны отображаемых линий методом наименьших квадратов равны отображаемым коэффициентам корреляции. Удобно работать с табличной версией массивов, X0Tbl
, который содержит имена предикторов для графиков:
figure corrplot(X0Tbl,'testR','on')
Коэффициенты корреляции, выделенные красным цветом, имеют значительное значение -статистический. Предиктор BBB
снова отличает себя своими относительно высокими корреляциями с другими предикторами, хотя сила отношений умеренна. Здесь визуализация особенно полезна, так как BBB
отображает довольно неорганизованные рассеяния с возможностью ряда небольших, потенциально влиятельных подмножеств данных. Графики являются напоминанием об ограничениях коэффициента линейной корреляции как сводные данные статистической величины.
И шкала, и корреляции BBB
могут завышать число обусловленности из . Число обусловленности часто используется, чтобы охарактеризовать общую чувствительность оценок OLS к изменениям в данных. Для модели MLR с точкой пересечения:
kappa0I = cond(X0I)
kappa0I = 205.8085
Число обусловленности намного выше «хорошо обусловленного» бенчмарка 1, который достигается, когда имеет ортонормальные столбцы. Как правило, относительная погрешность в данных на 1% может производить до a % относительной погрешности в оценках коэффициентов [4]:
Как показано в предыдущем примере Регрессия временных рядов I: Линейные модели, оценки коэффициентов для этих данных имеют порядок , так что по порядку приводит к абсолютным ошибкам расчета которые аппроксимируются относительными погрешностями в данных.
Корреляции и числа обусловленности широко используются, чтобы отметить потенциальные проблемы с данными, но их диагностическое значение ограничено. Корреляции рассматривают только парные зависимости между предикторами, в то время как числа обусловленности учитываются только в совокупности. Отношения между произвольными подмножествами предикторов (многоколлинеарностями) могут падать где-то между ними. Допущения CLM запрещают точные отношения, но определение прочности и источника любых близких отношений и их специфического эффекта на оценку коэффициентов является важной частью анализа спецификаций.
Многие методы для обнаружения близких коллинеарий фокусируются на оценках коэффициентов в , а не данные в . Каждое из следующих было предложено в качестве характерного признака предикторных зависимостей:
Статистически незначительные коэффициенты на теоретически важных предикторах
Коэффициенты со знаками или величинами, которые не имеют теоретического смысла
Экстремальная чувствительность коэффициента к вставке или удалению других предикторов
Качественный характер этих критериев очевиден, и, к сожалению, ни один из них не является необходимым или достаточным для обнаружения коллинеарности.
Чтобы проиллюстрировать, мы снова отображаем статистику подгонки OLS модели дефолта кредита:
M0
M0 = Linear regression model: IGD ~ 1 + AGE + BBB + CPF + SPR Estimated Coefficients: Estimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996 Number of observations: 21, Error degrees of freedom: 16 Root Mean Squared Error: 0.0763 R-squared: 0.621, Adjusted R-Squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253
Признаки оценок коэффициентов соответствуют теоретическим ожиданиям: AGE
, BBB
, и SPR
добавить риск; CPF
уменьшает его. T-статистика, которая масштабирует оценки коэффициентов по их стандартным ошибкам (вычисленным под предположением нормальных инноваций), показывает, что все предикторы значительно отличаются от 0 на уровне 20%. CPF
появляется здесь особенно значимым. Значение предиктора, однако, относительно других предикторов в модели.
В стандартных результатах регрессии нет ничего, чтобы вызвать существенную обеспокоенность по поводу коллинеарности. Однако, чтобы поместить результаты в перспективу, необходимо рассмотреть другие источники отклонения оценщика. В соответствии с допущениями CLM, отклонение компонент , , может быть разложена следующим образом [6]:
где - отклонение инновационного процесса (принятая постоянной), - общее изменение выборки предиктора , и - коэффициент детерминации от регрессии предиктора на остальных предикторах (и перехватывать, если присутствует).
Термин
называется дисперсионным коэффициентом инфляции (VIF) и является другой распространенной диагностикой коллинеарности. Когда изменение предиктора во многом объясняется линейной комбинацией других предикторов, близок к , и VIF для этого предиктора соответственно велик. Инфляция измеряется относительно 0 (без коллинеарности) и VIF, равный 1.
VIF также являются диагональными элементами обратной матрицы корреляции [1], удобный результат, который устраняет необходимость настройки различных регрессий:
VIF = diag(inv(R0))'
VIF = 1×4
1.3870 1.7901 1.2216 1.1850
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Насколько большой VIF вызывает беспокойство? Как и в случае уровней значимости для стандартных тестов гипотез, опыт использования определенных типов данных может предложить полезные допуски. Общие специальные значения в области значений от 5 до 10 в целом мало применяются. В этом случае BBB
имеет самый высокий VIF, но он не выпрыгивает из остальных предикторов.
Что более важно, VIF является только одним фактором в отклонение разложении, приведенном выше. Большой VIF может быть сбалансирован либо небольшим отклонением инноваций (хорошая модель подгонки) или большое изменение образца (достаточные данные). Таким образом, Гольдбергер [2] иронично сравнивает «проблему» многоколлинейности, рассматриваемую изолированно, с проблемой «микронумерозности» данных. Оценка совокупного эффекта различных источников отклонений оценщика требует более широкого представления.
Экономисты разработали ряд правил большого пальца для принятия решения, когда беспокоиться о коллинеарности. Возможно, наиболее распространенные говорят, что приемлемо игнорировать доказательства коллинеарности, если полученная t-статистика все больше 2 по абсолютному значению. Это гарантирует, что 0 находится вне приблизительного 95% доверительного интервала каждой оценки (принимая нормальные инновации или большую выборку). Поскольку t-статистика уже скорректирована с учетом отклонения оценщика, презумпция заключается в том, что они адекватно учитывают коллинеарность в контексте других, балансирующих эффектов. Результаты регрессии, приведенные выше, показывают, что три потенциальных предиктора в X0
не выполнить этот тест.
Другое правило thumb основано на оценке [5]:
где - размер выборки, количество предикторов, - предполагаемое отклонение , - предполагаемое отклонение предиктора , - коэффициент детерминации для регрессии на , и Это так, как указано выше. Правило говорит, что опасения по поводу коллинеарности могут быть проигнорированы, если превышает для каждого предиктора, поскольку каждый VIF будет сбалансирован . Все потенциальные предикторы в X0
пройти этот тест:
RSquared = M0.Rsquared
RSquared = struct with fields:
Ordinary: 0.6211
Adjusted: 0.5264
RSquared_i = 1-(1./VIF)
RSquared_i = 1×4
0.2790 0.4414 0.1814 0.1561
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Эти правила пытаются идентифицировать последствия коллинеарности, как выражено в результатах регрессии. Как мы видели, они могут предложить противоречивые советы о том, когда и сколько, беспокоиться о целостности оценок коэффициентов. Они не обеспечивают никакого учета характера множественных зависимостей в данных и не обеспечивают никакой надежной меры степени, в которой эти зависимости ухудшают регрессию.
Более подробный аналитический подход приведен в [1]. Нестабильность оценок OLS можно проследить до небольших собственных значений в матрице перекрестных продуктов в нормальных уравнениях для :
Белсли переформулирует собственную систему в терминах сингулярных значений матрицы , который затем может быть проанализирован непосредственно, с большей числовой точностью. Если сингулярные значения являются , где количество предикторов, затем число обусловленности является . Белсли задает спектр индексов условий для каждого , и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.
Белсли продолжает описывать метод для идентификации конкретных предикторов, участвующих в каждой близкой зависимости, и предоставляет меру того, насколько важны эти зависимости в оценках коэффициентов. Это достигается при еще одном разложении , на этот раз в терминах сингулярных значений. Если имеет сингулярное разложение , с , затем:
где - отклонение инноваций. Пропорции разложения отклонения определяются:
дать долю связана с сингулярным значением .
Индексы и пропорции интерпретируются следующим образом:
Количество индексов высоких условий определяет количество близких зависимостей.
Размер индексов условий определяет герметичность каждой зависимости.
Расположение высоких пропорций в строке высокого индекса идентифицирует зависимые предикторы.
Размер пропорций определяет степень деградации по сравнению с оценками регрессии.
Опять же, должен быть определен допуск для «высокого». Симуляции эксперименты Белсли предполагают, что индексы условия в области значений от 5 до 10 отражают слабые зависимости, а индексы в области значений от 30 до 100 отражают умеренные или высокие зависимости. Он предлагает допуск 0,5 для пропорций разложения отклонений, идентифицирующих отдельные предикторы. Эксперименты по симуляции, однако, обязательно основаны на конкретных моделях взаимной зависимости, поэтому допуски должны быть переоценены в каждой эмпирической обстановке.
Функция collintest
реализует процедуру Белсли. Выходы отображаются в табличной форме:
collintest(X0ITbl);
Variance Decomposition sValue condIdx Const AGE BBB CPF SPR --------------------------------------------------------- 2.0605 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.1585 0.0173 0.6170
Если мы снижаем допуск индекса до 10 и поддерживаем допуск пропорции 0,5, анализ идентифицирует одну слабую зависимость между AGE
и SPR
в последней строке. Его можно визуализировать, установив 'tolIdx'
и 'tolProp'
параметры в collintest
и включение 'plot'
флаг:
figure collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');
График показывает критические строки в таблице разложения отклонений, выше допуска по индексу. Строка, сопоставленная с индексом 12 условий, имеет только один предиктор, BBB
с пропорцией выше допуска, а не два или более предикторов, необходимых для зависимости. Строка, связанная с индексом 15.3 условий, показывает слабую зависимость, связанную с AGE
, SPR
и точка пересечения. Эта связь не была очевидна на начальном графике матрицы корреляции.
Сводные данные, результаты различной диагностики коллинеарности согласуются с данными, в которых не существует деградирующих близких отношений. Действительно, обзор экономического значения потенциальных предикторов (легко потерянных в чисто статистическом анализе) не предполагает никакой теоретической причины сильных отношений. Независимо от слабых зависимостей, оценки OLS остаются BLUE, и стандартные ошибки в результатах регрессии показывают точность, которая, вероятно, приемлема для большинства целей моделирования.
В заключение мы кратко исследуем метод регрессии гребня, который часто предлагается в качестве средства для отклонения оценки в моделях данных MLR с некоторой степенью коллинеарности. Метод может также использоваться в качестве диагностики коллинеарности.
Для решения проблемы близкой особенности в , оценки регрессии гребня использование регуляризации нормальных уравнений:
где является положительным параметром гребня и - матрица тождеств. Возмущение диагонали предназначен для улучшения обусловленности задачи собственного значения и уменьшения отклонения оценок коэффициентов. Как увеличивается, оценки гребня смещаются к нулю, но уменьшенное отклонение может привести к меньшей средней квадратной ошибке (MSE) относительно сопоставимых оценок OLS, особенно при наличии коллинеарности.
Регрессия гребня осуществляется функцией ridge
. Чтобы изучить результаты для области значений параметров гребня получают трассу гребня [3]:
Mu0I = mean(diag(X0I'*X0I)); % Scale of cross-product diagonal k = 0:Mu0I/10; % Range of ridge parameters ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept figure plot(k,ridgeBetas(2:end,:),'LineWidth',2) xlim([0 Mu0I/10]) legend(predNames0) xlabel('Ridge Parameter') ylabel('Ridge Coefficient Estimate') title('{\bf Ridge Trace}') axis tight grid on
Оценки OLS с , появится слева. Важный вопрос заключается в том, снижает ли какая-либо из оценок гребня MSE:
[numRidgeParams,numRidgeBetas] = size(ridgeBetas); y0Hat = X0I*ridgeBetas; RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat; RidgeSSE = RidgeRes'*RidgeRes; RidgeDFE = T0-numRidgeParams; RidgeMSE = diag(RidgeSSE/RidgeDFE); figure plot(k,RidgeMSE,'m','LineWidth',2) xlim([0 Mu0I/10]) xlabel('Ridge Parameter') ylabel('MSE') title('{\bf Ridge MSE}') axis tight grid on
График показывает ровно противоположное тому, на что можно было бы надеяться при применении регрессии хребта. MSE фактически увеличивается во всей области значений параметров гребня, снова предполагая, что нет значительной коллинеарности в данных для регрессии гребня, чтобы исправить.
Метод, относящийся к регрессии гребня, lasso, описан в примере Временные Ряды Regression V: Predictor Selection.
Этот пример был сфокусирован на свойствах данных предиктора, которые могут привести к высокому отклонению оценщика OLS и таким ненадежным оценкам коэффициентов. Методы Белсли полезны для определения конкретных отношений данных, которые способствуют проблеме, и для оценки степени эффектов на оценку. Одним из способов размещения отклонения оценщика является регрессия гребня. Методы выборочного удаления проблемных предикторов рассматриваются в примерах Регрессия временных рядов III: Влиятельные наблюдения и Регрессия временных рядов V: Выбор предиктора.
[1] Belsley, D. A., E. Kuh, and R. E. Welsh. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.
[2] Гольдбергер, А. Т. Курс эконометрики. Cambridge, MA: Harvard University Press, 1991.
[3] Хёрл, А. Э. и Р. У. Кеннард. Ridge Regression: Applications to Nonorthogonal Problems (неопр.) (недоступная ссылка). Технометрия. Том 12, № 1, 1970, с. 69-82.
[4] Moler, C. Числовые вычисления с MATLAB. Филадельфия, Пенсильвания: Общество промышленной и прикладной математики, 2004.
[5] Stone, R. «Анализ рыночного спроса». Журнал Королевского статистического общества. Том 108, 1945, с. 1-98.
[6] Wooldridge, J. M. Introductory Econometrics. Цинциннати, OH: Юго-Западный, 2009.