Регрессия временных рядов II: коллинеарность и оценка Отклонения

Открыть Live Script

Этот пример показывает, как обнаружить корреляцию среди предикторов и принять проблемы большого отклонения оценщика. Это второй в серии примеров по регрессии временных рядов, после презентации в предыдущем примере.

Введение

Экономические модели всегда недооцениваются в отношении истинного процесса генерации данных (DGP). Предикторы модели никогда не полностью представляют совокупность причинных факторов, вызывающих экономическую реакцию. Однако опущенные переменные продолжают оказывать свое влияние через инновационный процесс, заставляя коэффициенты модели учитывать изменения в ответе, которые они действительно не объясняют. Оценки коэффициентов, которые являются слишком большими (ошибки типа I) или слишком маленькими (ошибки типа II), искажают предельный вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются неправильным знаком.

Экономические модели также могут быть переопределены, путем включения теоретически слепого сочетания предикторов с надеждой на захват некоторой значительной части DGP. Часто методы оценки «общий к конкретному» (GETS) применяются с неправильным доверием, что стандартная диагностическая статистика отсортирует хорошие предикторы. Однако само присутствие причинно-незначительных предикторов имеет тенденцию увеличивать отклонение оценки, повышая вероятность того, что стандартные выводы будут ненадежными.

Реальность работы с исследуемыми моделями рассматривается в этом, и последующих, примерах в этой серии. Недоопределенные модели часто вводят корреляцию между предикторами и опущенными переменными в процессе инноваций. Переопределенные модели часто вводят корреляцию среди предикторов. Каждый представляет свои собственные проблемы для оценки модели. В этом примере мы смотрим конкретно на проблемы, возникающие из-за коррелированных предикторов. Несколько более сложные проблемы, связанные с корреляцией между предикторами и инновациями (нарушения экзогенности), рассматриваются в примере регрессии временных рядов VIII: Задержанные переменные и смещение оценщика.

Начнем с загрузки соответствующих данных из предыдущего примера Временные Ряды Regression I: Linear Models и продолжим анализ представленной там модели кредитного дефолта:

load Data_TSReg1

Корреляция и числа обусловленности

В качестве первого шага к спецификации модели полезно идентифицировать любые возможные зависимости среди предикторов. Матрица корреляции является стандартной мерой силы парных линейных отношений:

R0 = corrcoef(X0)

R0 = 4×4

    1.0000    0.4578    0.0566   -0.0686
    0.4578    1.0000    0.3955    0.3082
    0.0566    0.3955    1.0000    0.0874
   -0.0686    0.3082    0.0874    1.0000

Область служебной функции corrplot помогает визуализировать результаты в корреляционной матрице путем построения матрицы парных рассеивателей. Наклоны отображаемых линий методом наименьших квадратов равны отображаемым коэффициентам корреляции. Удобно работать с табличной версией массивов, X0Tbl, который содержит имена предикторов для графиков:

figure
corrplot(X0Tbl,'testR','on')

MATLAB figure

Коэффициенты корреляции, выделенные красным цветом, имеют значительное значение $t$ -статистический. Предиктор BBB снова отличает себя своими относительно высокими корреляциями с другими предикторами, хотя сила отношений умеренна. Здесь визуализация особенно полезна, так как BBB отображает довольно неорганизованные рассеяния с возможностью ряда небольших, потенциально влиятельных подмножеств данных. Графики являются напоминанием об ограничениях коэффициента линейной корреляции как сводные данные статистической величины.

И шкала, и корреляции BBB могут завышать число обусловленности $κ$ из $X_{t}$ . Число обусловленности часто используется, чтобы охарактеризовать общую чувствительность оценок OLS к изменениям в данных. Для модели MLR с точкой пересечения:

kappa0I = cond(X0I)

kappa0I = 205.8085

Число обусловленности намного выше «хорошо обусловленного» бенчмарка 1, который достигается, когда $X_{t}$ имеет ортонормальные столбцы. Как правило, относительная погрешность в данных на 1% $X_{t}$ может производить до a $κ$ % относительной погрешности в оценках коэффициентов $β$ [4]:

$\frac{‖ δ β ‖}{‖ β ‖} \leq κ \frac{‖ δ X_{t} ‖}{‖ X_{t} ‖}$

Как показано в предыдущем примере Регрессия временных рядов I: Линейные модели, оценки коэффициентов для этих данных имеют порядок $1 0^{- 2}$ , так что $κ$ по порядку $1 0^{2}$ приводит к абсолютным ошибкам расчета $‖ δ β ‖$ которые аппроксимируются относительными погрешностями в данных.

Оценка Отклонения

Корреляции и числа обусловленности широко используются, чтобы отметить потенциальные проблемы с данными, но их диагностическое значение ограничено. Корреляции рассматривают только парные зависимости между предикторами, в то время как числа обусловленности учитываются только $X_{t}$ в совокупности. Отношения между произвольными подмножествами предикторов (многоколлинеарностями) могут падать где-то между ними. Допущения CLM запрещают точные отношения, но определение прочности и источника любых близких отношений и их специфического эффекта на оценку коэффициентов является важной частью анализа спецификаций.

Многие методы для обнаружения близких коллинеарий фокусируются на оценках коэффициентов в $β_{}^{ˆ}$ , а не данные в $X_{t}$ . Каждое из следующих было предложено в качестве характерного признака предикторных зависимостей:

Статистически незначительные коэффициенты на теоретически важных предикторах
Коэффициенты со знаками или величинами, которые не имеют теоретического смысла
Экстремальная чувствительность коэффициента к вставке или удалению других предикторов

Качественный характер этих критериев очевиден, и, к сожалению, ни один из них не является необходимым или достаточным для обнаружения коллинеарности.

Чтобы проиллюстрировать, мы снова отображаем статистику подгонки OLS модели дефолта кредита:

M0

M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Признаки оценок коэффициентов соответствуют теоретическим ожиданиям: AGE, BBB, и SPR добавить риск; CPF уменьшает его. T-статистика, которая масштабирует оценки коэффициентов по их стандартным ошибкам (вычисленным под предположением нормальных инноваций), показывает, что все предикторы значительно отличаются от 0 на уровне 20%. CPF появляется здесь особенно значимым. Значение предиктора, однако, относительно других предикторов в модели.

В стандартных результатах регрессии нет ничего, чтобы вызвать существенную обеспокоенность по поводу коллинеарности. Однако, чтобы поместить результаты в перспективу, необходимо рассмотреть другие источники отклонения оценщика. В соответствии с допущениями CLM, отклонение $i^{t h}$ компонент $β_{}^{ˆ}$ , ${β_{i}}_{}^{ˆ}$ , может быть разложена следующим образом [6]:

$V a r ({β_{i}}_{}^{ˆ}) = \frac{σ^{2}}{S S T_{i} (1 - R_{i}^{2})},$

где $σ^{2}$ - отклонение инновационного процесса (принятая постоянной), $S S T_{i}$ - общее изменение выборки предиктора $i$ , и $R_{i}^{2}$ - коэффициент детерминации от регрессии предиктора $i$ на остальных предикторах (и перехватывать, если присутствует).

Термин

$V I F_{i} = \frac{1}{1 - R_{i}^{2}}$

называется дисперсионным коэффициентом инфляции (VIF) и является другой распространенной диагностикой коллинеарности. Когда изменение предиктора $i$ во многом объясняется линейной комбинацией других предикторов, $R_{i}^{2}$ близок к $1$ , и VIF для этого предиктора соответственно велик. Инфляция измеряется относительно $R_{i}^{2}$ 0 (без коллинеарности) и VIF, равный 1.

VIF также являются диагональными элементами обратной матрицы корреляции [1], удобный результат, который устраняет необходимость настройки различных регрессий:

VIF = diag(inv(R0))'

VIF = 1×4

    1.3870    1.7901    1.2216    1.1850

predNames0

predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Насколько большой VIF вызывает беспокойство? Как и в случае уровней значимости для стандартных тестов гипотез, опыт использования определенных типов данных может предложить полезные допуски. Общие специальные значения в области значений от 5 до 10 в целом мало применяются. В этом случае BBB имеет самый высокий VIF, но он не выпрыгивает из остальных предикторов.

Что более важно, VIF является только одним фактором в отклонение разложении, приведенном выше. Большой VIF может быть сбалансирован либо небольшим отклонением инноваций $σ^{2}$ (хорошая модель подгонки) или большое изменение образца $S S T_{i}$ (достаточные данные). Таким образом, Гольдбергер [2] иронично сравнивает «проблему» многоколлинейности, рассматриваемую изолированно, с проблемой «микронумерозности» данных. Оценка совокупного эффекта различных источников отклонений оценщика требует более широкого представления.

Экономисты разработали ряд правил большого пальца для принятия решения, когда беспокоиться о коллинеарности. Возможно, наиболее распространенные говорят, что приемлемо игнорировать доказательства коллинеарности, если полученная t-статистика все больше 2 по абсолютному значению. Это гарантирует, что 0 находится вне приблизительного 95% доверительного интервала каждой оценки (принимая нормальные инновации или большую выборку). Поскольку t-статистика уже скорректирована с учетом отклонения оценщика, презумпция заключается в том, что они адекватно учитывают коллинеарность в контексте других, балансирующих эффектов. Результаты регрессии, приведенные выше, показывают, что три потенциальных предиктора в X0 не выполнить этот тест.

Другое правило thumb основано на оценке $V a r ({β_{i}}_{}^{ˆ})$ [5]:

${V a r}_{}^{ˆ} ({β_{i}}_{}^{ˆ}) = \frac{1}{T - n} \frac{{σ_{}^{ˆ}}_{y}^{2}}{{σ_{}^{ˆ}}_{i}^{2}} \frac{1 - R^{2}}{1 - R_{i}^{2}},$

где $T$ - размер выборки, $n$ количество предикторов, ${σ_{}^{ˆ}}_{y}^{2}$ - предполагаемое отклонение $y_{t}$ , ${σ_{}^{ˆ}}_{i}^{2}$ - предполагаемое отклонение предиктора $i$ , $R^{2}$ - коэффициент детерминации для регрессии $y_{t}$ на $X_{t}$ , и $R_{i}^{2}$ Это так, как указано выше. Правило говорит, что опасения по поводу коллинеарности могут быть проигнорированы, если $R^{2}$ превышает $R_{i}^{2}$ для каждого предиктора, поскольку каждый VIF будет сбалансирован $1 - R^{2}$ . Все потенциальные предикторы в X0 пройти этот тест:

RSquared = M0.Rsquared

RSquared = struct with fields:
    Ordinary: 0.6211
    Adjusted: 0.5264

RSquared_i = 1-(1./VIF)

RSquared_i = 1×4

    0.2790    0.4414    0.1814    0.1561

predNames0

predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Эти правила пытаются идентифицировать последствия коллинеарности, как выражено в результатах регрессии. Как мы видели, они могут предложить противоречивые советы о том, когда и сколько, беспокоиться о целостности оценок коэффициентов. Они не обеспечивают никакого учета характера множественных зависимостей в данных и не обеспечивают никакой надежной меры степени, в которой эти зависимости ухудшают регрессию.

Диагностика коллинеарности

Более подробный аналитический подход приведен в [1]. Нестабильность оценок OLS можно проследить до небольших собственных значений в матрице перекрестных продуктов $X_{t}^{T} X_{t}$ в нормальных уравнениях для $β_{}^{ˆ}$ :

$β_{}^{ˆ} = (X_{t}^{T} X_{t})^{- 1} X_{t}^{T} y_{t} .$

Белсли переформулирует собственную систему $X_{t}^{T} X_{t}$ в терминах сингулярных значений матрицы $X_{t}$ , который затем может быть проанализирован непосредственно, с большей числовой точностью. Если сингулярные значения $X_{t}$ являются $μ_{1}, . . ., μ_{n}$ , где $n$ количество предикторов, затем число обусловленности $X_{t}$ является $κ = μ_{m a x} / μ_{m i n}$ . Белсли задает спектр индексов условий $η_{j} = μ_{m a x} / μ_{j}$ для каждого $j = 1, . . ., n$ , и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.

Белсли продолжает описывать метод для идентификации конкретных предикторов, участвующих в каждой близкой зависимости, и предоставляет меру того, насколько важны эти зависимости в оценках коэффициентов. Это достигается при еще одном разложении $V a r ({β_{i}}_{}^{ˆ})$ , на этот раз в терминах сингулярных значений. Если $X_{t}$ имеет сингулярное разложение $U S V^{T}$ , с $V = (v_{i j})$ , затем:

$V a r ({β_{i}}_{}^{ˆ}) = σ^{2} \sum_{j = 1}^{n} v_{i j}^{2} / μ_{j}^{2},$

где $σ^{2}$ - отклонение инноваций. Пропорции разложения отклонения $π_{j i}$ определяются:

$ϕ_{i j} = v_{i j}^{2} / μ_{j}^{2},$

$ϕ_{i} = \sum_{j = 1}^{n} ϕ_{i j},$

$π_{j i} = ϕ_{i j} / ϕ_{i} .$

$π_{j i}$ дать долю $V a r ({β_{i}}_{}^{ˆ})$ связана с сингулярным значением $μ_{j}$ .

Индексы и пропорции интерпретируются следующим образом:

Количество индексов высоких условий определяет количество близких зависимостей.
Размер индексов условий определяет герметичность каждой зависимости.
Расположение высоких пропорций в строке высокого индекса идентифицирует зависимые предикторы.
Размер пропорций определяет степень деградации по сравнению с оценками регрессии.

Опять же, должен быть определен допуск для «высокого». Симуляции эксперименты Белсли предполагают, что индексы условия в области значений от 5 до 10 отражают слабые зависимости, а индексы в области значений от 30 до 100 отражают умеренные или высокие зависимости. Он предлагает допуск 0,5 для пропорций разложения отклонений, идентифицирующих отдельные предикторы. Эксперименты по симуляции, однако, обязательно основаны на конкретных моделях взаимной зависимости, поэтому допуски должны быть переоценены в каждой эмпирической обстановке.

Функция collintest реализует процедуру Белсли. Выходы отображаются в табличной форме:

collintest(X0ITbl);

Variance Decomposition

 sValue  condIdx   Const    AGE     BBB     CPF     SPR  
---------------------------------------------------------
 2.0605    1      0.0015  0.0024  0.0020  0.0140  0.0025 
 0.8008   2.5730  0.0016  0.0025  0.0004  0.8220  0.0023 
 0.2563   8.0400  0.0037  0.3208  0.0105  0.0004  0.3781 
 0.1710  12.0464  0.2596  0.0950  0.8287  0.1463  0.0001 
 0.1343  15.3405  0.7335  0.5793  0.1585  0.0173  0.6170

Если мы снижаем допуск индекса до 10 и поддерживаем допуск пропорции 0,5, анализ идентифицирует одну слабую зависимость между AGE и SPR в последней строке. Его можно визуализировать, установив 'tolIdx' и 'tolProp' параметры в collintest и включение 'plot' флаг:

figure
collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');

$Figure contains an axes. The axes with title {\bf High Index Variance Decompositions} contains 4 objects of type line. These objects represent condIdx 12, condIdx 15.3, tolProp.$

График показывает критические строки в таблице разложения отклонений, выше допуска по индексу. Строка, сопоставленная с индексом 12 условий, имеет только один предиктор, BBBс пропорцией выше допуска, а не два или более предикторов, необходимых для зависимости. Строка, связанная с индексом 15.3 условий, показывает слабую зависимость, связанную с AGE, SPRи точка пересечения. Эта связь не была очевидна на начальном графике матрицы корреляции.

Сводные данные, результаты различной диагностики коллинеарности согласуются с данными, в которых не существует деградирующих близких отношений. Действительно, обзор экономического значения потенциальных предикторов (легко потерянных в чисто статистическом анализе) не предполагает никакой теоретической причины сильных отношений. Независимо от слабых зависимостей, оценки OLS остаются BLUE, и стандартные ошибки в результатах регрессии показывают точность, которая, вероятно, приемлема для большинства целей моделирования.

Регрессия хребта

В заключение мы кратко исследуем метод регрессии гребня, который часто предлагается в качестве средства для отклонения оценки в моделях данных MLR с некоторой степенью коллинеарности. Метод может также использоваться в качестве диагностики коллинеарности.

Для решения проблемы близкой особенности в $X_{t}^{T} X_{t}$ , оценки регрессии гребня $β_{}^{ˆ}$ использование регуляризации нормальных уравнений:

${β_{}^{ˆ}}_{r i d g e} = (X_{t}^{T} X_{t} + k I)^{- 1} X_{t}^{T} y_{t},$

где $k$ является положительным параметром гребня и $I$ - матрица тождеств. Возмущение диагонали $X_{t}^{T} X_{t}$ предназначен для улучшения обусловленности задачи собственного значения и уменьшения отклонения оценок коэффициентов. Как $k$ увеличивается, оценки гребня смещаются к нулю, но уменьшенное отклонение может привести к меньшей средней квадратной ошибке (MSE) относительно сопоставимых оценок OLS, особенно при наличии коллинеарности.

Регрессия гребня осуществляется функцией ridge. Чтобы изучить результаты для области значений параметров гребня $k$ получают трассу гребня [3]:

Mu0I = mean(diag(X0I'*X0I));   % Scale of cross-product diagonal

k = 0:Mu0I/10;                 % Range of ridge parameters
ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept

figure
plot(k,ridgeBetas(2:end,:),'LineWidth',2)
xlim([0 Mu0I/10])
legend(predNames0)
xlabel('Ridge Parameter') 
ylabel('Ridge Coefficient Estimate') 
title('{\bf Ridge Trace}')
axis tight
grid on

$Figure contains an axes. The axes with title {\bf Ridge Trace} contains 4 objects of type line. These objects represent AGE, BBB, CPF, SPR.$

Оценки OLS с $k = 0$ , появится слева. Важный вопрос заключается в том, снижает ли какая-либо из оценок гребня MSE:

[numRidgeParams,numRidgeBetas] = size(ridgeBetas);
y0Hat = X0I*ridgeBetas;
RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat;
RidgeSSE = RidgeRes'*RidgeRes;
RidgeDFE = T0-numRidgeParams;
RidgeMSE = diag(RidgeSSE/RidgeDFE);

figure
plot(k,RidgeMSE,'m','LineWidth',2)
xlim([0 Mu0I/10])
xlabel('Ridge Parameter') 
ylabel('MSE') 
title('{\bf Ridge MSE}')
axis tight
grid on

$Figure contains an axes. The axes with title {\bf Ridge MSE} contains an object of type line.$

График показывает ровно противоположное тому, на что можно было бы надеяться при применении регрессии хребта. MSE фактически увеличивается во всей области значений параметров гребня, снова предполагая, что нет значительной коллинеарности в данных для регрессии гребня, чтобы исправить.

Метод, относящийся к регрессии гребня, lasso, описан в примере Временные Ряды Regression V: Predictor Selection.

Сводные данные

Этот пример был сфокусирован на свойствах данных предиктора, которые могут привести к высокому отклонению оценщика OLS и таким ненадежным оценкам коэффициентов. Методы Белсли полезны для определения конкретных отношений данных, которые способствуют проблеме, и для оценки степени эффектов на оценку. Одним из способов размещения отклонения оценщика является регрессия гребня. Методы выборочного удаления проблемных предикторов рассматриваются в примерах Регрессия временных рядов III: Влиятельные наблюдения и Регрессия временных рядов V: Выбор предиктора.

Ссылки

[1] Belsley, D. A., E. Kuh, and R. E. Welsh. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Гольдбергер, А. Т. Курс эконометрики. Cambridge, MA: Harvard University Press, 1991.

[3] Хёрл, А. Э. и Р. У. Кеннард. Ridge Regression: Applications to Nonorthogonal Problems (неопр.) (недоступная ссылка). Технометрия. Том 12, № 1, 1970, с. 69-82.

[4] Moler, C. Числовые вычисления с MATLAB. Филадельфия, Пенсильвания: Общество промышленной и прикладной математики, 2004.

[5] Stone, R. «Анализ рыночного спроса». Журнал Королевского статистического общества. Том 108, 1945, с. 1-98.

[6] Wooldridge, J. M. Introductory Econometrics. Цинциннати, OH: Юго-Западный, 2009.

Документация