exponenta event banner

Регрессия второго временного ряда: дисперсия коллинеарности и оценщика

Этот пример показывает, как обнаружить корреляцию между предикторами и решить проблемы большой дисперсии оценщика. Он является вторым в серии примеров регрессии временных рядов после представления в предыдущем примере.

Введение

Экономические модели всегда недооцениваются в отношении истинного процесса генерирования данных (DGP). Модельные предикторы никогда не представляют полностью совокупность причинных факторов, вызывающих экономический ответ. Однако пропущенные переменные продолжают оказывать свое влияние в процессе инноваций, заставляя коэффициенты модели учитывать изменения в ответе, которые они по-настоящему не объясняют. Оценки коэффициентов, которые слишком велики (ошибки типа I) или слишком малы (ошибки типа II), искажают предельный вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются неправильным знаком.

Экономические модели также могут быть чрезмерно конкретизированы путем включения слепого в теории сочетания предикторов с надеждой захватить некоторую значительную часть DGP. Часто методы оценки «от общего к конкретному» (GETS) применяются с неверным доверием, что стандартная диагностическая статистика будет отбирать хорошие предикторы. Однако само наличие причинно незначительных предикторов имеет тенденцию увеличивать дисперсию оценщика, повышая вероятность того, что стандартные выводы будут ненадежными.

Реальность работы с неопределенными моделями рассматривается в этом, и последующих, примерах в этой серии. Недостаточно определенные модели часто вводят корреляцию между предикторами и пропущенными переменными в процессе инноваций. Чрезмерно определенные модели часто вводят корреляцию между предикторами. Каждый представляет свои собственные проблемы для оценки модели. В этом примере мы рассмотрим конкретно проблемы, возникающие из коррелированных предикторов. Несколько более сложные вопросы, связанные с корреляцией между предикторами и инновациями (нарушения экзогенности), рассматриваются в примере Регрессия во временном ряду VIII: запаздывающие переменные и смещение оценщика.

Начнем с загрузки соответствующих данных из предыдущего примера Регрессия временных рядов I: Линейные модели и продолжим анализ представленной там модели кредитного дефолта:

load Data_TSReg1

Номера корреляций и условий

В качестве первого шага к спецификации модели полезно идентифицировать любые возможные зависимости между предикторами. Корреляционная матрица является стандартной мерой силы попарных линейных отношений:

R0 = corrcoef(X0)
R0 = 4×4

    1.0000    0.4578    0.0566   -0.0686
    0.4578    1.0000    0.3955    0.3082
    0.0566    0.3955    1.0000    0.0874
   -0.0686    0.3082    0.0874    1.0000

Функция утилиты corrplot помогает визуализировать результаты в корреляционной матрице путем построения матрицы парных рассеиваний. Наклоны отображаемых линий наименьших квадратов равны отображаемым коэффициентам корреляции. Удобно работать с табличной версией массива данных, X0Tbl, который содержит имена предикторов для графиков:

figure
corrplot(X0Tbl,'testR','on')

MATLAB figure

Коэффициенты корреляции, выделенные красным цветом, имеют значительную t-статистику. Предсказатель BBB снова отличает себя своей относительно высокой корреляцией с другими предикторами, хотя сила отношений является умеренной. Здесь визуализация особенно полезна, так как BBB отображает довольно неорганизованные рассеяния, с возможностью ряда небольших, потенциально влиятельных подмножеств данных. Графики напоминают об ограничениях коэффициента линейной корреляции как сводной статистики.

Как масштаб, так и корреляции BBB имеют потенциал для раздувания номера условия, соответствующего Xt. Номер условия часто используется для характеристики общей чувствительности оценок ОЛС к изменениям в данных. Для модели MLR с перехватом:

kappa0I = cond(X0I)
kappa0I = 205.8085

Номер условия значительно выше «хорошо кондиционированного» эталона 1, который достигается, когда Xt имеет ортонормированные столбцы. Как правило, относительная погрешность 1% в данных Xt может привести к относительной погрешности в оценках коэффициентов β [4]:

δβ β‖≤κ‖δXt ‖ ‖ Xt ‖

Как показано в предыдущем примере Регрессия временных рядов I: Линейные модели, оценки коэффициентов для этих данных находятся в порядке 10-2, так что, в порядке 102, приводит к абсолютным ошибкам оценки δβ ‖, которые аппроксимируются относительными ошибками в данных.

Отклонение оценщика

Корреляции и номера условий широко используются для маркировки потенциальных проблем с данными, но их диагностическое значение ограничено. Корреляции учитывают только парные зависимости между предикторами, в то время как номера условий учитывают только Xt в совокупности. Отношения между произвольными подмножествами предикторов (мультиколлинеарности) могут находиться где-то между ними. Допущения CLM запрещают точные взаимосвязи, но выявление силы и источника любых близких взаимосвязей и их специфического влияния на оценку коэффициентов является существенной частью анализа спецификаций.

Многие методы обнаружения близких коллинеарностей фокусируются на оценках коэффициентов в βˆ, а не на данных в Xt. Каждое из следующего было предложено в качестве контрольного знака зависимостей предиктора:

  • Статистически незначительные коэффициенты на теоретически важных предикторах

  • Коэффициенты со знаками или величинами, не имеющими теоретического смысла

  • Крайняя чувствительность коэффициента к вставке или удалению других предикторов

Качественный характер этих критериев очевиден, и, к сожалению, ни один из них не является необходимым или достаточным для обнаружения коллинеарности.

Для иллюстрации снова отобразим статистику соответствия OLS модели дефолта по кредиту:

M0
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Признаки оценок коэффициентов согласуются с теоретическими ожиданиями: AGE, BBB, и SPR добавить риск; CPF уменьшает его. T-статистика, которая масштабирует оценки коэффициентов по их стандартным ошибкам (вычисленным в предположении о нормальных нововведениях), показывает, что все предикторы значительно отличаются от 0 на уровне 20%. CPF представляется здесь особенно значимым. Значение предиктора, однако, относительно других предикторов в модели.

В стандартных результатах регрессии нет ничего, что могло бы вызвать серьезную обеспокоенность по поводу коллинеарности. Однако для оценки результатов необходимо учитывать другие источники вариации оценщика. В предположениях CLM дисперсию i-го компонента βˆ, βiˆ, можно разложить следующим образом [6]:

Var (βiˆ) = start2SSTi (1-Ri2),

где start2 - дисперсия инновационного процесса (предполагаемая константа), SSTi - полная выборочная вариация предиктора i, а Ri2 - коэффициент определения из регрессии предиктора i по оставшимся предикторам (и перехвата, если присутствует).

Термин

VIFi = 11-Ri2

называется фактором дисперсии инфляции (VIF) и является другой распространенной диагностикой коллинеарности. Когда вариация предиктора i в значительной степени объясняется линейной комбинацией других предикторов, Ri2 близка к 1, и VIF для этого предиктора соответственно велика. Инфляция измеряется относительно Ri2 0 (без коллинеарности) и VIF 1.

VIF также являются диагональными элементами обратной корреляционной матрицы [1], что является удобным результатом, исключающим необходимость настройки различных регрессий:

VIF = diag(inv(R0))'
VIF = 1×4

    1.3870    1.7901    1.2216    1.1850

predNames0
predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Насколько велик VIF - повод для беспокойства? Как и в случае уровней значимости для стандартных тестов гипотез, опыт с определенными типами данных может указывать на полезные допуски. Общие специальные значения в диапазоне от 5 до 10 в целом мало используются. В этом случае BBB имеет самый высокий VIF, но он не выскакивает из остальных предикторов.

Более важно, что VIF является только одним фактором в разложении дисперсии, приведенном выше. Большая VIF может быть сбалансирована либо небольшой дисперсией инноваций (хорошая подгонка модели), либо большой вариацией выборки SSTi (достаточные данные). Как таковая, Голдбергер [2] иронично сравнивает «проблему» мультиколлинеарности, рассматриваемую изолированно, с проблемой «микронумеровости» данных. Оценка комбинированного эффекта различных источников дисперсии оценщика требует более широкого взгляда.

Эконометрики разработали ряд правил большого пальца для решения, когда беспокоиться о коллинеарности. Возможно, наиболее распространенный говорит, что приемлемо игнорировать доказательства коллинеарности, если результирующая t-статистика больше 2 в абсолютном значении. Это гарантирует, что 0 находится вне приблизительно 95% доверительного интервала каждой оценки (предполагая нормальные нововведения или большую выборку). Поскольку t-статистика уже скорректирована с учетом дисперсии оценщика, предполагается, что они адекватно учитывают коллинеарность в контексте других, уравновешивающих эффектов. Результаты регрессии выше показывают, что три из потенциальных предикторов в X0 не пройти этот тест.

Другое правило большого пальца основано на оценке Var (βiˆ) [5]:

Varˆ (βiˆ) =1T-nσˆy2σˆi21-R21-Ri2,

где T - размер выборки, n - количество предикторов, σˆy2 - оценочная дисперсия yt, σˆi2 - оценочная дисперсия предиктора i, R2 - коэффициент определения для регрессии yt на Xt, и Ri2 - как указано выше. Правило гласит, что опасения по поводу коллинеарности могут быть проигнорированы, если R2 превышает Ri2 для каждого предиктора, поскольку каждый VIF будет уравновешен 1-R2. Все потенциальные предикторы в X0 пройти этот тест:

RSquared = M0.Rsquared
RSquared = struct with fields:
    Ordinary: 0.6211
    Adjusted: 0.5264

RSquared_i = 1-(1./VIF)
RSquared_i = 1×4

    0.2790    0.4414    0.1814    0.1561

predNames0
predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Эти правила пытаются определить последствия коллинеарности, выраженные в результатах регрессии. Как мы видели, они могут предложить противоречивые советы о том, когда и насколько беспокоиться о целостности оценок коэффициентов. Они не обеспечивают какого-либо учета характера множественных зависимостей в данных, а также не обеспечивают какой-либо достоверной оценки степени, в которой эти зависимости ухудшают регрессию.

Диагностика коллинеарности

Более подробный аналитический подход представлен в [1]. Нестабильность оценок OLS можно проследить по небольшим собственным значениям в матрице XtTXt перекрестных продуктов, появляющимся в нормальных уравнениях для βˆ:

βˆ= (XtTXt) -1XtTyt.

Белсли переформулирует собственную систему XTXt в терминах сингулярных значений матрицы Xt, которые затем могут быть проанализированы непосредственно, с большей числовой точностью. Если сингулярными значениями Xt являются мк1,..., мкн, где n - число предикторов, то число условий Xt равно Belsley определяет спектр индексов условий, для каждого j = 1,..., n, и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.

Белсли идет дальше, описывая метод идентификации конкретных предикторов, участвующих в каждой близкой зависимости, и предоставляет меру того, насколько важны эти зависимости в влиянии на оценки коэффициентов. Это достигается ещё одним разложением Var (βiˆ), на этот раз в терминах сингулярных значений. Если Xt имеет сингулярное разложение USVT с V = (vij), то:

Вар (βiˆ) =σ2∑j=1nvij2/μj2,

где start2 - дисперсия нововведений. Пропорции дисперсионного разложения ¼ ji определяются следующим образом:

βij = vij2/мкj2,

ϕi=∑j=1nϕij,

securityji = «»/« »/«».

В § ji дана пропорция Var (βiˆ), связанная с сингулярным значением мкj.

Индексы и пропорции интерпретируются следующим образом:

  • Число индексов высоких условий определяет количество близких зависимостей.

  • Размер индексов условий определяет герметичность каждой зависимости.

  • Расположение высоких пропорций в строке с высоким индексом идентифицирует зависимые предикторы.

  • Размер пропорций определяет степень деградации для регрессионных оценок.

Опять же, необходимо определить допустимость «высокого». Эксперименты Белсли по моделированию предполагают, что индексы состояния в диапазоне от 5 до 10 отражают слабые зависимости, а индексы в диапазоне от 30 до 100 отражают зависимости от средней до высокой. Он предлагает допуск 0,5 для пропорций разложения дисперсии, идентифицирующих отдельные предикторы. Эксперименты по моделированию, однако, обязательно основаны на конкретных моделях взаимной зависимости, поэтому допуски должны быть переоценены в каждой эмпирической установке.

Функция collintest реализует процедуру Белсли. Выходные данные отображаются в табличной форме:

collintest(X0ITbl);
Variance Decomposition

 sValue  condIdx   Const    AGE     BBB     CPF     SPR  
---------------------------------------------------------
 2.0605    1      0.0015  0.0024  0.0020  0.0140  0.0025 
 0.8008   2.5730  0.0016  0.0025  0.0004  0.8220  0.0023 
 0.2563   8.0400  0.0037  0.3208  0.0105  0.0004  0.3781 
 0.1710  12.0464  0.2596  0.0950  0.8287  0.1463  0.0001 
 0.1343  15.3405  0.7335  0.5793  0.1585  0.0173  0.6170 

Если мы понизим допуск индекса до 10 и сохраним допуск пропорции 0,5, анализ выявит одну слабую зависимость между AGE и SPR в последнем ряду. Его можно визуализировать, установив 'tolIdx' и 'tolProp' параметры в collintest и включение 'plot' флаг:

figure
collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');

Figure contains an axes. The axes with title {\bf High Index Variance Decompositions} contains 4 objects of type line. These objects represent condIdx 12, condIdx 15.3, tolProp.

График показывает критические строки в таблице разложения дисперсии выше допуска индекса. Строка, связанная с индексом 12 условия, имеет только один предиктор, BBB, с долей выше допуска, а не двух или более предикторов, необходимых для зависимости. Строка, связанная с индексом условия 15.3, показывает слабую зависимость, связанную с AGE, SPRи перехват. Эта взаимосвязь не была очевидна на начальном графике корреляционной матрицы.

Таким образом, результаты различной диагностики коллинеарности согласуются с данными, в которых отсутствуют ухудшающие близкие отношения. Действительно, обзор экономического значения потенциальных предикторов (легко теряемых в чисто статистическом анализе) не предполагает каких-либо теоретических оснований для прочных отношений. Независимо от слабых зависимостей, оценки OLS остаются BLUE, и стандартные ошибки в результатах регрессии показывают точность, которая, вероятно, приемлема для большинства целей моделирования.

Регрессия хребта

В заключение мы кратко рассмотрим метод регрессии хребта, который часто предлагается в качестве средства для оценки дисперсии в моделях MLR данных с некоторой степенью коллинеарности. Метод также может быть использован в качестве диагностики коллинеарности.

Для решения проблемы близкой сингулярности в XtTXt оценки регрессии хребта βˆ с использованием регуляризации нормальных уравнений:

βˆridge= (XtTXt + kI) -1XtTyt,

где k - положительный параметр гребня, а I - единичная матрица. Возмущение диагонали XtTXt предназначено для улучшения кондиционирования проблемы собственных значений и уменьшения дисперсии оценок коэффициентов. С увеличением k оценки гребней становятся смещенными к нулю, но уменьшенная дисперсия может привести к меньшей среднеквадратичной ошибке (MSE) относительно сопоставимых оценок OLS, особенно при наличии коллинеарности.

Регрессия хребта осуществляется функцией ridge. Для изучения результатов по диапазону параметров гребня k получают след гребня [3]:

Mu0I = mean(diag(X0I'*X0I));   % Scale of cross-product diagonal

k = 0:Mu0I/10;                 % Range of ridge parameters
ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept

figure
plot(k,ridgeBetas(2:end,:),'LineWidth',2)
xlim([0 Mu0I/10])
legend(predNames0)
xlabel('Ridge Parameter') 
ylabel('Ridge Coefficient Estimate') 
title('{\bf Ridge Trace}')
axis tight
grid on

Figure contains an axes. The axes with title {\bf Ridge Trace} contains 4 objects of type line. These objects represent AGE, BBB, CPF, SPR.

Оценки OLS с k = 0 появляются слева. Важный вопрос заключается в том, снижает ли какая-либо из оценок хребта MSE:

[numRidgeParams,numRidgeBetas] = size(ridgeBetas);
y0Hat = X0I*ridgeBetas;
RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat;
RidgeSSE = RidgeRes'*RidgeRes;
RidgeDFE = T0-numRidgeParams;
RidgeMSE = diag(RidgeSSE/RidgeDFE);

figure
plot(k,RidgeMSE,'m','LineWidth',2)
xlim([0 Mu0I/10])
xlabel('Ridge Parameter') 
ylabel('MSE') 
title('{\bf Ridge MSE}')
axis tight
grid on

Figure contains an axes. The axes with title {\bf Ridge MSE} contains an object of type line.

Сюжет показывает прямо противоположное тому, на что можно было бы надеяться при применении хребтовой регрессии. MSE фактически увеличивается во всем диапазоне параметров гребня, что опять же предполагает отсутствие значительной коллинеарности в данных для коррекции регрессии гребня.

Методика, связанная с регрессией гребня, лассо, описана в примере Регрессия временного ряда V: Выбор предиктора.

Резюме

Этот пример был сосредоточен на свойствах данных предиктора, которые могут привести к высокой дисперсии оценки ОЛС, и поэтому ненадежные оценки коэффициентов. Методы Белсли полезны для определения конкретных взаимосвязей данных, которые способствуют проблеме, и для оценки степени влияния на оценку. Одним из способов размещения дисперсии оценщика является регрессия гребня. Способы выборочного удаления проблемных предикторов рассматриваются в примерах Регрессия временного ряда III: Влиятельные наблюдения и Регрессия временного ряда V: Выбор предиктора.

Ссылки

[1] Белсли, Д. А., Э. Кух и Р. Э. Уэлш. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Голдбергер, А. Т. Курс по эконометрике. Кембридж, Массачусетс: Harvard University Press, 1991.

[3] Хоэрл, А. Э. и Р. У. Кеннард. «Регрессия Риджа: применение к неоргональным проблемам». Технометрические данные. т. 12, № 1, 1970, стр. 69-82.

[4] Молер, C. Численные вычисления с MATLAB. Филадельфия, Пенсильвания: Общество промышленной и прикладной математики, 2004.

[5] Стоун, Р. «Анализ рыночного спроса». Журнал Королевского статистического общества. Том 108, 1945, стр. 1-98.

[6] Вулдридж, Дж. М. Вводная эконометрика. Цинциннати, О: Юго-Запад, 2009.