Регрессия временных рядов II: коллинеарность и отклонение средства оценки

Скрипт Open Live Script

В этом примере показано, как обнаружить корреляцию среди предикторов и вместить проблемы большого отклонения средства оценки. Это является вторым в серии примеров на регрессии временных рядов, после представления в предыдущем примере.

Введение

Экономические модели всегда underspecified относительно истинного генерирующего данные процесса (DGP). Предикторы модели никогда полностью представляют все количество причинных факторов, производящих экономический ответ. Не использованные переменные, однако, продолжают оказывать свое влияние посредством инновационного процесса, обеспечивая коэффициенты модели с учетом изменений ответа, который они действительно не объясняют. Содействующие оценки, которые являются слишком большими (ошибки типа I) или слишком небольшими (ошибки типа II) искажают крайний вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются с неправильным знаком.

Экономические модели могут также быть чрезмерно определены включением слепого теорией соединения предикторов с надеждой на получение некоторой значительной части DGP. Часто, "общий-к-специфичному" (GETS) методы оценки применяются с неуместным доверием, что стандартная диагностическая статистика разберется в хороших предикторах. Однако самое присутствие причинно незначительных предикторов имеет тенденцию увеличивать отклонение средства оценки, указывая на возможность, что стандартные выводы будут ненадежны.

Действительность работы с misspecified моделями обращена в этом и последующая, примеры в этом ряду. Модели Underspecified часто вводят корреляцию между предикторами и не использованными переменными в инновационном процессе. Чрезмерно определенные модели часто вводят корреляцию среди предикторов. Каждый представляет его собственные проблемы для оценки модели. В этом примере мы смотрим в частности на проблемы, являющиеся результатом коррелированых предикторов. Несколько более сложные проблемы, связанные с корреляцией между предикторами и инновациями (exogeneity нарушения), решаются в Регрессии Временных рядов в качестве примера VIII: Изолированные Переменные и Смещение Средства оценки.

Мы начинаем путем загрузки соответствующих данных из Регрессии Временных рядов предыдущего примера I: Линейные Модели, и продолжают анализ модели значения по умолчанию кредита, представленной там:

load Data_TSReg1

Корреляция и числа обусловленности

Как первый шаг к спецификации модели, полезно идентифицировать любые возможные зависимости среди предикторов. Корреляционная матрица является стандартной мерой силы попарных линейных соотношений:

R0 = corrcoef(X0)

R0 = 4×4

    1.0000    0.4578    0.0566   -0.0686
    0.4578    1.0000    0.3955    0.3082
    0.0566    0.3955    1.0000    0.0874
   -0.0686    0.3082    0.0874    1.0000

Служебная функция corrplot помогает визуализировать результаты в корреляционной матрице путем графического вывода матрицы попарных рассеяний. Наклоны отображенных линий наименьших квадратов равны отображенным коэффициентам корреляции. Удобно работать с табличной версией массивов данных, X0Tbl, который содержит имена предиктора для графиков:

figure
corrplot(X0Tbl,'testR','on')

MATLAB figure

Коэффициенты корреляции, подсвеченные в красном, имеют значительное $t$ - статистическая величина. Предиктор BBB снова отличается ее относительно высокими корреляциями с другими предикторами, хотя сила отношений является умеренной. Здесь визуализация особенно полезна как BBB отображения справедливо дезорганизовали рассеяния с возможностью многих маленьких, потенциально влиятельных подмножеств данных. Графики являются напоминанием ограничений коэффициента линейной корреляции как итоговая статистическая величина.

И шкала и корреляции BBB имейте потенциал, чтобы раздуть число обусловленности $κ$ из $X_{t}$ . Число обусловленности часто используется, чтобы охарактеризовать полную чувствительность оценок OLS к изменениям в данных. Для модели MLR с точкой пересечения:

kappa0I = cond(X0I)

kappa0I = 205.8085

Число обусловленности много больше "хорошо подготовленного" сравнительного теста 1, который достигается когда $X_{t}$ имеет ортонормированные столбцы. Как показывает опыт, 1%-я относительная погрешность данных $X_{t}$ может произвести до a $κ$ % относительная погрешность содействующих оценок $β$ [4]:

$\frac{‖ δ β ‖}{‖ β ‖} \leq κ \frac{‖ δ X_{t} ‖}{‖ X_{t} ‖}$

Как показано в Регрессии Временных рядов предыдущего примера I: Линейные Модели, содействующие оценки для этих данных находятся порядка $1 0^{- 2}$ , так a $κ$ порядка $1 0^{2}$ приводит к абсолютным ошибкам расчета $‖ δ β ‖$ это аппроксимировано относительными погрешностями данных.

Отклонение средства оценки

Корреляции и числа обусловленности широко используются, чтобы отметить потенциальные проблемы данных, но их диагностическое значение ограничивается. Корреляции рассматривают только попарные зависимости между предикторами, в то время как числа обусловленности рассматривают только $X_{t}$ в агрегате. Отношения среди произвольных подмножеств предиктора (мультиколлинеарности) могут упасть где-нибудь промежуточные. Предположения CLM запрещают точные отношения, но идентификация силы и источника любых близких отношений и их определенного эффекта на содействующей оценке, является основной частью анализа спецификации.

Много методов для обнаружения около коллинеарностей фокусируются на содействующих оценках в $β_{}^{ˆ}$ , вместо данных в $X_{t}$ . Каждое следующее было предложено в качестве контрольного знака зависимостей от предиктора:

Статистически незначительные коэффициенты на теоретически важных предикторах
Коэффициенты со знаками или величинами, которые не имеют теоретического смысла
Экстремальная чувствительность коэффициента к вставке или удалению других предикторов

Качественная природа этих критериев очевидна, и к сожалению ни один из них не необходим или достаточен для обнаружения коллинеарности.

Чтобы проиллюстрировать, мы снова отображаем статистику подгонки OLS модели значения по умолчанию кредита:

M0

M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Знаки содействующих оценок сопоставимы с теоретическими ожиданиями: AGE, BBB, и SPR добавьте риск; CPF уменьшает его. T-статистические-данные, которые масштабируют содействующие оценки их стандартных погрешностей (вычисленный под предположением о нормальных инновациях), показывают, что все предикторы существенно отличаются от 0 на 20%-м уровне. CPF кажется особенно значительным здесь. Значение предиктора, однако, относительно других предикторов в модели.

Нет ничего в стандартных результатах регрессии поставить существенный вопрос о коллинеарности. Чтобы поместить результаты в перспективу, однако, необходимо рассмотреть другие источники отклонения средства оценки. Под предположениями CLM, отклонением $i^{t h}$ компонент $β_{}^{ˆ}$ , ${β_{i}}_{}^{ˆ}$ , может анализироваться можно следующим образом [6]:

$V a r ({β_{i}}_{}^{ˆ}) = \frac{σ^{2}}{S S T_{i} (1 - R_{i}^{2})},$

где $σ^{2}$ отклонение инновационного процесса (принял постоянный), $S S T_{i}$ общее демонстрационное изменение предиктора $i$ , и $R_{i}^{2}$ коэффициент детерминации от регрессии предиктора $i$ на остающихся предикторах (и точка пересечения, если существующий).

Термин

$V I F_{i} = \frac{1}{1 - R_{i}^{2}}$

называется фактором инфляции отклонения (VIF) и другая общая диагностика коллинеарности. Когда изменение предиктора $i$ в основном объяснен линейной комбинацией других предикторов, $R_{i}^{2}$ близко к $1$ , и VIF для того предиктора является соответственно большим. Инфляция измеряется относительно $R_{i}^{2}$ из 0 (никакая коллинеарность), и VIF 1.

VIFs являются также диагональными элементами инверсии корреляционной матрицы [1], удобный результат, который избавляет от необходимости настраивать различные регрессии:

VIF = diag(inv(R0))'

VIF = 1×4

    1.3870    1.7901    1.2216    1.1850

predNames0

predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Насколько большой VIF является поводом для беспокойства? Как с уровнями значения для стандартных тестов гипотезы, опыт с определенными типами данных может показать полезные допуски. Общие оперативные значения, в области значений 5 - 10, мало полезны в целом. В этом случае, BBB имеет самый высокий VIF, но он не выскакивает от остальной части предикторов.

Что еще более важно, VIF, только один включает разложение отклонения, данное выше. Большой VIF может быть сбалансирован любым небольшое инновационное отклонение $σ^{2}$ (хорошая подгонка модели) или изменение большой выборки $S S T_{i}$ (достаточные данные). По сути, Голдбергер [2] иронически сравнивает "проблему" мультиколлинеарности, просматриваемой в изоляции, к проблеме данных "micronumerosity". Оценка совместного воздействия других источников отклонения средства оценки требует более широкого представления.

Эконометрики разработали много эмпирических правил для решения, когда волноваться о коллинеарности. Возможно, наиболее распространенное говорит, что приемлемо проигнорировать доказательство коллинеарности, если получившиеся t-статистические-данные все больше, чем 2 в абсолютном значении. Это гарантирует, что 0 находится вне аппроксимированного 95%-го доверительного интервала каждой оценки (принимающий нормальные инновации или большую выборку). Поскольку t-статистические-данные уже настроены для отклонения средства оценки, предположение - то, что они соответственно составляют коллинеарность в контексте другого, балансируя эффекты. Регрессия заканчивается выше показа что три из потенциальных предикторов в X0 провалите этот тест.

Другое эмпирическое правило основано на оценке $V a r ({β_{i}}_{}^{ˆ})$ [5]:

${V a r}_{}^{ˆ} ({β_{i}}_{}^{ˆ}) = \frac{1}{T - n} \frac{{σ_{}^{ˆ}}_{y}^{2}}{{σ_{}^{ˆ}}_{i}^{2}} \frac{1 - R^{2}}{1 - R_{i}^{2}},$

где $T$ объем выборки, $n$ количество предикторов, ${σ_{}^{ˆ}}_{y}^{2}$ предполагаемое отклонение $y_{t}$ , ${σ_{}^{ˆ}}_{i}^{2}$ предполагаемое отклонение предиктора $i$ , $R^{2}$ коэффициент детерминации для регрессии $y_{t}$ on $X_{t}$ , и $R_{i}^{2}$ как выше. В правиле говорится, что опасения по поводу коллинеарности могут быть проигнорированы если $R^{2}$ превышает $R_{i}^{2}$ для каждого предиктора, поскольку каждый VIF будет сбалансирован $1 - R^{2}$ . Все потенциальные предикторы в X0 пройдите этот тест:

RSquared = M0.Rsquared

RSquared = struct with fields:
    Ordinary: 0.6211
    Adjusted: 0.5264

RSquared_i = 1-(1./VIF)

RSquared_i = 1×4

    0.2790    0.4414    0.1814    0.1561

predNames0

predNames0 = 1x4 cell
    {'AGE'}    {'BBB'}    {'CPF'}    {'SPR'}

Эти правила пытаются идентифицировать последствия коллинеарности, как описано в результатах регрессии. Как мы видели, они могут дать конфликтный совет на том, когда, и сколько, чтобы волноваться о целостности коэффициента оценивает. Они не обеспечивают учета природы нескольких зависимостей в данных, и при этом они не обеспечивают надежной меры степени, до которой эти зависимости ухудшают регрессию.

Диагностика коллинеарности

Более подробный аналитический подход обеспечивается в [1]. Нестабильность оценок OLS может быть прослежена до маленьких собственных значений в матрице векторного произведения $X_{t}^{T} X_{t}$ появление в нормальных уравнениях для $β_{}^{ˆ}$ :

$β_{}^{ˆ} = (X_{t}^{T} X_{t})^{- 1} X_{t}^{T} y_{t} .$

Белсли переформулирует eigensystem $X_{t}^{T} X_{t}$ в терминах сингулярных значений матрицы $X_{t}$ , который может затем анализироваться непосредственно с большей числовой точностью. Если сингулярные значения $X_{t}$ $μ_{1}, . . ., μ_{n}$ , где $n$ количество предикторов, затем число обусловленности $X_{t}$ $κ = μ_{m a x} / μ_{m i n}$ . Белсли задает спектр индексов условия $η_{j} = μ_{m a x} / μ_{j}$ для каждого $j = 1, . . ., n$ , и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.

Белсли идет далее путем описания метода для идентификации определенных предикторов, вовлеченных в каждую близкую зависимость, и обеспечивает меру того, насколько важный те зависимости находятся во влиянии на содействующие оценки. Это достигается с еще одним разложением $V a r ({β_{i}}_{}^{ˆ})$ , на этот раз в терминах сингулярных значений. Если $X_{t}$ имеет сингулярное разложение $U S V^{T}$ , с $V = (v_{i j})$ то:

$V a r ({β_{i}}_{}^{ˆ}) = σ^{2} \sum_{j = 1}^{n} v_{i j}^{2} / μ_{j}^{2},$

где $σ^{2}$ инновационное отклонение. Пропорции разложения отклонения $π_{j i}$ заданы:

$ϕ_{i j} = v_{i j}^{2} / μ_{j}^{2},$

$ϕ_{i} = \sum_{j = 1}^{n} ϕ_{i j},$

$π_{j i} = ϕ_{i j} / ϕ_{i} .$

$π_{j i}$ дайте пропорцию $V a r ({β_{i}}_{}^{ˆ})$ сопоставленный с сингулярным значением $μ_{j}$ .

Индексы и пропорции интерпретированы можно следующим образом:

Количество высоких индексов условия идентифицирует количество близких зависимостей.
Размер индексов условия идентифицирует плотность каждой зависимости.
Местоположение высоких процентов в высокой строке индекса идентифицирует зависимые предикторы.
Размер пропорций идентифицирует степень ухудшения к оценкам регрессии.

Снова, допуск к "высокому" должен быть определен. Эксперименты симуляции Белсли предлагают, чтобы индексы условия в области значений 5 - 10 отразили слабые зависимости, и те в области значений 30 - 100 отражаются умеренный к высоким зависимостям. Он предлагает допуск 0,5 для пропорций разложения отклонения, идентифицирующих отдельные предикторы. Эксперименты симуляции, однако, обязательно основаны на определенных моделях взаимной зависимости, таким образом, допуски должны быть переоценены в каждой эмпирической установке.

Функциональный collintest процедура Белсли реализаций. Выводы отображены в табличной форме:

collintest(X0ITbl);

Variance Decomposition

 sValue  condIdx   Const    AGE     BBB     CPF     SPR  
---------------------------------------------------------
 2.0605    1      0.0015  0.0024  0.0020  0.0140  0.0025 
 0.8008   2.5730  0.0016  0.0025  0.0004  0.8220  0.0023 
 0.2563   8.0400  0.0037  0.3208  0.0105  0.0004  0.3781 
 0.1710  12.0464  0.2596  0.0950  0.8287  0.1463  0.0001 
 0.1343  15.3405  0.7335  0.5793  0.1585  0.0173  0.6170

Если мы понижаем допуск индекса к 10 и обеспечиваем допуск пропорции 0,5, анализ идентифицирует одну слабую зависимость между AGE и SPR в итоговой строке. Это может визуализироваться путем установки 'tolIdx' и 'tolProp' параметры в collintest и включение 'plot' флаг:

figure
collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');

Figure contains an axes object. The axes object with title blank H i g h blank I n d e x blank V a r i a n c e blank D e c o m p o s i t i o n s contains 4 objects of type line. These objects represent condIdx 12, condIdx 15.3, tolProp.

График показывает критические строки в таблице разложения отклонения выше допуска индекса. Строка, сопоставленная с индексом 12 условия, имеет только один предиктор, BBB, с пропорцией выше допуска не эти два или больше предиктора требуются для зависимости. Строка, сопоставленная с индексом 15.3 условия, показывает слабую зависимость, включающую AGE, SPR, и точка пересечения. Это отношение не было очевидно в первоначальном графике корреляционной матрицы.

Таким образом, результаты различной диагностики коллинеарности сопоставимы с данными, в которых никакое ухудшение около отношений существуют. Действительно, анализ экономического значения потенциальных предикторов (легко потерянный в чисто статистическом анализе) не предлагает теоретической причины прочных отношений. Независимо от слабых зависимостей оценки OLS остаются BLUE, и стандартные погрешности в результатах регрессии показывают точность, которая, вероятно, приемлема в большинстве целей моделирования.

Гребенчатая регрессия

В заключение, мы кратко исследуем метод гребенчатой регрессии, которая часто предлагается в качестве средства от отклонения средства оценки в моделях MLR данных с определенной степенью коллинеарности. Метод может также использоваться в качестве диагностики коллинеарности.

Решить проблему близкой сингулярности в $X_{t}^{T} X_{t}$ , гребенчатые оценки регрессии $β_{}^{ˆ}$ использование регуляризации нормальных уравнений:

${β_{}^{ˆ}}_{r i d g e} = (X_{t}^{T} X_{t} + k I)^{- 1} X_{t}^{T} y_{t},$

где $k$ положительный гребенчатый параметр и $I$ единичная матрица. Возмущение к диагонали $X_{t}^{T} X_{t}$ предназначается, чтобы улучшить создание условий задачи о собственных значениях и уменьшать отклонение содействующих оценок. Как $k$ увеличения, гребенчатые оценки становятся смещенными к нулю, но уменьшаемое отклонение может привести к меньшей среднеквадратической ошибке (MSE) относительно сопоставимых оценок OLS, особенно в присутствии коллинеарности.

Гребенчатая регрессия выполняется функциональным ridge. Исследовать результаты на область значений гребенчатых параметров $k$ , производится гребенчатая трассировка [3]:

Mu0I = mean(diag(X0I'*X0I));   % Scale of cross-product diagonal

k = 0:Mu0I/10;                 % Range of ridge parameters
ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept

figure
plot(k,ridgeBetas(2:end,:),'LineWidth',2)
xlim([0 Mu0I/10])
legend(predNames0)
xlabel('Ridge Parameter') 
ylabel('Ridge Coefficient Estimate') 
title('{\bf Ridge Trace}')
axis tight
grid on

Figure contains an axes object. The axes object with title blank R i d g e blank T r a c e contains 4 objects of type line. These objects represent AGE, BBB, CPF, SPR.

Оценки OLS, с $k = 0$ , появитесь слева. Важный вопрос - уменьшает ли какая-либо из гребенчатых оценок MSE:

[numRidgeParams,numRidgeBetas] = size(ridgeBetas);
y0Hat = X0I*ridgeBetas;
RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat;
RidgeSSE = RidgeRes'*RidgeRes;
RidgeDFE = T0-numRidgeParams;
RidgeMSE = diag(RidgeSSE/RidgeDFE);

figure
plot(k,RidgeMSE,'m','LineWidth',2)
xlim([0 Mu0I/10])
xlabel('Ridge Parameter') 
ylabel('MSE') 
title('{\bf Ridge MSE}')
axis tight
grid on

Figure contains an axes object. The axes object with title blank R i d g e blank M S E contains an object of type line.

График показывает точно противоположность того, на что можно было бы надеяться при применении гребенчатой регрессии. MSE на самом деле увеличивается в целой области значений гребенчатых параметров, предполагая снова, что нет никакой значительной коллинеарности в данных для гребенчатой регрессии, чтобы откорректировать.

Метод, связанный с гребенчатой регрессией, лассо, описан в Регрессии Временных рядов в качестве примера V: Выбор Предиктора.

Сводные данные

Этот пример фокусировался на свойствах данных о предикторе, которые могут привести к высокому отклонению средства оценки OLS, и так ненадежные содействующие оценки. Методы Белсли полезны для идентификации определенных отношений данных, которые способствуют проблеме, и для оценки степени эффектов на оценке. Один метод для размещающего отклонения средства оценки является гребенчатой регрессией. Методы для того, чтобы выборочно удалить проблематичные предикторы обращены в Регрессии Временных рядов в качестве примера III: Влиятельные Наблюдения и Регрессия Временных рядов V: Выбор Предиктора.

Ссылки

[1] Белсли, D. A. Э. Кух и Р. Э. Уэлш. Диагностика регрессии. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Голдбергер, A. T. Курс в эконометрике. Кембридж, MA: Издательство Гарвардского университета, 1991.

[3] Hoerl, A. E. и Р. В. Кеннард. "Гребенчатая Регрессия: Приложения к Неортогональным проблемам". Технометрики. Издание 12, № 1, 1970, стр 69–82.

[4] Moler, C. Числовое вычисление с MATLAB. Филадельфия, усилитель мощности (УМ): общество промышленной и прикладной математики, 2004.

[5] Камень, R. "Анализ Рыночного спроса". Журнал Королевского Статистического Общества. Издание 108, 1945, стр 1–98.

[6] Вулдридж, J. M. Вводная эконометрика. Цинциннати, OH: юго-западный, 2009.

Документация