Регрессия временных рядов X: обобщенные наименьшие квадраты и оценки HAC

Открыть сценарий в реальном времени

Этот пример показывает, как оценить множественные модели линейной регрессии данных временных рядов в присутствии гетероскедастических или автокоррелированных (несферических) инноваций. Он является десятым в серии примеров регрессии временных рядов после представления в предыдущих примерах.

Введение

Множественные модели линейной регрессии часто определяются с помощью инновационного процесса, который, как известно, является либо гетероскедастическим, либо автокоррелированным (несферическим). Если другие условия регулярности классической линейной модели (Classical Linear Model, CLM) продолжают сохраняться (см. пример Регрессия временных рядов I: Linear Models), оценки коэффициентов регрессии обычных наименьших квадратов (OLS) остаются несмещенными, последовательными и, если нововведения нормально распределены, асимптотически нормальными. Однако оценки более не эффективны относительно других оценщиков, и t и F тесты больше не действительны, даже асимптотически, потому что стандартные формулы дисперсии оценщика становятся смещенными. В результате значение оценок коэффициентов ОЛС искажается (см. пример Регрессия временного ряда VI: Остаточная диагностика).

Обычным назначением для таких случаев является повторное определение модели, выбор альтернативных предикторов для минимизации несферических характеристик в остатках. Однако это не всегда практично. Предикторы часто выбираются на основе теории, политики или доступных данных, и альтернативы могут быть ограничены. Запаздывающие предикторы, используемые для учета автокорреляций, вводят дополнительные проблемы (см. пример Регрессия временного ряда VIII: запаздывающие переменные и смещение оценщика). Этот пример исследует два подхода, которые признают наличие несферичности, и соответственно пересматривают процедуры оценки ОЛС.

Первый подход заключается в использовании оценок стандартных ошибок OLS, согласующихся с гетероскедастичностью и автокорреляцией (HAC). Оценки коэффициентов ОЛС неизменны, но тесты их значимости становятся более достоверными. Различные типы оценок HAC реализованы функцией Econometrics Toolbox hac.

Второй подход изменяет оценки коэффициентов ОЛС путем явного включения информации об инновационной ковариационной матрице более общей формы, чем $^{} σ2I$ . Это известно как обобщенные наименьшие квадраты (GLS), и для известной инновационной ковариационной матрицы, любой формы, она реализуется функцией Toolbox™ статистики и машинного обучения lscov. К сожалению, форма ковариационной матрицы инноваций редко известна на практике. Функция панели инструментов Econometrics fgls реализует процедуру выполнимых обобщенных наименьших квадратов (FGLS), которая оценивает инновационную ковариационную матрицу с использованием указанных моделей, перед применением GLS для получения коэффициентов регрессии и их стандартных ошибок.

Несферические инновации

Чтобы продемонстрировать, мы моделируем процесс генерации данных (DGP) с известными коэффициентами регрессии (1, 2, 3, 4) в паре с известным процессом несферических инноваций. Как типично для эконометрических моделей, нововведения включают некоторую степень как гетероскедастичности, так и автокорреляции. Целью регрессионного анализа является как можно более точное восстановление коэффициентов из смоделированных данных.

% Simulate data:
numObs = 50;         % Number of observations
rng(0);              % Reset random number generators
X = randn(numObs,3); % 3 random predictors

% Simulate innovations:
var = 0.1;     
phi = [0.5,0.3];  % Autocorrelation coefficients
e = simulate(arima('Constant',0,'AR',phi,'Variance',var),numObs);
e = X(:,1).*e; % Heteroscedasticity proportional to first predictor

% Simulate response:
b = [1;2;3;4]; % Regression coefficients, including intercept
y = [ones(numObs,1),X]*b + e;

% Store data:
DataTable = array2table([X,y],'VariableNames',{'X1','X2','X3','Y'});

Предикторы в моделировании не являются экзогенными для модели, поскольку нововведения определены как произведение первого предиктора и процесса AR (2). Это поддерживает современную нерекореляцию между предикторами и нововведениями (без линейных отношений между ними), но дисперсии коррелируются.

Оценки OLS

Сначала мы оцениваем коэффициенты и стандартные ошибки, используя формулы OLS на основе допущений CLM:

OLSModel = fitlm(DataTable)

OLSModel = 
Linear regression model:
    Y ~ 1 + X1 + X2 + X3

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)      1.016      0.05289     19.21    1.3187e-23
    X1              1.9171     0.041097    46.649    2.1891e-40
    X2              3.0239     0.050195    60.243    2.0541e-45
    X3               4.022     0.047813     84.12     5.044e-52


Number of observations: 50, Error degrees of freedom: 46
Root Mean Squared Error: 0.359
R-squared: 0.997,  Adjusted R-Squared: 0.996
F-statistic vs. constant model: 4.38e+03, p-value = 1.62e-56

Оценки OLS аппроксимируют коэффициенты в DGP, и статистика t кажется очень значимой.

Остаточный ряд, однако, отображает как гетероскедастичность, так и автокорреляцию (которую только при моделировании можно сравнить непосредственно с нововведениями):

res = OLSModel.Residuals.Raw;

figure
hold on
plot(e,'bo-','LineWidth',2)
plot(res,'mo-','LineWidth',2)
hold off
legend({'Innovations','OLS Residuals'})
title('{\bf Nonspherical Innovations}')
grid on

$Figure contains an axes. The axes with title {\bf Nonspherical Innovations} contains 2 objects of type line. These objects represent Innovations, OLS Residuals.$

Оценки HAC

Оценщики HAC предназначены для коррекции смещения в вычислении стандартной ошибки OLS, введенном несферическими инновациями, и, таким образом, обеспечивают более надежную настройку для вывода относительно значимости коэффициентов OLS. Преимущество HAC-оценщиков состоит в том, что они не требуют детального знания природы гетероскедастичности или автокорреляции в нововведениях для вычисления согласованных оценок стандартных ошибок.

Оценки HAC с использованием ядра квадратичного спектра (QS) достигают оптимальной скорости согласованности [1]:

hac(DataTable,'weights','QS','display','full');

Estimator type: HAC
Estimation method: QS
Bandwidth: 2.9266
Whitening order: 0
Effective sample size: 50
Small sample correction: on

Coefficient Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0160  0.0466 
 X1    | 1.9171  0.0628 
 X2    | 3.0239  0.0569 
 X3    | 4.0220  0.0296 

Coefficient Covariances:

       |  Const      X1       X2       X3   
--------------------------------------------
 Const |  0.0022   0.0007  -0.0005  -0.0004 
 X1    |  0.0007   0.0039  -0.0011  -0.0002 
 X2    | -0.0005  -0.0011   0.0032   0.0004 
 X3    | -0.0004  -0.0002   0.0004   0.0009

Размер стандартных ошибок, а значит и достоверность оценок коэффициента ОЛС, изменяется относительно вычисления ОЛС выше. Хотя положительные автокорреляции, типичные для экономических данных, имеют тенденцию вызывать смещение вниз в стандартных ошибках ОЛС, эффект может быть скрыт в конечных образцах и наличием гетероскедастичности. Здесь некоторые стандартные ошибки увеличиваются в оценках HAC, а другие уменьшаются.

Существует много моделей гетероскедастичности и автокорреляции, встроенных в hac рамки. Тщательный анализ надежности стандартных ошибок коэффициентов предполагает использование нескольких моделей с различными настройками для соответствующих параметров. См., например, [1].

[1] рекомендует предварять оценки HAC для уменьшения смещения. Процедура имеет тенденцию увеличивать дисперсию оценщика и среднеквадратичную ошибку, но может улучшить вероятности покрытия доверительного интервала и уменьшить чрезмерное отклонение статистики t. Процедура реализуется через 'whiten' параметр hac, но он включает «параметр неприятности» (порядок модели VAR), который должен быть исследован на чувствительность:

for order = 0:3
    [~,se] = hac(DataTable,'weights','QS','whiten',order,'display','off')
end

Модель 0-го порядка обходит фильтр предварительного отбеливания для получения тех же результатов, что и ранее. Расширение и затягивание стандартных интервалов ошибок при различных порядках отбеливания иллюстрирует практические трудности настройки и интерпретации процедуры.

Оценки FGLS

Альтернативой оценщикам HAC являются оценки FGLS (также известные как оценочные оценки GLS, или EGLS, оценки) как для коэффициентов регрессии, так и для их стандартных ошибок. Эти оценщики используют пересмотренные формулы, которые явно включают ковариационную матрицу инноваций. Сложность использования оценок FGLS на практике заключается в обеспечении точной оценки ковариации. Опять же, используются различные модели, которые оцениваются по остаточным рядам, но численные чувствительности часто создают проблемы.

Первым шагом в идентификации соответствующей ковариационной модели является изучение остаточного ряда из начальной регрессии ОЛС. Анализы этого типа представлены в примере Регрессия временного ряда VI: Остаточная диагностика. Основываясь на очевидной гетероскедастичности в графике необработанных остатков, выше диагональная ковариационная модель, такая как 'HC1' для опции 'innovModel' параметр в fgls, является разумным выбором:

fgls(DataTable,'innovMdl','HC1','display','final');

OLS Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0160  0.0529 
 X1    | 1.9171  0.0411 
 X2    | 3.0239  0.0502 
 X3    | 4.0220  0.0478 

FGLS Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0117  0.0068 
 X1    | 1.9166  0.0062 
 X2    | 3.0256  0.0072 
 X3    | 4.0170  0.0067

Оценки коэффициентов аналогичны оценкам для ОЛС, но стандартные ошибки значительно снижены.

Чтобы рассмотреть эффекты автокорреляции в остатках и определить соответствующий порядок запаздывания для модели AR ковариации, полезны графики автокорреляции:

figure
subplot(2,1,1)
autocorr(res)
subplot(2,1,2)
parcorr(res)

Figure contains 2 axes. Axes 1 with title Sample Autocorrelation Function contains 4 objects of type stem, line. Axes 2 with title Sample Partial Autocorrelation Function contains 4 objects of type stem, line.

Графики не показывают никаких доказательств значительной автокорреляции. Как и ранее, автокорреляция, по-видимому, скрыта гетероскедастичностью. Тесты гипотез, такие как Q-тест Ljung-Box, одинаково неэффективны при обнаружении автокорреляции в DGP. Эта ситуация типична на практике и указывает на сложность определения точной модели ковариации инноваций.

Авторегрессионные ковариационные модели используют 'AR' для опции 'innovModel' параметр в fgls. Однако без доказательств конкретного порядка запаздывания для модели это включает в себя выбор другого «параметра неприятности»:

numLags = 5; % Consider models with up to this many AR lags.
numCoeffs = 4;
coeffs = zeros(numLags,numCoeffs);
ses = zeros(numLags,numCoeffs);
for lag = 1:numLags
    [coeff,se] = fgls(DataTable,'innovMdl','AR','arLags',lag);
    coeffs(lag,:) = coeff';
    ses(lag,:) = se';
end

figure
plot(coeffs,'o-','LineWidth',2)
set(gca,'XTick',1:numLags)
xlabel('AR Lag')
legend({'Const','X1','X2','X3'})
title('{\bf Coefficients}')
grid on

$Figure contains an axes. The axes with title {\bf Coefficients} contains 4 objects of type line. These objects represent Const, X1, X2, X3.$

figure
plot(ses,'o-','LineWidth',2)
set(gca,'XTick',1:numLags)
xlabel('AR Lag')
legend({'Const','X1','X2','X3'})
title('{\bf Standard Errors}')
grid on

$Figure contains an axes. The axes with title {\bf Standard Errors} contains 4 objects of type line. These objects represent Const, X1, X2, X3.$

Графики показывают незначительное влияние на оценки в диапазоне модельных порядков AR, при этом существенно изменяется только стандартная ошибка оценки перехвата.

Оценка FGLS часто итерируется путем повторного вычисления остатков и, следовательно, оценки ковариации на каждом шаге. Асимптотические распределения FGLS-оценщиков остаются неизменными после первой итерации, но влияние на конечные распределения выборки гораздо менее понятно. numIter в параметре fgls функция обеспечивает механизм для исследования поведения итерируемых оценок FGLS в конкретных случаях:

fgls(DataTable,'numIter',5,'plot',{'coeff','se'});

$Figure contains an axes. The axes with title {\bf Coefficients} contains 12 objects of type line. These objects represent Const, X1, X2, X3.$

$Figure contains an axes. The axes with title {\bf Standard Errors} contains 12 objects of type line. These objects represent Const, X1, X2, X3.$

В этом случае модель AR (1) по умолчанию итерируется пять раз. Оценки сходятся после нескольких итераций.

Оценки FGLS смещены, но последовательны и асимптотически более эффективны, чем оценки OLS, когда предикторы слабо зависимы и строго экзогены. Однако без экзогенности предикторов FGLS больше не согласуется в целом (и поэтому не эффективен). Для типа неэкзогенности, представленного в моделировании, нет вреда для непротиворечивости оценщика.

Оценки FGLS имеют долгую историю в эконометрике. Ранние вычислительные методы, как процедура Кокрейна-Оркутта и её варианты (Праис-Уинстен, Хатанака, Хильдрет-Лу и др.), использовали методы ОЛС для оценки параметров в ковариационных моделях (обычно AR (1) или AR (2)). Современные оценки FGLS, такие какfgls, использовать асимптотически более эффективный метод оценки максимального правдоподобия (MLE) для вычисления параметров модели, но общий подход тот же.

Резюме

Когда регрессионная модель «не указана» в отношении допущений CLM, и остаточный ряд демонстрирует несферическое поведение, HAC и FGLS оценки могут быть полезными инструментами для оценки надежности коэффициентов модели. Как показывает этот пример, ни один из подходов не имеет ограничений в конечных образцах. Полезно помнить, что оценки FGLS требуют строго экзогенных регрессоров и конкретных моделей ковариации инноваций, чтобы обеспечить надежные результаты. Оценщики HAC требуют гораздо меньше начальной диагностической информации, но часто обеспечивают сравнительно меньшую точность. В целом, как и в большинстве эконометрических анализов, в рамках более всеобъемлющего обзора чувствительности оценщиков следует использовать несколько методов. hac и fgls интерфейсы в Econometrics Toolbox обеспечивают гибкие рамки для проведения этих исследований.

Ссылки

[1] Эндрюс, Д. В. К. «Оценка гетероскедастичности и автокорреляционной согласованной ковариационной матрицы». Эконометрика. Том 59, 1991, стр. 817-858.

[2] Эндрюс, Д. В. К. и Дж. К. Монохан. «Улучшенная гетероскедастичность и согласованная ковариационная матричная оценка автокорреляции». Эконометрика. Том 60, 1992, стр. 953-966.

[3] Бокс, Джордж Э. П., Гвилим М. Дженкинс и Грегори К. Рейнсель. Анализ временных рядов: прогнозирование и контроль. 3-й ред. Энглвуд Клиффс, Нью-Джерси: Прентис Холл, 1994.

[4] Дэвидсон, Р. и Дж. Г. Маккиннон. Эконометрическая теория и методы. Оксфорд, Великобритания: Oxford University Press, 2004.

[5] Грин, Уильям. Н. Эконометрический анализ. 6-я ред. Верхняя Седлая Река, Нью-Джерси: Прентис Холл, 2008.

[6] Гамильтон, Джеймс Д. Анализ временных рядов. Принстон, Нью-Джерси: Princeton University Press, 1994.

[7] Судья, Г. Г., В. Э. Гриффитс, Р. К. Хилл, Х. Lϋtkepohl и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.

Документация