Регрессия временных рядов X: обобщенные оценки методом наименьших квадратов и HAC

Этот пример показывает, как оценить несколько линейных регрессионых моделей данных временных рядов в присутствии гетероскедастических или автокоррелированных (несферических) инноваций. Это десятый в серии примеров по регрессии временных рядов, после представления в предыдущих примерах.

Введение

Множественные линейные регрессионые модели часто задаются инновационным процессом, который, как известно, является гетероскедастическим или автокоррелированным (несферическим). Если другие условия регулярности классической линейной модели (CLM) продолжают удерживать (см. пример Регрессия временных рядов I: Линейные модели), обычные оценки коэффициентов регрессии методом наименьших квадратов (OLS) остаются объективными, последовательными и, если нововведения нормально распределены, асимптотически нормальными. Однако оценки более не эффективны, по сравнению с другими оценщиками, и t и F тесты больше не действительны, даже бессимптотически, потому что стандартные формулы для отклонения оценщика становятся смещенными. В результате значимость оценок коэффициентов OLS искажается (см. Пример Регрессия временных рядов VI: Остаточная диагностика).

Обычным рецептом для таких случаев является уважение модели, выбор альтернативных предикторов для минимизации несферических характеристик в невязках. Однако это не всегда практично. Предикторы часто выбираются на основе теории, политики или доступных данных, и альтернативы могут быть ограничены. Отстающие предикторы, используемые для учета автокорреляций, вводят дополнительные задачи (см. Пример Регрессия временных рядов VIII: Задержки переменных и смещение оценщика). Этот пример исследует два подхода, которые признают наличие несферичности и соответствующим образом пересматривают процедуры оценки OLS.

Первый подход заключается в использовании оценок стандартных ошибок OLS, согласующихся с гетероскедастичностью и автокорреляцией (HAC). Оценки коэффициентов OLS не изменяются, но тесты их значимости становятся более надежными. Различные типы оценок HAC реализуются функцией Econometrics Toolbox hac.

Второй подход изменяет оценки коэффициентов OLS, путем явного включения информации о инновационной ковариационной матрице более общей формы, чем σ2I. Это известно как Обобщенные Наименьшие Квадраты (GLS), и для известной инновационной ковариационной матрицы любой формы, это реализовано функцией Statistics and Machine Learning Toolbox™ lscov. К сожалению, форма ковариационной матрицы инноваций редко известна на практике. Функция тулбокс fgls реализует допустимую обобщенную процедуру методом наименьших квадратов (FGLS), которая оценивает ковариационную матрицу инноваций с использованием заданных моделей перед применением GLS для получения коэффициентов регрессии и их стандартных ошибок.

Несферические инновации

Чтобы продемонстрировать, мы моделируем процесс генерации данных (DGP) с известными коэффициентами регрессии (1, 2, 3, 4), в паре с известным процессом несферических инноваций. Как типично для эконометрических моделей, нововведения включают некоторую степень как гетероскедастичности, так и автокорреляции. Цель регрессионного анализа состоит в том, чтобы восстановить коэффициенты как можно точнее из моделируемых данных.

% Simulate data:
numObs = 50;         % Number of observations
rng(0);              % Reset random number generators
X = randn(numObs,3); % 3 random predictors

% Simulate innovations:
var = 0.1;     
phi = [0.5,0.3];  % Autocorrelation coefficients
e = simulate(arima('Constant',0,'AR',phi,'Variance',var),numObs);
e = X(:,1).*e; % Heteroscedasticity proportional to first predictor

% Simulate response:
b = [1;2;3;4]; % Regression coefficients, including intercept
y = [ones(numObs,1),X]*b + e;

% Store data:
DataTable = array2table([X,y],'VariableNames',{'X1','X2','X3','Y'});

Предикторы в симуляции не являются экзогенными для модели, поскольку нововведения заданы как продукт первого предиктора и AR (2) процесса. Это поддерживает современную некорреляцию между предикторами и нововведениями (нет линейных отношений между ними), но отклонения коррелируются.

Оценки OLS

Сначала мы оцениваем коэффициенты и стандартные ошибки с помощью формул OLS на основе допущений CLM:

OLSModel = fitlm(DataTable)
OLSModel = 
Linear regression model:
    Y ~ 1 + X1 + X2 + X3

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)      1.016      0.05289     19.21    1.3187e-23
    X1              1.9171     0.041097    46.649    2.1891e-40
    X2              3.0239     0.050195    60.243    2.0541e-45
    X3               4.022     0.047813     84.12     5.044e-52


Number of observations: 50, Error degrees of freedom: 46
Root Mean Squared Error: 0.359
R-squared: 0.997,  Adjusted R-Squared: 0.996
F-statistic vs. constant model: 4.38e+03, p-value = 1.62e-56

Оценки OLS аппроксимируют коэффициенты в DGP, и t статистика, по-видимому, весьма значительна.

Остаточный ряд, однако, отображает как гетероскедастичность, так и автокорреляцию (которую, только в симуляции, можно сравнить непосредственно с нововведениями):

res = OLSModel.Residuals.Raw;

figure
hold on
plot(e,'bo-','LineWidth',2)
plot(res,'mo-','LineWidth',2)
hold off
legend({'Innovations','OLS Residuals'})
title('{\bf Nonspherical Innovations}')
grid on

Figure contains an axes. The axes with title {\bf Nonspherical Innovations} contains 2 objects of type line. These objects represent Innovations, OLS Residuals.

Оценки ОВК

Оценки HAC разработаны, чтобы исправить смещение в вычислении стандартной ошибки OLS, введенном несферическими инновациями, и поэтому обеспечивают более устойчивую настройку для вывода относительно значимости коэффициентов OLS. Преимущество оценок HAC заключается в том, что они не требуют подробных знаний о характере гетероскедастичности или автокорреляции в инновациях в порядок вычисления последовательных оценок стандартных ошибок.

Оценки HAC, использующие квадратичное спектральное (QS) ядро, достигают оптимальной скорости консистенции [1]:

hac(DataTable,'weights','QS','display','full');
Estimator type: HAC
Estimation method: QS
Bandwidth: 2.9266
Whitening order: 0
Effective sample size: 50
Small sample correction: on

Coefficient Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0160  0.0466 
 X1    | 1.9171  0.0628 
 X2    | 3.0239  0.0569 
 X3    | 4.0220  0.0296 

Coefficient Covariances:

       |  Const      X1       X2       X3   
--------------------------------------------
 Const |  0.0022   0.0007  -0.0005  -0.0004 
 X1    |  0.0007   0.0039  -0.0011  -0.0002 
 X2    | -0.0005  -0.0011   0.0032   0.0004 
 X3    | -0.0004  -0.0002   0.0004   0.0009 

Размер стандартных ошибок, и, таким образом, надежность оценок коэффициентов OLS, изменяется относительно вычисления OLS, выше. Несмотря на то, что положительные автокорреляции, типичные для экономических данных, имеют тенденцию к смещению вниз при стандартных ошибках OLS, эффект может быть скрыт в конечных выборках, и из-за наличия гетероскедастичности. Здесь некоторые стандартные ошибки увеличиваются в оценках HAC, а другие уменьшаются.

Существует много моделей гетероскедастичности и автокорреляции, встроенных в hac среда. Тщательный анализ надежности стандартных ошибок коэффициентов будет включать использование нескольких моделей с различными настройками для связанных параметров. См., например, [1].

[1] рекомендует предварительное использование оценок HAC для уменьшения смещения. Процедура имеет тенденцию увеличивать дисперсию оценщика и среднюю квадратную ошибку, но может улучшить вероятности покрытия доверительного интервала и уменьшить чрезмерное отклонение t статистика. Процедура реализуется через 'whiten' параметр hac, но это включает в себя «неприятный параметр» (порядок модели VAR), которая должна быть исследована на чувствительность:

for order = 0:3
    [~,se] = hac(DataTable,'weights','QS','whiten',order,'display','off')
end
se = 4×1

    0.0466
    0.0628
    0.0569
    0.0296

se = 4×1

    0.0553
    0.0801
    0.0612
    0.0347

se = 4×1

    0.1082
    0.1486
    0.1795
    0.0390

se = 4×1

    0.1153
    0.1337
    0.1827
    0.0361

Модель 0-порядка обходит фильтр предварительного биения, чтобы предоставить те же результаты, что и ранее. Расширение и ужесточение стандартных интервалов ошибок при различных порядках отбеливания иллюстрируют практические трудности настройки и интерпретации процедуры.

Оценки FGLS

Альтернативой оценщикам HAC являются оценки FGLS (также известные как Предполагаемые GLS, или EGLS, оценки), для обоих коэффициентов регрессии и их стандартных ошибок. Эти оценки используют пересмотренные формулы, которые явно включают инновации ковариации матрицу. Сложность использования оценок FGLS на практике заключается в предоставлении точной оценки ковариации. Снова используются различные модели, которые оцениваются из остаточного ряда, но числовые чувствительности часто создают проблемы.

Первым шагом в идентификации соответствующей ковариационной модели является изучение остаточного ряда из начальной регрессии OLS. Анализы этого типа приведены в примере Регрессия временных рядов VI: Остаточная диагностика. Основываясь на очевидной гетероскедастичности в графике необработанных невязок, выше, диагональная ковариационная модель, такая как 'HC1' опция для 'innovModel' параметр в fgls, является разумным выбором:

fgls(DataTable,'innovMdl','HC1','display','final');
OLS Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0160  0.0529 
 X1    | 1.9171  0.0411 
 X2    | 3.0239  0.0502 
 X3    | 4.0220  0.0478 

FGLS Estimates:

       |  Coeff    SE   
------------------------
 Const | 1.0117  0.0068 
 X1    | 1.9166  0.0062 
 X2    | 3.0256  0.0072 
 X3    | 4.0170  0.0067 

Оценки коэффициентов аналогичны оценкам для OLS, но стандартные ошибки значительно уменьшаются.

Чтобы рассмотреть эффекты автокорреляции в невязки и идентифицировать соответствующий порядок задержки для AR- модели ковариации, автокорреляционные графики полезны:

figure
subplot(2,1,1)
autocorr(res)
subplot(2,1,2)
parcorr(res)

Figure contains 2 axes. Axes 1 with title Sample Autocorrelation Function contains 4 objects of type stem, line. Axes 2 with title Sample Partial Autocorrelation Function contains 4 objects of type stem, line.

Графики не показывают признаков значительной автокорреляции. Как и прежде, автокорреляция, по-видимому, заслоняется гетероскедастичностью. Гипотезные тесты, такие как Q-тест Ljung-Box, одинаково неэффективны в обнаружении автокорреляции в DGP. Эта ситуация типична на практике и указывает на сложность определения точной модели ковариации инноваций.

Авторегрессивные ковариационные модели используют 'AR' опция для 'innovModel' параметр в fgls. Однако без доказательств определенного порядка задержки для модели, это предполагает выбор другого «неприятного параметра»:

numLags = 5; % Consider models with up to this many AR lags.
numCoeffs = 4;
coeffs = zeros(numLags,numCoeffs);
ses = zeros(numLags,numCoeffs);
for lag = 1:numLags
    [coeff,se] = fgls(DataTable,'innovMdl','AR','arLags',lag);
    coeffs(lag,:) = coeff';
    ses(lag,:) = se';
end

figure
plot(coeffs,'o-','LineWidth',2)
set(gca,'XTick',1:numLags)
xlabel('AR Lag')
legend({'Const','X1','X2','X3'})
title('{\bf Coefficients}')
grid on

Figure contains an axes. The axes with title {\bf Coefficients} contains 4 objects of type line. These objects represent Const, X1, X2, X3.

figure
plot(ses,'o-','LineWidth',2)
set(gca,'XTick',1:numLags)
xlabel('AR Lag')
legend({'Const','X1','X2','X3'})
title('{\bf Standard Errors}')
grid on

Figure contains an axes. The axes with title {\bf Standard Errors} contains 4 objects of type line. These objects represent Const, X1, X2, X3.

Графики показывают мало эффект на оценки в области значений заказов модели AR, при этом значительно изменяется только стандартная ошибка оценки точки пересечения.

Оценка FGLS часто итератируется путем пересчета невязок и, таким образом, ковариационной оценки на каждом шаге. Асимптотические распределения оценок FGLS не изменяются после первой итерации, но эффект на конечных распределениях выборки гораздо менее понятен. The numIter параметр в fgls функция предоставляет механизм исследования поведения итератированных оценок FGLS в конкретных случаях:

fgls(DataTable,'numIter',5,'plot',{'coeff','se'});

Figure contains an axes. The axes with title {\bf Coefficients} contains 12 objects of type line. These objects represent Const, X1, X2, X3.

Figure contains an axes. The axes with title {\bf Standard Errors} contains 12 objects of type line. These objects represent Const, X1, X2, X3.

В этом случае модель AR (1) по умолчанию повторяется пять раз. Оценки сходятся всего после нескольких итераций.

Оценки FGLS являются смещенными, но последовательными и асимптотически более эффективными, чем оценки OLS, когда предикторы слабо зависимы и строго экзогенны. Однако без экзогенности предикторов FGLS больше не является последовательным, в целом (и так не эффективным). Для типа несогласованности, представленного в симуляции, нет никакого вреда для согласованности оценки.

Оценки FGLS имеют долгую историю в эконометрике. Ранние вычислительные методы, такие как процедура Кокрана-Оркатта и её варианты (Prais-Winsten, Hatanaka, Hildreth-Lu и др.), использовали методы OLS для оценки параметров в ковариационных моделях (обычно, AR (1) или AR (2)). Современные оценки FGLS, такие как fgls, используйте асимптотически более эффективный метод максимальной оценки правдоподобия (MLE) для вычисления параметров модели, но общий подход одинаковый.

Сводные данные

Когда регрессионная модель «определена» относительно допущений CLM, и остаточный ряд показывает несферическое поведение, оценки HAC и FGLS могут быть полезными инструментами при оценке надежности коэффициентов модели. Как демонстрирует этот пример, ни один из подходов не является без его ограничений в конечных выборках. Полезно помнить, что для оценки FGLS требуются строго экзогенные регрессоры и конкретные модели ковариации инноваций, порядка обеспечить надежные результаты. Оценщики HAC требуют гораздо меньшей начальной диагностической информации, но часто обеспечивают сопоставимо сниженную точность. В целом, как и в большинстве эконометрических анализов, в рамках более комплексного обзора чувствительности оценщика следует использовать несколько методов. The hac и fgls интерфейсы в Econometrics Toolbox обеспечивают гибкие среды для проведения этих исследований.

Ссылки

[1] Эндрюс, Д. У. К. «Оценка гетероскедастичности и автокорреляции по ковариационной матрице». Эконометрика. Том 59, 1991, с. 817-858.

[2] Эндрюс, Д. У. К. и Дж. К. Монохан. «Улучшенная оценка гетероскедастичности и автокорреляции, согласованная с ковариационной матрицей». Эконометрика. Том 60, 1992, стр. 953-966.

[3] Box, George E. P., Gwilym M. Jenkins, and Gregory C. Reinsel. Анализ временных рядов: прогнозирование и управление. 3-й эд. Englewood Cliffs, Нью-Джерси: Prentice Hall, 1994.

[4] Davidson, R., and J. G. MacKinnon. Эконометрическая теория и методы. Оксфорд, Великобритания: Oxford University Press, 2004.

[5] Грин, Уильям. H. Эконометрический анализ. 6th ed. Upper Saddle River, NJ: Prentice Hall, 2008.

[6] Гамильтон, Джеймс Д. Анализ временных рядов. Princeton, NJ: Princeton University Press, 1994.

[7] Судья, Г. Г., У. Э. Гриффитс, Р. К. Хилл, Х. Лткепол и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.