Этот пример показывает, как оценить множественные модели линейной регрессии данных временных рядов в присутствии гетероскедастических или автокоррелированных (несферических) инноваций. Он является десятым в серии примеров регрессии временных рядов после представления в предыдущих примерах.
Множественные модели линейной регрессии часто определяются с помощью инновационного процесса, который, как известно, является либо гетероскедастическим, либо автокоррелированным (несферическим). Если другие условия регулярности классической линейной модели (Classical Linear Model, CLM) продолжают сохраняться (см. пример Регрессия временных рядов I: Linear Models), оценки коэффициентов регрессии обычных наименьших квадратов (OLS) остаются несмещенными, последовательными и, если нововведения нормально распределены, асимптотически нормальными. Однако оценки более не эффективны относительно других оценщиков, и t и F тесты больше не действительны, даже асимптотически, потому что стандартные формулы дисперсии оценщика становятся смещенными. В результате значение оценок коэффициентов ОЛС искажается (см. пример Регрессия временного ряда VI: Остаточная диагностика).
Обычным назначением для таких случаев является повторное определение модели, выбор альтернативных предикторов для минимизации несферических характеристик в остатках. Однако это не всегда практично. Предикторы часто выбираются на основе теории, политики или доступных данных, и альтернативы могут быть ограничены. Запаздывающие предикторы, используемые для учета автокорреляций, вводят дополнительные проблемы (см. пример Регрессия временного ряда VIII: запаздывающие переменные и смещение оценщика). Этот пример исследует два подхода, которые признают наличие несферичности, и соответственно пересматривают процедуры оценки ОЛС.
Первый подход заключается в использовании оценок стандартных ошибок OLS, согласующихся с гетероскедастичностью и автокорреляцией (HAC). Оценки коэффициентов ОЛС неизменны, но тесты их значимости становятся более достоверными. Различные типы оценок HAC реализованы функцией Econometrics Toolbox hac.
Второй подход изменяет оценки коэффициентов ОЛС путем явного включения информации об инновационной ковариационной матрице более общей формы, чем . Это известно как обобщенные наименьшие квадраты (GLS), и для известной инновационной ковариационной матрицы, любой формы, она реализуется функцией Toolbox™ статистики и машинного обучения lscov. К сожалению, форма ковариационной матрицы инноваций редко известна на практике. Функция панели инструментов Econometrics fgls реализует процедуру выполнимых обобщенных наименьших квадратов (FGLS), которая оценивает инновационную ковариационную матрицу с использованием указанных моделей, перед применением GLS для получения коэффициентов регрессии и их стандартных ошибок.
Чтобы продемонстрировать, мы моделируем процесс генерации данных (DGP) с известными коэффициентами регрессии (1, 2, 3, 4) в паре с известным процессом несферических инноваций. Как типично для эконометрических моделей, нововведения включают некоторую степень как гетероскедастичности, так и автокорреляции. Целью регрессионного анализа является как можно более точное восстановление коэффициентов из смоделированных данных.
% Simulate data: numObs = 50; % Number of observations rng(0); % Reset random number generators X = randn(numObs,3); % 3 random predictors % Simulate innovations: var = 0.1; phi = [0.5,0.3]; % Autocorrelation coefficients e = simulate(arima('Constant',0,'AR',phi,'Variance',var),numObs); e = X(:,1).*e; % Heteroscedasticity proportional to first predictor % Simulate response: b = [1;2;3;4]; % Regression coefficients, including intercept y = [ones(numObs,1),X]*b + e; % Store data: DataTable = array2table([X,y],'VariableNames',{'X1','X2','X3','Y'});
Предикторы в моделировании не являются экзогенными для модели, поскольку нововведения определены как произведение первого предиктора и процесса AR (2). Это поддерживает современную нерекореляцию между предикторами и нововведениями (без линейных отношений между ними), но дисперсии коррелируются.
Сначала мы оцениваем коэффициенты и стандартные ошибки, используя формулы OLS на основе допущений CLM:
OLSModel = fitlm(DataTable)
OLSModel =
Linear regression model:
Y ~ 1 + X1 + X2 + X3
Estimated Coefficients:
Estimate SE tStat pValue
________ ________ ______ __________
(Intercept) 1.016 0.05289 19.21 1.3187e-23
X1 1.9171 0.041097 46.649 2.1891e-40
X2 3.0239 0.050195 60.243 2.0541e-45
X3 4.022 0.047813 84.12 5.044e-52
Number of observations: 50, Error degrees of freedom: 46
Root Mean Squared Error: 0.359
R-squared: 0.997, Adjusted R-Squared: 0.996
F-statistic vs. constant model: 4.38e+03, p-value = 1.62e-56
Оценки OLS аппроксимируют коэффициенты в DGP, и статистика t кажется очень значимой.
Остаточный ряд, однако, отображает как гетероскедастичность, так и автокорреляцию (которую только при моделировании можно сравнить непосредственно с нововведениями):
res = OLSModel.Residuals.Raw; figure hold on plot(e,'bo-','LineWidth',2) plot(res,'mo-','LineWidth',2) hold off legend({'Innovations','OLS Residuals'}) title('{\bf Nonspherical Innovations}') grid on

Оценщики HAC предназначены для коррекции смещения в вычислении стандартной ошибки OLS, введенном несферическими инновациями, и, таким образом, обеспечивают более надежную настройку для вывода относительно значимости коэффициентов OLS. Преимущество HAC-оценщиков состоит в том, что они не требуют детального знания природы гетероскедастичности или автокорреляции в нововведениях для вычисления согласованных оценок стандартных ошибок.
Оценки HAC с использованием ядра квадратичного спектра (QS) достигают оптимальной скорости согласованности [1]:
hac(DataTable,'weights','QS','display','full');
Estimator type: HAC
Estimation method: QS
Bandwidth: 2.9266
Whitening order: 0
Effective sample size: 50
Small sample correction: on
Coefficient Estimates:
| Coeff SE
------------------------
Const | 1.0160 0.0466
X1 | 1.9171 0.0628
X2 | 3.0239 0.0569
X3 | 4.0220 0.0296
Coefficient Covariances:
| Const X1 X2 X3
--------------------------------------------
Const | 0.0022 0.0007 -0.0005 -0.0004
X1 | 0.0007 0.0039 -0.0011 -0.0002
X2 | -0.0005 -0.0011 0.0032 0.0004
X3 | -0.0004 -0.0002 0.0004 0.0009
Размер стандартных ошибок, а значит и достоверность оценок коэффициента ОЛС, изменяется относительно вычисления ОЛС выше. Хотя положительные автокорреляции, типичные для экономических данных, имеют тенденцию вызывать смещение вниз в стандартных ошибках ОЛС, эффект может быть скрыт в конечных образцах и наличием гетероскедастичности. Здесь некоторые стандартные ошибки увеличиваются в оценках HAC, а другие уменьшаются.
Существует много моделей гетероскедастичности и автокорреляции, встроенных в hac рамки. Тщательный анализ надежности стандартных ошибок коэффициентов предполагает использование нескольких моделей с различными настройками для соответствующих параметров. См., например, [1].
[1] рекомендует предварять оценки HAC для уменьшения смещения. Процедура имеет тенденцию увеличивать дисперсию оценщика и среднеквадратичную ошибку, но может улучшить вероятности покрытия доверительного интервала и уменьшить чрезмерное отклонение статистики t. Процедура реализуется через 'whiten' параметр hac, но он включает «параметр неприятности» (порядок модели VAR), который должен быть исследован на чувствительность:
for order = 0:3 [~,se] = hac(DataTable,'weights','QS','whiten',order,'display','off') end
se = 4×1
0.0466
0.0628
0.0569
0.0296
se = 4×1
0.0553
0.0801
0.0612
0.0347
se = 4×1
0.1082
0.1486
0.1795
0.0390
se = 4×1
0.1153
0.1337
0.1827
0.0361
Модель 0-го порядка обходит фильтр предварительного отбеливания для получения тех же результатов, что и ранее. Расширение и затягивание стандартных интервалов ошибок при различных порядках отбеливания иллюстрирует практические трудности настройки и интерпретации процедуры.
Альтернативой оценщикам HAC являются оценки FGLS (также известные как оценочные оценки GLS, или EGLS, оценки) как для коэффициентов регрессии, так и для их стандартных ошибок. Эти оценщики используют пересмотренные формулы, которые явно включают ковариационную матрицу инноваций. Сложность использования оценок FGLS на практике заключается в обеспечении точной оценки ковариации. Опять же, используются различные модели, которые оцениваются по остаточным рядам, но численные чувствительности часто создают проблемы.
Первым шагом в идентификации соответствующей ковариационной модели является изучение остаточного ряда из начальной регрессии ОЛС. Анализы этого типа представлены в примере Регрессия временного ряда VI: Остаточная диагностика. Основываясь на очевидной гетероскедастичности в графике необработанных остатков, выше диагональная ковариационная модель, такая как 'HC1' для опции 'innovModel' параметр в fgls, является разумным выбором:
fgls(DataTable,'innovMdl','HC1','display','final');
OLS Estimates:
| Coeff SE
------------------------
Const | 1.0160 0.0529
X1 | 1.9171 0.0411
X2 | 3.0239 0.0502
X3 | 4.0220 0.0478
FGLS Estimates:
| Coeff SE
------------------------
Const | 1.0117 0.0068
X1 | 1.9166 0.0062
X2 | 3.0256 0.0072
X3 | 4.0170 0.0067
Оценки коэффициентов аналогичны оценкам для ОЛС, но стандартные ошибки значительно снижены.
Чтобы рассмотреть эффекты автокорреляции в остатках и определить соответствующий порядок запаздывания для модели AR ковариации, полезны графики автокорреляции:
figure subplot(2,1,1) autocorr(res) subplot(2,1,2) parcorr(res)

Графики не показывают никаких доказательств значительной автокорреляции. Как и ранее, автокорреляция, по-видимому, скрыта гетероскедастичностью. Тесты гипотез, такие как Q-тест Ljung-Box, одинаково неэффективны при обнаружении автокорреляции в DGP. Эта ситуация типична на практике и указывает на сложность определения точной модели ковариации инноваций.
Авторегрессионные ковариационные модели используют 'AR' для опции 'innovModel' параметр в fgls. Однако без доказательств конкретного порядка запаздывания для модели это включает в себя выбор другого «параметра неприятности»:
numLags = 5; % Consider models with up to this many AR lags. numCoeffs = 4; coeffs = zeros(numLags,numCoeffs); ses = zeros(numLags,numCoeffs); for lag = 1:numLags [coeff,se] = fgls(DataTable,'innovMdl','AR','arLags',lag); coeffs(lag,:) = coeff'; ses(lag,:) = se'; end figure plot(coeffs,'o-','LineWidth',2) set(gca,'XTick',1:numLags) xlabel('AR Lag') legend({'Const','X1','X2','X3'}) title('{\bf Coefficients}') grid on

figure plot(ses,'o-','LineWidth',2) set(gca,'XTick',1:numLags) xlabel('AR Lag') legend({'Const','X1','X2','X3'}) title('{\bf Standard Errors}') grid on

Графики показывают незначительное влияние на оценки в диапазоне модельных порядков AR, при этом существенно изменяется только стандартная ошибка оценки перехвата.
Оценка FGLS часто итерируется путем повторного вычисления остатков и, следовательно, оценки ковариации на каждом шаге. Асимптотические распределения FGLS-оценщиков остаются неизменными после первой итерации, но влияние на конечные распределения выборки гораздо менее понятно. numIter в параметре fgls функция обеспечивает механизм для исследования поведения итерируемых оценок FGLS в конкретных случаях:
fgls(DataTable,'numIter',5,'plot',{'coeff','se'});


В этом случае модель AR (1) по умолчанию итерируется пять раз. Оценки сходятся после нескольких итераций.
Оценки FGLS смещены, но последовательны и асимптотически более эффективны, чем оценки OLS, когда предикторы слабо зависимы и строго экзогены. Однако без экзогенности предикторов FGLS больше не согласуется в целом (и поэтому не эффективен). Для типа неэкзогенности, представленного в моделировании, нет вреда для непротиворечивости оценщика.
Оценки FGLS имеют долгую историю в эконометрике. Ранние вычислительные методы, как процедура Кокрейна-Оркутта и её варианты (Праис-Уинстен, Хатанака, Хильдрет-Лу и др.), использовали методы ОЛС для оценки параметров в ковариационных моделях (обычно AR (1) или AR (2)). Современные оценки FGLS, такие какfgls, использовать асимптотически более эффективный метод оценки максимального правдоподобия (MLE) для вычисления параметров модели, но общий подход тот же.
Когда регрессионная модель «не указана» в отношении допущений CLM, и остаточный ряд демонстрирует несферическое поведение, HAC и FGLS оценки могут быть полезными инструментами для оценки надежности коэффициентов модели. Как показывает этот пример, ни один из подходов не имеет ограничений в конечных образцах. Полезно помнить, что оценки FGLS требуют строго экзогенных регрессоров и конкретных моделей ковариации инноваций, чтобы обеспечить надежные результаты. Оценщики HAC требуют гораздо меньше начальной диагностической информации, но часто обеспечивают сравнительно меньшую точность. В целом, как и в большинстве эконометрических анализов, в рамках более всеобъемлющего обзора чувствительности оценщиков следует использовать несколько методов. hac и fgls интерфейсы в Econometrics Toolbox обеспечивают гибкие рамки для проведения этих исследований.
[1] Эндрюс, Д. В. К. «Оценка гетероскедастичности и автокорреляционной согласованной ковариационной матрицы». Эконометрика. Том 59, 1991, стр. 817-858.
[2] Эндрюс, Д. В. К. и Дж. К. Монохан. «Улучшенная гетероскедастичность и согласованная ковариационная матричная оценка автокорреляции». Эконометрика. Том 60, 1992, стр. 953-966.
[3] Бокс, Джордж Э. П., Гвилим М. Дженкинс и Грегори К. Рейнсель. Анализ временных рядов: прогнозирование и контроль. 3-й ред. Энглвуд Клиффс, Нью-Джерси: Прентис Холл, 1994.
[4] Дэвидсон, Р. и Дж. Г. Маккиннон. Эконометрическая теория и методы. Оксфорд, Великобритания: Oxford University Press, 2004.
[5] Грин, Уильям. Н. Эконометрический анализ. 6-я ред. Верхняя Седлая Река, Нью-Джерси: Прентис Холл, 2008.
[6] Гамильтон, Джеймс Д. Анализ временных рядов. Принстон, Нью-Джерси: Princeton University Press, 1994.
[7] Судья, Г. Г., В. Э. Гриффитс, Р. К. Хилл, Х. Lϋtkepohl и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.