Этот пример показывает, как оценить несколько моделей линейной регрессии данных временных рядов в присутствии heteroscedastic или автокоррелировал (несферические) инновации. Это является десятым в серии примеров на регрессии временных рядов, после представления в предыдущих примерах.
Несколько моделей линейной регрессии часто задаются с инновационным процессом, который, как известно, является или heteroscedastic или автокоррелируется (несферический). Если другие условия регулярности Классической линейной модели (CLM) продолжают содержать (см. пример на "Линейных Моделях"), оценки обычных наименьших квадратов (OLS) коэффициентов регрессии остаются несмещенными, сопоставимыми, и, если инновации нормально распределены, асимптотически нормальны. Однако оценки более не эффективны относительно других средств оценки, и и тесты больше не действительны, даже асимптотически, потому что стандартные формулы для отклонения средства оценки становятся смещенными. В результате значение содействующих оценок OLS искажено (см. пример на "Остаточной Диагностике").
Обычное предписание для таких случаев должно повторно задать модель, выбрав альтернативные предикторы, чтобы минимизировать несферические характеристики в невязках. Однако это не всегда практично. Предикторы часто выбираются на основе теории, политики или доступных данных, и альтернативы могут быть ограничены. Изолированные предикторы, используемые, чтобы составлять автокорреляции, вводят дополнительные проблемы (см. пример на "Изолированных Переменных и Смещении Средства оценки"). Этот пример исследует два подхода, которые подтверждают присутствие nonsphericality и пересматривают процедуры оценки OLS соответственно.
Первый подход должен использовать heteroscedasticity и автокорреляцию сопоставимые оценки (HAC) стандартных погрешностей OLS. Содействующие оценки OLS неизменны, но тесты их значения становятся более надежными. Различные типы средств оценки HAC реализованы функцией Econometrics Toolbox hac
.
Второй подход изменяет содействующие оценки OLS путем явного слияния информации об инновационной ковариационной матрице более общей формы, чем . Это известно как Обобщенные наименьшие квадраты (GLS), и для известной инновационной ковариационной матрицы, любой формы, они реализованы функцией Statistics and Machine Learning Toolbox™ lscov
. К сожалению, форма инновационной ковариационной матрицы редко известна на практике. fgls
функции тулбокса Эконометрики реализует процедуру Выполнимых обобщенных наименьших квадратов (FGLS), которая оценивает инновационную ковариационную матрицу с помощью заданных моделей, прежде, чем применить GLS, чтобы получить коэффициенты регрессии и их стандартные погрешности.
Чтобы продемонстрировать, мы моделируем генерирующий данные процесс (DGP) с известными коэффициентами регрессии (1, 2, 3, 4), соединенный с известным несферическим инновационным процессом. Как типично с эконометрическими моделями, инновации включают определенную степень и heteroscedasticity и автокорреляции. Цель регрессионного анализа состоит в том, чтобы восстановить коэффициенты максимально точно от моделируемых данных.
% Simulate data: numObs = 50; % Number of observations rng(0); % Reset random number generators X = randn(numObs,3); % 3 random predictors % Simulate innovations: var = 0.1; phi = [0.5,0.3]; % Autocorrelation coefficients e = simulate(arima('Constant',0,'AR',phi,'Variance',var),numObs); e = X(:,1).*e; % Heteroscedasticity proportional to first predictor % Simulate response: b = [1;2;3;4]; % Regression coefficients, including intercept y = [ones(numObs,1),X]*b + e; % Store data: DataTable = array2table([X,y],'VariableNames',{'X1','X2','X3','Y'});
Предикторы в симуляции не являются внешними к модели, поскольку инновации заданы как продукт первого предиктора и AR (2) процесс. Это поддерживает одновременную некорреляцию между предикторами и инновациями (никакие линейные отношения между ними), но отклонения коррелируются.
Мы сначала оцениваем коэффициенты и стандартные погрешности с помощью формул OLS на основе предположений CLM:
OLSModel = fitlm(DataTable)
OLSModel = Linear regression model: Y ~ 1 + X1 + X2 + X3 Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 1.016 0.05289 19.21 1.3187e-23 X1 1.9171 0.041097 46.649 2.1891e-40 X2 3.0239 0.050195 60.243 2.0541e-45 X3 4.022 0.047813 84.12 5.044e-52 Number of observations: 50, Error degrees of freedom: 46 Root Mean Squared Error: 0.359 R-squared: 0.997, Adjusted R-Squared: 0.996 F-statistic vs. constant model: 4.38e+03, p-value = 1.62e-56
Оценки OLS аппроксимируют коэффициенты в DGP, и статистические данные, кажется, являются очень значительными.
Остаточный ряд, однако, отображения и heteroscedasticity и автокорреляция (который, в симуляции только, может быть сравнен непосредственно с инновациями):
res = OLSModel.Residuals.Raw; figure hold on plot(e,'bo-','LineWidth',2) plot(res,'mo-','LineWidth',2) hold off legend({'Innovations','OLS Residuals'}) title('{\bf Nonspherical Innovations}') grid on
Средства оценки HAC разработаны, чтобы исправить для смещения в вычислении стандартной погрешности OLS, введенном несферическими инновациями, и тем самым обеспечить более устойчивую установку для вывода относительно значения коэффициентов OLS. Преимущество средств оценки HAC состоит в том, что они не требуют детального знания природы heteroscedasticity или автокорреляции в инновациях в порядке вычислить сопоставимые оценки стандартных погрешностей.
Оценки HAC с помощью ядра квадратичного спектрального (QS) достигают оптимального уровня непротиворечивости [1]:
hac(DataTable,'weights','QS','display','full');
Estimator type: HAC Estimation method: QS Bandwidth: 2.9266 Whitening order: 0 Effective sample size: 50 Small sample correction: on Coefficient Estimates: | Coeff SE ------------------------ Const | 1.0160 0.0466 X1 | 1.9171 0.0628 X2 | 3.0239 0.0569 X3 | 4.0220 0.0296 Coefficient Covariances: | Const X1 X2 X3 -------------------------------------------- Const | 0.0022 0.0007 -0.0005 -0.0004 X1 | 0.0007 0.0039 -0.0011 -0.0002 X2 | -0.0005 -0.0011 0.0032 0.0004 X3 | -0.0004 -0.0002 0.0004 0.0009
Размер стандартных погрешностей, и таким образом, надежность содействующих оценок OLS, изменяется относительно вычисления OLS, выше. Несмотря на то, что положительные автокорреляции, типичные в экономических данных, имеют тенденцию производить нисходящее смещение в стандартных погрешностях OLS, эффект может быть затенен в конечных выборках, и присутствием heteroscedasticity. Здесь, часть увеличения стандартных погрешностей оценок HAC, и другие уменьшается.
Существует много моделей heteroscedasticity и автокорреляции, встроенной в среду hac
. Полный анализ надежности содействующих стандартных погрешностей включил бы использование нескольких моделей с различными настройками для связанных параметров. Смотрите, например, [1].
[2] рекомендует предварительно белить средства оценки HAC, чтобы уменьшать смещение. Процедура имеет тенденцию увеличивать отклонение средства оценки и среднеквадратическую ошибку, но может улучшить вероятности покрытия доверительного интервала и уменьшать сверхотклонение статистика. Процедура реализована через параметр 'whiten'
hac
, но это включает "параметр неприятности" (порядок модели VAR), который должен быть привлечен по делу о чувствительности:
for order = 0:3 [~,se] = hac(DataTable,'weights','QS','whiten',order,'display','off') end
se = 4×1
0.0466
0.0628
0.0569
0.0296
se = 4×1
0.0553
0.0801
0.0612
0.0347
se = 4×1
0.1082
0.1486
0.1795
0.0390
se = 4×1
0.1153
0.1337
0.1827
0.0361
Модель с 0 порядками обходит фильтр перед отбеливанием, чтобы обеспечить те же результаты как прежде. Расширение и сжатие интервалов стандартной погрешности в различных порядках отбеливания иллюстрируют практические трудности настройки, и интерпретации, процедуры.
Альтернатива средствам оценки HAC является средствами оценки FGLS (также известный как Предполагаемый GLS, или EGLS, средства оценки), для обоих коэффициентов регрессии и их стандартных погрешностей. Эти средства оценки используют пересмотренные формулы, которые явным образом включают инновационную ковариационную матрицу. Трудность использования средств оценки FGLS, на практике, обеспечивает точную оценку ковариации. Снова, различные модели используются и оцениваются от остаточного ряда, но числовая чувствительность часто обеспечивает проблемы.
Первый шаг в идентификации соответствующей модели ковариации должен исследовать остаточный ряд от начальной регрессии OLS. Исследования этого типа обеспечиваются в примере на "Остаточной Диагностике". На основе очевидного heteroscedasticity в графике необработанных невязок, выше, диагональная модель ковариации, таких как опция 'HC1'
для параметра 'innovModel'
в fgls
, является разумным выбором:
fgls(DataTable,'innovMdl','HC1','display','final');
OLS Estimates: | Coeff SE ------------------------ Const | 1.0160 0.0529 X1 | 1.9171 0.0411 X2 | 3.0239 0.0502 X3 | 4.0220 0.0478 FGLS Estimates: | Coeff SE ------------------------ Const | 1.0117 0.0068 X1 | 1.9166 0.0062 X2 | 3.0256 0.0072 X3 | 4.0170 0.0067
Содействующие оценки подобны тем для OLS, но стандартные погрешности значительно уменьшаются.
Чтобы рассмотреть эффекты автокорреляции в невязках и идентифицировать соответствующий порядок задержки для модели AR ковариации, графики автокорреляции полезны:
figure subplot(2,1,1) autocorr(res) subplot(2,1,2) parcorr(res)
Графики не приводят доказательства значительной автокорреляции. Как прежде, автокорреляция, кажется, затенена heteroscedasticity. Тесты гипотезы, такие как Q-тест Ljung-поля, одинаково неэффективны в обнаружении автокорреляции в DGP. Эта ситуация типична на практике и указывает на трудность определения точной модели инновационной ковариации.
Авторегрессивные модели ковариации используют опцию 'AR'
для параметра 'innovModel'
в fgls
. Без доказательства определенного порядка задержки для модели, однако, это включает выбор другого "параметра неприятности":
numLags = 5; % Consider models with up to this many AR lags. numCoeffs = 4; coeffs = zeros(numLags,numCoeffs); ses = zeros(numLags,numCoeffs); for lag = 1:numLags [coeff,se] = fgls(DataTable,'innovMdl','AR','arLags',lag); coeffs(lag,:) = coeff'; ses(lag,:) = se'; end figure plot(coeffs,'o-','LineWidth',2) set(gca,'XTick',1:numLags) xlabel('AR Lag') legend({'Const','X1','X2','X3'}) title('{\bf Coefficients}') grid on
figure plot(ses,'o-','LineWidth',2) set(gca,'XTick',1:numLags) xlabel('AR Lag') legend({'Const','X1','X2','X3'}) title('{\bf Standard Errors}') grid on
Графики показывают, что мало эффекта на оценки через модель AR области значений заказывает только со стандартной погрешностью оценки прерывания, изменяющейся значительно.
Оценка FGLS часто выполняется с помощью итераций, путем перевычисления невязок, и таким образом, оценка ковариации, на каждом шаге. Асимптотические дистрибутивы средств оценки FGLS неизменны после первой итерации, но эффект на конечные демонстрационные дистрибутивы намного менее понят. Параметр numIter
в функции fgls
обеспечивает механизм для исследования поведения выполненных с помощью итераций оценок FGLS в конкретных случаях:
fgls(DataTable,'numIter',5,'plot',{'coeff','se'});
В этом случае модель AR (1) по умолчанию выполнена с помощью итераций пять раз. Оценки сходятся всего после нескольких итераций.
Оценки FGLS смещаются, но сопоставимы, и асимптотически более эффективные, чем оценки OLS, когда предикторы слабо зависят и строго внешние. Без exogeneity предикторов, однако, FGLS более не сопоставим, в целом (и так не эффективный). Для типа non-exogeneity, представленного в симуляции, нет никакого вреда непротиворечивости средства оценки.
Средства оценки FGLS имеют долгую историю в эконометрике. Рано вычислительные методы, как процедура Кокрейна-Оркатта и ее варианты (Prais-Winsten, Hatanaka, Hildreth-лютеций, и т.д.), используемые методы OLS, чтобы оценить параметры в моделях ковариации (обычно, AR (1) или AR (2)). Современные средства оценки FGLS, такие как fgls
, используют асимптотически более эффективный метод оценки наибольшего правдоподобия (MLE), чтобы вычислить параметры модели, но общий подход является тем же самым.
Когда модель регрессии является "misspecified" относительно предположений CLM, и остаточный ряд показывает несферическое поведение, HAC и средства оценки FGLS могут быть полезными инструментами в оценке надежности коэффициентов модели. Как этот пример демонстрирует, никакой подход не без его ограничений в конечных выборках. Полезно помнить, что средства оценки FGLS требуют строго внешних регрессоров и определенных моделей инновационной ковариации, в порядке обеспечить надежные результаты. Средства оценки HAC требуют намного меньшей начальной диагностической информации, но часто обеспечивают сравнительно уменьшаемую точность. В целом, как в большинстве эконометрических исследований, несколько методов должны использоваться в качестве части более всеобъемлющего обзора чувствительности средства оценки. hac
и интерфейсы fgls
в Econometrics Toolbox служат гибкими основами для проведения этих расследований.
[1] Эндрюс, D. W. K. "Heteroskedasticity и Autocorrelation Consistent Covariance Matrix Estimation". Econometrica. v. 59, 1991, стр 817-858.
[2] Эндрюс, D. W. K. и J. C. Моноханьцы. "Улучшенный Heteroskedasticity и Автокорреляция Сопоставимое Средство оценки Ковариационной матрицы". Econometrica. v. 60, 1992, стр 953-966.
[3] Поле, G. E. P. Г. М. Дженкинс и Г. К.Рейнсель. Анализ timeseries: прогнозирование и управляет. Englewood Cliffs, NJ: Prentice Hall, 1994.
[4] Дэвидсон, R. и Дж.Г. Маккиннон. Эконометрическая теория и методы. Оксфорд, Великобритания: Издательство Оксфордского университета, 2004.
[5] Грин, W.H. Эконометрический анализ. Верхний Сэддл-Ривер, NJ: Пирсон Prentice Hall, 2008.
[6] Гамильтон, J. D. Анализ timeseries. Принстон, NJ: Издательство Принстонского университета, 1994.
[7] Судья, Г. Г., В. Э. Гриффитс, Р. К. Хилл, Х. Латкеполь и Т. К. Ли. Теория и практика эконометрики. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1985.