Регрессия VIII временных рядов: запаздывающие переменные и смещение оценщика

Открыть сценарий в реальном времени

Этот пример показывает, как запаздывающие предикторы влияют на оценку наименьших квадратов нескольких моделей линейной регрессии. Он является восьмым в серии примеров регрессии временных рядов после представления в предыдущих примерах.

Введение

Многие эконометрические модели являются динамическими, используя запаздывающие переменные для включения обратной связи во времени. Напротив, статические модели временных рядов представляют системы, которые реагируют исключительно на текущие события.

Запаздывающие переменные бывают нескольких типов:

Распределенные переменные Lag (DL) являются запаздывающими значениями $_{xt-k}$ наблюдаемых экзогенных переменных предиктора $_{xt}$ .
Авторегрессивные (AR) переменные являются запаздывающими значениями $_{yt-k}$ наблюдаемых эндогенных переменных ответа $_{yt}$ .
Переменные скользящего среднего (MA) - это запаздывающие значения $_{et-k}$ ненаблюдаемых процессов стохастических инноваций $_{et}$ .

Динамические модели часто строятся с использованием линейных комбинаций различных типов запаздывающих переменных для создания ARMA, ARDL и других гибридов. Цель моделирования в каждом случае заключается в том, чтобы точно и кратко отразить важные взаимодействия между соответствующими экономическими факторами.

Спецификации динамических моделей задают вопрос: Какие задержки важны? Некоторые модели, например сезонные модели, используют задержки в различных периодах данных. Другие модели основывают свою структуру отставания на теоретических соображениях о том, как и когда экономические агенты реагируют на меняющиеся условия. В целом, структуры запаздывания идентифицируют временную задержку реакции на известные опережающие индикаторы.

Однако запаздывающие структуры должны делать больше, чем просто представлять имеющуюся теорию. Поскольку динамические спецификации создают взаимодействия между переменными, которые могут влиять на стандартные методы регрессии, структуры запаздывания также должны разрабатываться с учетом точной оценки модели.

Вопросы спецификации

Рассмотрим модель множественной линейной регрессии (MLR):

$_{yt} =_{} {Ztβ}_{} +$ et,

где $_{yt}$ является наблюдаемым ответом, $_{Zt}$ включает столбцы для каждой потенциально релевантной переменной предиктора, включая запаздывающие переменные, и $_{et}$ является стохастическим процессом инноваций. Точность оценки коэффициентов в $β$ зависит от составляющих столбцов $_{Zt}$ , а также совместного распределения $_{et}$ . Выбор предикторов для $_{Zt}$ , которые являются как статистически, так и экономически значимыми, обычно включает циклы оценки, остаточного анализа и рефлексии.

Предположения классической линейной модели (CLM), обсуждаемые в примере Регрессия временных рядов I: Линейные модели, позволяют обычным наименьшим квадратам (OLS) производить оценки $β$ с желательными свойствами: несмещенными, последовательными и эффективными относительно других оценщиков. Однако запаздывающие предикторы в $_{Zt}$ могут вводить нарушения допущений CLM. Конкретные нарушения зависят от типов запаздывающих переменных в модели, но наличие механизмов динамической обратной связи, в общем, имеет тенденцию преувеличивать проблемы, связанные со статическими спецификациями.

Вопросы спецификации модели обычно обсуждаются относительно процесса генерации данных (DGP) для переменной yt ответа $_{}$ . Практически, однако, ДГП является теоретической конструкцией, реализуемой только при моделировании. Ни одна модель не фиксирует реальную динамику полностью, и коэффициенты модели в $β$ всегда являются подмножеством коэффициентов в истинном DGP. В результате инновации в $_{et}$ становятся смесью присущей стохастичности процесса и потенциально большого количества опущенных переменных (OV). Автокорреляции в $_{et}$ распространены в эконометрических моделях, где OV проявляют стойкость во времени. Вместо того, чтобы сравнивать модель с теоретическим DGP, более практично оценить, отличалась ли динамика в данных от автокорреляций в остатках или в какой степени.

Первоначально запаздывающие структуры могут включать в себя наблюдения экономических факторов в многократное, близкое время. Однако наблюдения в момент времени t, вероятно, коррелируют с наблюдениями в моменты времени t-1, t-2 и так далее через экономическую инерцию. Таким образом, структура запаздывания может избыточно определять динамику ответа путем включения последовательности запаздывающих предикторов с только незначительным вкладом в DGP. Спецификация завышает последствия прошлого и не накладывает на модель соответствующих ограничений. Расширенные структуры запаздывания также требуют расширенных данных предварительной выборки, уменьшая размер выборки и уменьшая число степеней свободы в процедурах оценки. Следовательно, чрезмерно определенные модели могут демонстрировать выраженные проблемы коллинеарности и высокой дисперсии оценщика. Полученные оценки $β$ имеют низкую точность, и становится трудно разделить отдельные эффекты.

Чтобы уменьшить зависимости предиктора, структуры запаздывания могут быть ограничены. Однако, если ограничения слишком жесткие, возникают другие проблемы оценки. Структура ограниченного запаздывания может недооценивать динамику ответа, исключая предикторы, которые на самом деле являются значительной частью DGP. Это приводит к модели, которая недооценивает последствия прошлой истории, заставляя значительные предикторы в процесс инноваций. Если запаздывающие предикторы в $_{et}$ коррелируют с проксимальными запаздывающими предикторами в $_{Zt}$ , предположение CLM о строгой экзогенности регрессоров нарушается, и оценки OLS $β$ становятся смещенными и противоречивыми.

Конкретные проблемы связаны с различными типами запаздывающих предикторов.

Запаздывающие экзогенные предикторы $_{xt-k сами}$ по себе не нарушают предположения CLM. Однако DL-модели часто описываются, по меньшей мере, первоначально, длинной последовательностью потенциально релевантных лагов, и поэтому страдают от упомянутых выше проблем чрезмерной конкретизации. В примере Регрессия временного ряда IX: Выбор порядка запаздывания обсуждаются обычные, если несколько случайные, методы наложения ограничений на веса запаздывания (то есть коэффициенты в β). Однако в принципе анализ модели DL параллелен анализу статической модели. Еще необходимо изучить вопросы оценки, связанные с коллинеарностью, влиятельными наблюдениями, ложной регрессией, автокоррелированными или гетероскедастическими инновациями и т.д.

Отставшие эндогенные предикторы $_{yt-k}$ более проблематичны. Модели AR вводят нарушения допущений CLM, которые приводят к смещенным оценкам OLS $β$ . Тем не менее, при отсутствии каких-либо других нарушений CLM оценки являются последовательными и относительно эффективными. Рассмотрим простую авторегрессию $_{yt}$ первого порядка на $_{yt-1}$ :

$_{yt} =_{} {βyt-1}_{} +$ et.

В этой модели $_{yt}$ определяется как $_{yt-1}$ , так и $_{et}$ . Сдвигая уравнение назад на один шаг за раз, $_{yt-1}$ определяется как $_{yt-2}$ , так и $_{et-1}$ , $_{yt-2}$ определяется как $_{yt-3}$ , так и $_{et-2}$ и так далее. Транзитивно предиктор $_{yt-1}$ коррелирует со всей предыдущей историей процесса инноваций. Так же, как и при недостаточной конкретизации, нарушается предположение CLM о строгой экзогенности, и оценки OLS $β$ становятся предвзятыми. Поскольку $β$ должен поглощать эффекты каждого $_{et-k}$ , остатки модели больше не представляют истинных инноваций [10].

Проблема усугубляется, когда инновации в модели AR автокоррелируются. Как обсуждалось в примере Регрессия временного ряда VI: Остаточная диагностика, автокоррелированные инновации в отсутствие других нарушений CLM дают несмещенные, если потенциально высокая дисперсия, оценки коэффициентов модели OLS. Главным осложнением в этом случае является то, что обычный оценщик стандартных ошибок коэффициентов становится смещенным. (Эффекты гетероскедастических инноваций схожи, хотя обычно менее выражены.) Однако, если автокоррелированные инновации сочетаются с нарушениями строгой экзогенности, как и те, которые производятся терминами AR, оценки $β$ становятся как предвзятыми, так и непоследовательными.

Если в $_{}$ качестве предикторов используются запаздывающие инновации et-k, то характер процесса оценки коренным образом изменяется, так как нововведения не могут непосредственно наблюдаться. Оценка требует, чтобы члены МА были инвертированы для формирования бесконечных представлений АР, а затем ограничены для получения модели, которая может быть оценена на практике. Поскольку ограничения должны быть наложены во время оценки, требуются методы численной оптимизации, отличные от OLS, такие как оценка максимального правдоподобия (MLE). Модели с терминами MA рассматриваются в примере Регрессия временного ряда IX: Выбор порядка запаздывания.

Моделирование смещения оценщика

Чтобы проиллюстрировать смещение оценщика, введенное запаздывающими эндогенными предикторами, рассмотрим следующий DGP:

$_{yt} =_{}_{} {β0yt-1}_{} +$ et,

$_{et} =_{}_{} {γ 0et-1}_{} +$ δt,

$_{} δt∼N (0,^{} start2$ ).

Мы запускаем два набора повторных моделирования модели Монте-Карло. Первый набор использует нормальные и независимо распределенные (NID) инновации с $_{γ 0} =$ 0. Во втором наборе используются инновации AR (1) $с_{} |$ γ 0 | > 0.

% Build the model components:
beta0 = 0.9;  % AR(1) parameter for y_t
gamma0 = 0.2; % AR(1) parameter for e_t
AR1 = arima('AR',beta0,'Constant',0,'Variance',1);
AR2 = arima('AR',gamma0,'Constant',0,'Variance',1);

% Simulation sample sizes:
T = [10,50,100,500,1000];
numSizes = length(T);

% Run the simulations:
numObs = max(T); % Length of simulation paths
numPaths = 1e4;  % Number of simulation paths
burnIn = 100;    % Initial transient period, to be discarded
sigma = 2.5;     % Standard deviation of the innovations
E0 = sigma*randn(burnIn+numObs,numPaths,2); % NID innovations
E1Full = E0(:,:,1);
Y1Full = filter(AR1,E1Full); % AR(1) process with NID innovations
E2Full = filter(AR2,E0(:,:,2));
Y2Full = filter(AR1,E2Full); % AR(1) process with AR(1) innovations
clear E0

% Extract simulation data, after transient period:
Y1 = Y1Full(burnIn+1:end,:);  % Y1(t)
LY1 = Y1Full(burnIn:end-1,:); % Y1(t-1)
Y2 = Y2Full(burnIn+1:end,:);  % Y2(t)
LY2 = Y2Full(burnIn:end-1,:); % Y2(t-1)
clear Y1Full Y2Full

% Compute OLS estimates of beta0:
BetaHat1 = zeros(numSizes,numPaths);
BetaHat2 = zeros(numSizes,numPaths);
for i = 1:numSizes
    
    n = T(i);
    
    for j = 1:numPaths
        BetaHat1(i,j) = LY1(1:n,j)\Y1(1:n,j);
        BetaHat2(i,j) = LY2(1:n,j)\Y2(1:n,j);
    end
    
end

% Set plot domains:
w1 = std(BetaHat1(:));
x1 = (beta0-w1):(w1/1e2):(beta0+w1);
w2 = std(BetaHat2(:));
x2 = (beta0-w2):(w2/1e2):(beta0+w2);

% Create figures and plot handles: 
hFig1 = figure;
hold on
hPlots1 = zeros(numSizes,1);
hFig2 = figure;
hold on
hPlots2 = zeros(numSizes,1);

% Plot estimator distributions:
colors = winter(numSizes);    
for i = 1:numSizes

    c = colors(i,:);
    
    figure(hFig1);
    f1 = ksdensity(BetaHat1(i,:),x1);    
    hPlots1(i) = plot(x1,f1,'Color',c,'LineWidth',2);
    
    figure(hFig2);
    f2 = ksdensity(BetaHat2(i,:),x2);    
    hPlots2(i) = plot(x2,f2,'Color',c,'LineWidth',2);
    
end

% Annotate plots:
figure(hFig1)
hBeta1 = line([beta0 beta0],[0 (1.1)*max(f1)],'Color','c','LineWidth',2);
xlabel('Estimate')
ylabel('Density')
title(['{\bf OLS Estimates of \beta_0 = ',num2str(beta0,2),', NID Innovations}'])
legend([hPlots1;hBeta1],[strcat({'T = '},num2str(T','%-d'));['\beta_0 = ',num2str(beta0,2)]])
axis tight
grid on
hold off

$Figure contains an axes. The axes with title {\bf OLS Estimates of \beta_0 = 0.9, NID Innovations} contains 6 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000, \beta_0 = 0.9.$

figure(hFig2)
hBeta2 = line([beta0 beta0],[0 (1.1)*max(f2)],'Color','c','LineWidth',2);
xlabel('Estimate')
ylabel('Density')
title(['{\bf OLS Estimates of \beta_0 = ',num2str(beta0,2),', AR(1) Innovations}'])
legend([hPlots2;hBeta2],[strcat({'T = '},num2str(T','%-d'));['\beta_0 = ',num2str(beta0,2)]])
axis tight
grid on
hold off

$Figure contains an axes. The axes with title {\bf OLS Estimates of \beta_0 = 0.9, AR(1) Innovations} contains 6 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000, \beta_0 = 0.9.$

Во всех приведенных выше моделированиях $_{β0} =$ 0,9. Графики представляют собой распределения ${_{}}_{}^{}$ β0ˆ по нескольким моделированиям каждого процесса, показывающие смещение и дисперсию оценщика OLS как функцию размера выборки.

Перекос распределений затрудняет визуальную оценку их центров. Смещение определяется как ${_{}}_{}^{E[β0ˆ}] -_{}$ β0, поэтому мы используем среднее значение для измерения агрегированной оценки. В случае инноваций NID относительно небольшое отрицательное смещение исчезает асимптотически, поскольку совокупные оценки монотонно увеличиваются в сторону $_{}$ β0:

AggBetaHat1 = mean(BetaHat1,2);
fprintf('%-6s%-6s\n','Size','Mean1')

Size  Mean1

for i = 1:numSizes
    fprintf('%-6u%-6.4f\n',T(i),AggBetaHat1(i))
end

10    0.7974
50    0.8683
100   0.8833
500   0.8964
1000  0.8981

В случае инноваций AR (1) агрегированные оценки с отрицательным смещением в небольших выборках монотонно увеличиваются в сторону $_{}$ β0, как описано выше, но затем проходят через значение DGP при умеренных размерах выборки и постепенно более положительно смещаются в больших выборках:

AggBetaHat2 = mean(BetaHat2,2);
fprintf('%-6s%-6s\n','Size','Mean2')

Size  Mean2

for i = 1:numSizes
    fprintf('%-6u%-6.4f\n',T(i),AggBetaHat2(i))
end

10    0.8545
50    0.9094
100   0.9201
500   0.9299
1000  0.9310

Несоответствие оценщика ОЛС наличию автокоррелированных инноваций широко известно среди экономистов. Тем не менее, это дает точные оценки для диапазона размеров выборки имеет практические последствия, которые менее широко оценены. Это поведение описано далее в разделе Динамические и корреляционные эффекты.

Принципиальное различие между двумя наборами моделирования, описанными выше, с точки зрения оценки ОЛС, заключается в том, существует ли задержка во взаимодействии между инновациями и предиктором. В процессе AR (1) с новшествами NID предсказатель $_{}$ yt-1 одновременно не коррелирует с $_{}$ et, но коррелирует со всеми предыдущими новшествами, как описано ранее. В процессе AR (1) с инновациями AR (1) $_{предсказатель}$ yt-1 также становится коррелированным $_{с}$ et, посредством автокорреляции $_{между}$ et $_{и}$ et-1.

Чтобы увидеть эти отношения, мы вычисляем коэффициенты корреляции между $_{yt-1}$ и et $_{}$ и $_{et-1}$ соответственно для каждого процесса:

% Extract innovations data, after transient period:
E1 = E1Full(burnIn+1:end,:);  % E1(t)
LE1 = E1Full(burnIn:end-1,:); % E1(t-1) 
E2 = E2Full(burnIn+1:end,:);  % E2(t)
LE2 = E2Full(burnIn:end-1,:); % E2(t-1)
clear E1Full E2Full

% Preallocate for correlation coefficients:
CorrE1 = zeros(numSizes,numPaths);
CorrLE1 = zeros(numSizes,numPaths);
CorrE2 = zeros(numSizes,numPaths);
CorrLE2 = zeros(numSizes,numPaths);

% Compute correlation coefficients:
for i = 1:numSizes
    
    n = T(i);
    
    for j = 1:numPaths
        
        % With NID innovations:
        CorrE1(i,j) = corr(LY1(1:n,j),E1(1:n,j));
        CorrLE1(i,j) = corr(LY1(1:n,j),LE1(1:n,j));
        
        % With AR(1) innovations
        CorrE2(i,j) = corr(LY2(1:n,j),E2(1:n,j));
        CorrLE2(i,j) = corr(LY2(1:n,j),LE2(1:n,j));
        
    end
end

% Set plot domains:
sigmaE1 = std(CorrE1(:));
muE1 = mean(CorrE1(:));
xE1 = (muE1-sigmaE1):(sigmaE1/1e2):(muE1+sigmaE1);
sigmaLE1 = std(CorrLE1(:));
muLE1 = mean(CorrLE1(:));
xLE1 = (muLE1-sigmaLE1/2):(sigmaLE1/1e3):muLE1;
sigmaE2 = std(CorrE2(:));
muE2 = mean(CorrE2(:));
xE2 = (muE2-sigmaE2):(sigmaE2/1e2):(muE2+sigmaE2);
sigmaLE2 = std(CorrLE2(:));
muLE2 = mean(CorrLE2(:));
xLE2 = (muLE2-sigmaLE2):(sigmaLE2/1e2):(muLE2+sigmaLE2);

% Create figures and plot handles:
hFigE1 = figure;
hold on
hPlotsE1 = zeros(numSizes,1);
hFigLE1 = figure;
hold on
hPlotsLE1 = zeros(numSizes,1);
hFigE2 = figure;
hold on
hPlotsE2 = zeros(numSizes,1);
hFigLE2 = figure;
hold on
hPlotsLE2 = zeros(numSizes,1);

% Plot correlation coefficient distributions:
colors = copper(numSizes);    
for i = 1:numSizes

    c = colors(i,:);
    
    figure(hFigE1)
    fE1 = ksdensity(CorrE1(i,:),xE1);    
    hPlotsE1(i) = plot(xE1,fE1,'Color',c,'LineWidth',2);
    
    figure(hFigLE1)
    fLE1 = ksdensity(CorrLE1(i,:),xLE1);    
    hPlotsLE1(i) = plot(xLE1,fLE1,'Color',c,'LineWidth',2);
        
    figure(hFigE2)
    fE2 = ksdensity(CorrE2(i,:),xE2);    
    hPlotsE2(i) = plot(xE2,fE2,'Color',c,'LineWidth',2);
    
    figure(hFigLE2)
    fLE2 = ksdensity(CorrLE2(i,:),xLE2);    
    hPlotsLE2(i) = plot(xLE2,fLE2,'Color',c,'LineWidth',2);
    
end

clear CorrE1 CorrLE1 CorrE2 CorrLE2

% Annotate plots:
figure(hFigE1)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_t}}')
legend(hPlotsE1,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fE1)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_t}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigLE1)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_{t-1}}}')
legend(hPlotsLE1,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fLE1)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_{t-1}}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigE2)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_t}}')
legend(hPlotsE2,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fE2)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_t}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigLE2)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_{t-1}}}')
legend(hPlotsLE2,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fLE2)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_{t-1}}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

Графики показывают корреляцию между $_{yt-1}$ и $_{et-1}$ в обоих случаях. Современная корреляция между $_{yt-1}$ и $_{et}$ , однако, сохраняется асимптотически только в случае инноваций AR (1).

Коэффициент корреляции является основой для стандартных показателей автокорреляции. Вышеприведенные графики подчеркивают смещение и дисперсию коэффициента корреляции в конечных выборках, что усложняет практическую оценку автокорреляций в остатках модели. Показатели корреляции были подробно изучены компанией Fisher ([3], [4], [5]), которая предложила ряд альтернатив.

Использование смещенных оценок $_{β0}$ для оценки $_{γ 0}$ в остатках также смещено [11]. Как описано ранее, остатки ОЛС в случае инноваций AR (1) не точно представляют инновации процесса из-за тенденции ${_{}}_{}^{}$ β0ˆ поглощать систематическое воздействие, создаваемое автокоррелированными возмущениями.

Чтобы еще больше усложнить ситуацию, статистика Дурбина-Уотсона, широко используемая в качестве показателя степени автокорреляции первого порядка, является предвзятой к обнаружению любой взаимосвязи между ${_{}}_{}^{etˆ}$ и ${_{}^{}}_{eˆt-1}$ точно в моделях AR, где такая связь присутствует. Смещение в два раза больше, чем смещение в ${_{}}_{}^{β0ˆ}$ [8].

Таким образом, OLS может постоянно переоценивать $_{β0}$ , в то время как стандартные меры остаточной автокорреляции недооценивают условия, которые приводят к несогласованности. Это приводит к искаженному чувству благости подгонки и искажению значения динамических терминов. Тест Дурбина также неэффективен в этом контексте [7]. M-тест Дурбина или эквивалентный тест Бреуша-Годфри часто предпочтительны [1].

Приближение смещения оценщика

На практике процесс, который создает временной ряд, должен быть обнаружен из имеющихся данных, и этот анализ в конечном итоге ограничен потерей уверенности, которая возникает при смещении оценщика и дисперсии. Размеры выборки для экономических данных часто находятся в нижней части тех, которые рассматриваются в моделировании выше, поэтому неточности могут быть значительными. Влияние на прогнозную производительность авторегрессионных моделей может быть серьезным.

Для простых AR-моделей с простыми инновационными структурами теоретически получены аппроксимации смещения оценщика OLS. Эти формулы полезны при оценке надежности коэффициентов модели AR, полученных из одной выборки данных.

В случае инноваций NID можно сравнить смещение моделирования с широко используемым приблизительным значением [11], [13]:

${_{}}_{}^{E[β0ˆ}] -_{}_{}$ β0≈-2β0/T.

m = min(T);
M = max(T);
eBias1 = AggBetaHat1-beta0; % Estimated bias
tBias1 = -2*beta0./T;       % Theoretical bias
eB1interp = interp1(T,eBias1,m:M,'pchip');
tB1interp = interp1(T,tBias1,m:M,'pchip');

figure
plot(T,eBias1,'ro','LineWidth',2)
hold on
he1 = plot(m:M,eB1interp,'r','LineWidth',2);
plot(T,tBias1,'bo')
ht1 = plot(m:M,tB1interp,'b');
hold off
legend([he1 ht1],'Simulated Bias','Approximate Theoretical Bias','Location','E')
xlabel('Sample Size')
ylabel('Bias')
title('{\bf Estimator Bias, NID Innovations}')
grid on

$Figure contains an axes. The axes with title {\bf Estimator Bias, NID Innovations} contains 4 objects of type line. These objects represent Simulated Bias, Approximate Theoretical Bias.$

Аппроксимация является достаточно надежной в даже умеренно-размерных выборках и обычно улучшается, поскольку $_{β0}$ уменьшается в абсолютном значении.

В случае инноваций AR (1) смещение зависит как от $_{}$ β0, так и $_{}$ от γ 0. Асимптотически она аппроксимируется [6]:

${_{}}_{}^{}_{}_{}_{}^{}_{}_{} E[β0ˆ]-β0\approxγ0(1-β02)/(1+γ0β0).$

eBias2 = AggBetaHat2-beta0; % Estimated bias
tBias2 = gamma0*(1-beta0^2)/(1+gamma0*beta0); % Asymptotic bias
eB2interp = interp1(T,eBias2,m:M,'pchip');

figure
plot(T,eBias2,'ro','LineWidth',2)
hold on
he2 = plot(m:M,eB2interp,'r','LineWidth',2);
ht2 = plot(0:M,repmat(tBias2,1,M+1),'b','LineWidth',2);
hold off
legend([he2 ht2],'Simulated Bias','Approximate Asymptotic Bias','Location','E')
xlabel('Sample Size')
ylabel('Bias')
title('{\bf Estimator Bias, AR(1) Innovations}')
grid on

$Figure contains an axes. The axes with title {\bf Estimator Bias, AR(1) Innovations} contains 3 objects of type line. These objects represent Simulated Bias, Approximate Asymptotic Bias.$

Здесь мы видим смещение от отрицательных к положительным значениям, когда размер выборки увеличивается, а затем в конечном итоге приближается к асимптотической связи. Существует диапазон размеров выборки от около 25 до 100, где абсолютное значение смещения ниже 0,02. В таком «сладком пятне» ОЛС-оценщик может превосходить альтернативные оценщики, предназначенные специально для учета наличия автокорреляции. Это поведение описано далее в разделе Динамические и корреляционные эффекты.

Полезно построить график приблизительного асимптотического смещения в ${_{}}_{}^{β0ˆ}$ как функции $_{как β0}$ , так и $_{γ 0}$ , чтобы увидеть влияние изменяющейся степени автокорреляции как $_{у yt}$ , так и $_{у et}$ :

figure
beta = -1:0.05:1;
gamma = -1:0.05:1;
[Beta,Gamma] = meshgrid(beta,gamma);
hold on
surf(Beta,Gamma,Gamma.*(1-Beta.^2)./(1+Gamma.*Beta))
fig = gcf;
CM = fig.Colormap;
numC = size(CM,1);
zL = zlim;
zScale = zL(2)-zL(1);
iSim = (tBias2-zL(1))*numC/zScale;    
cSim = interp1(1:numC,CM,iSim);
hSim = plot3(beta0,gamma0,tBias2,'ko','MarkerSize',8,'MarkerFaceColor',cSim);
view(-20,20)
ax = gca;
u = ax.XTick;
v = ax.YTick;
mesh(u,v,zeros(length(v),length(u)),'FaceAlpha',0.7,'EdgeColor','k','LineStyle',':')
hold off
legend(hSim,'Simulated Model','Location','Best')
xlabel('\beta_0')
ylabel('\gamma_0')
zlabel('Bias')
title('{\bf Approximate Asymptotic Bias}')
camlight
colorbar
grid on

$Figure contains an axes. The axes with title {\bf Approximate Asymptotic Bias} contains 3 objects of type surface, line. This object represents Simulated Model.$

Асимптотическое смещение становится значительным, когда $_{β0}$ и $_{γ 0}$ движутся в противоположных направлениях от нулевой автокорреляции. Конечно, смещение может быть значительно меньше в конечных образцах.

Динамические и корреляционные эффекты

Как обсуждалось, проблемы использования ОЛС для оценки динамической модели возникают из-за нарушений допущений CLM. Два нарушения критичны, и мы обсуждаем их последствия здесь более подробно.

Первым является динамический эффект, вызванный корреляцией между предиктором $_{yt-1}$ и всем предыдущим нововведением $_{et-k}$ . Это происходит в любой модели AR и приводит к смещенным оценкам OLS из конечных выборок. При отсутствии других нарушений ОЛС тем не менее остается последовательным, и уклон исчезает в больших выборках.

Вторым является корреляционный эффект, вызванный одновременной корреляцией между предиктором $_{yt-1}$ и новшеством $_{et}$ . Это происходит, когда процесс инноваций автокоррелирован и приводит к коэффициенту ОЛС предсказателя, принимающего слишком много или слишком мало кредита для одновременных изменений в ответе, в зависимости от знака корреляции. То есть производит стойкий уклон.

Первый набор моделирования, приведенный выше, иллюстрирует ситуацию, в которой $_{β0}$ является положительным, а $_{γ 0}$ равно нулю. Второй набор симуляций иллюстрирует ситуацию, в которой как $_{β0}$ , так и $_{γ 0}$ являются положительными. Для положительного $_{β0}$ динамическое воздействие на ${_{}}_{}^{β0ˆ}$ является отрицательным. Для положительного $_{γ 0}$ корреляционный эффект на ${_{}}_{}^{β0ˆ}$ является положительным. Таким образом, в первом наборе моделирования наблюдается отрицательное смещение по размерам выборки. Во втором наборе моделирования, однако, существует конкуренция между двумя эффектами, причем динамический эффект доминирует в малых выборках, а корреляционный эффект доминирует в больших выборках.

Положительные коэффициенты AR являются общими в эконометрических моделях, поэтому для двух эффектов типично смещать друг друга, создавая диапазон размеров выборки, для которых смещение OLS значительно уменьшается. Ширина этого диапазона зависит от $_{β0}$ и $_{γ 0}$ , и определяет диапазон OLS-превосходящего, в котором OLS превосходит альтернативные оценки, предназначенные для непосредственного учета автокорреляций в нововведениях.

Некоторые из факторов, влияющих на величину динамического и корреляционного эффектов, обобщены в [9]. Среди них:

Динамический эффект

Увеличивается с уменьшением размера выборки.
Уменьшается с увеличением $_{β0}$ , если дисперсия нововведений поддерживается фиксированной.
Уменьшается с увеличением $_{β0}$ , если дисперсия нововведений регулируется для поддержания постоянной $^{R2}$ .
Увеличивается с изменением нововведений.

Корреляционный эффект

Увеличивается с увеличением $_{γ 0}$ , со скоростью уменьшения.
Уменьшается с увеличением $_{β0}$ , с возрастающей скоростью.

Влияние этих факторов можно проверить путем изменения коэффициентов в приведенных выше моделированиях. В общем, чем больше динамический эффект и чем меньше корреляционный эффект, тем шире диапазон OLS-превосходящих.

Уменьшение смещения Jacknife

Процедура jackknife является методом перекрестной проверки, обычно используемым для уменьшения смещения статистики выборки. Оценки коэффициентов модели Jacknife относительно легко вычислить, без необходимости большого моделирования или повторной выборки.

Основная идея состоит в том, чтобы вычислить оценку из полной выборки и из последовательности подвыборок, затем объединить оценки таким образом, чтобы исключить некоторую часть смещения. В общем случае для выборки размера $Т$ смещение ${_{}}_{}^{β0ˆ}$ оценки ОЛС может быть выражено как расширение в степенях $^{T-1}$ :

$E {(_{}}_{}^{} β0ˆ)_{-} \frac{{β0}_{}}{=} \frac{_{}}{{w1T}^{}} +^{w2T2} +$ O (T-3),

где веса $_{w1}$ и $_{w2}$ зависят от конкретного коэффициента и модели. Если оценки ${_{}}_{}^{βiˆ}$ сделаны на последовательности $i = 1, . . .$ , m подвыборок $длины l =$ O (T), то $_{оценщик}$ jackknife β0 равен:

${_{}}_{}^{} βJˆ= \frac{(}{} TT-1 {)_{}}_{}^{} β0ˆ \frac{}{- (} \frac{}{} {lT-1}_{)}^{} {_{}}_{}^{}$ 1m∑i=1mβiˆ.

Можно показать, что оценщик джекнифа удовлетворяет:

$E {(_{}}_{}^{} β0ˆ)_{-} β0 =^{O} ($ T-2),

таким образом, удаляют $^{}$ член O (T-1) из расширения смещения. Действительно ли смещение уменьшено, зависит от размера оставшихся терминов в расширении, но оценки jackknife на практике показали хорошие результаты. В частности, методика является надежной по отношению к ненормальным инновациям, эффектам ARCH и различным ошибкам модели [2].

Функция Toolbox™ статистики и машинного обучения jackknife реализует процедуру jackknife, используя систематическую последовательность подвыборок «оставить один». Для временных рядов удаление наблюдений изменяет структуру автокорреляции. Чтобы сохранить структуру зависимости во временном ряду, процедура jackknife должна использовать неперекрывающиеся субприборы, такие как перегородки или движущиеся блоки.

Далее реализуется простая оценка jackknife ${_{}}_{}^{β0ˆ}$ с использованием разделения данных в каждом из моделирований для получения ${_{}}_{}^{βiˆ}$ оценок подпробора. Мы сравниваем производительность до и после джекнифинга на смоделированных данных с инновациями NID или AR (1):

m = 5; % Number of subsamples

% Preallocate memory:
betaHat1 = zeros(m,1); % Subsample estimates, NID innovations
betaHat2 = zeros(m,1); % Subsample estimates, AR(1) innovations
BetaHat1J = zeros(numSizes,numPaths); % Jackknife estimates, NID innovations
BetaHat2J = zeros(numSizes,numPaths); % Jackknife estimates, AR(1) innovations

% Compute jackknife estimates:
for i = 1:numSizes
    
    n = T(i); % Sample size
    l = n/m;  % Length of partition subinterval
                
    for j = 1:numPaths
        
        for s = 1:m
              
            betaHat1(s) = LY1((s-1)*l+1:s*l,j)\Y1((s-1)*l+1:s*l,j);
            betaHat2(s) = LY2((s-1)*l+1:s*l,j)\Y2((s-1)*l+1:s*l,j);
            
            BetaHat1J(i,j) = (n/(n-l))*BetaHat1(i,j)-(l/((n-l)*m))*sum(betaHat1);
            BetaHat2J(i,j) = (n/(n-l))*BetaHat2(i,j)-(l/((n-l)*m))*sum(betaHat2);
            
        end
        
    end
    
end

clear BetaHat1 BetaHat2

% Display mean estimates, before and after jackknifing:
AggBetaHat1J = mean(BetaHat1J,2);
clear BetaHat1J
fprintf('%-6s%-8s%-8s\n','Size','Mean1','Mean1J')

Size  Mean1   Mean1J

for i = 1:numSizes
    fprintf('%-6u%-8.4f%-8.4f\n',T(i),AggBetaHat1(i),AggBetaHat1J(i))
end

10    0.7974  0.8055  
50    0.8683  0.8860  
100   0.8833  0.8955  
500   0.8964  0.8997  
1000  0.8981  0.8998

AggBetaHat2J = mean(BetaHat2J,2);
clear BetaHat2J
fprintf('%-6s%-8s%-8s\n','Size','Mean2','Mean2J')

Size  Mean2   Mean2J

for i = 1:numSizes
    fprintf('%-6u%-8.4f%-8.4f\n',T(i),AggBetaHat2(i),AggBetaHat2J(i))
end

10    0.8545  0.8594  
50    0.9094  0.9233  
100   0.9201  0.9294  
500   0.9299  0.9323  
1000  0.9310  0.9323

Количество подвыборок, $m =$ 5, выбирается с учетом наименьшего размера выборки, $n$ = 10. Большие m могут улучшить характеристики в более крупных образцах, но не существует принятой эвристики для выбора размеров подпробора, поэтому необходимы некоторые эксперименты. Код легко адаптируется для использования альтернативных способов субдискретизации, таких как движущиеся блоки.

Результаты показывают равномерное снижение смещения в случае инноваций NID. В случае инноваций AR (1) процедура, по-видимому, продвигает оценку быстрее через диапазон OLS-superior.

Резюме

Этот пример показывает простую модель AR вместе с несколькими простыми инновационными структурами в качестве способа иллюстрации некоторых общих вопросов, связанных с оценкой динамических моделей. Код здесь легко модифицируется для наблюдения за эффектами изменения значений параметров, корректировки дисперсии инноваций, использования различных структур запаздывания и так далее. Пояснительные термины DL также могут быть добавлены к моделям. Члены DL имеют возможность уменьшить смещение оценщика, хотя OLS имеет тенденцию переоценивать коэффициенты AR за счет коэффициентов DL [11]. Общая настройка здесь позволяет проводить много экспериментов, что часто требуется при оценке моделей на практике.

При рассмотрении компромиссов, представленных смещением и дисперсией любого оценщика, важно помнить, что смещенные оценщики с уменьшенной дисперсией могут иметь более высокие среднеквадратичные характеристики ошибок по сравнению с несмещенными оценщиками с более высокой дисперсией. Сильной стороной оценщика OLS, помимо его простоты в вычислениях, является его относительная эффективность в снижении его дисперсии с увеличением размера выборки. Этого часто достаточно, чтобы использовать ОЛС в качестве выбранного оценщика даже для динамических моделей. Другой сильной стороной, как показал этот пример, является наличие диапазона OLS-превосходящего, где OLS может превосходить другие оценки, даже при том, что обычно рассматривается как неблагоприятные условия. Самым слабым местом оценщика ОЛС является его производительность в небольших выборках, где смещение и дисперсия могут быть неприемлемыми.

Вопросы оценки, поднятые в этом примере, указывают на необходимость использования новых показателей автокорреляции и более надежных методов оценки при их наличии. Некоторые из этих методов описаны в примере Регрессия временных рядов X: обобщенные наименьшие квадраты и оценки HAC. Однако, как мы видели, несоответствия оценщика OLS для моделей AR с автокорреляцией недостаточно, чтобы исключить его, в целом, как жизнеспособного конкурента более сложным, последовательным оценщикам, таким как максимальная вероятность, возможные обобщенные наименьшие квадраты и инструментальные переменные, которые пытаются устранить корреляционный эффект, но не изменяют динамический эффект. Наилучший выбор будет зависеть от размера выборки, структуры запаздывания, наличия экзогенных переменных и так далее, и часто требует видов моделирования, представленных в этом примере.

Ссылки

[1] Бреуш, Т.С. и Л.Г. Годфри. «Обзор последних работ по тестированию автокорреляции в динамических одновременных моделях». В Currie, D., R. Nobay и D. Peel (Eds.), Макроэкономический анализ: эссе в макроэкономике и эконометрике. Лондон: Крум Хелм, 1981.

[2] Чемберс, М. Дж. «Оценка Jacknife стационарных авторегрессионных моделей». Дискуссионный документ Эссекского университета № 684, 2011 год.

[3] Фишер, Р. А.. «Частотное распределение значений коэффициента корреляции в выборках из неопределенно большой популяции». Биометрика. Т. 10, 1915, с. 507-521.

[4] Фишер, Р. А. «О» вероятной ошибке «коэффициента корреляции, выведенного из малой выборки». Метрон. т. 1, 1921, стр. 3-32.

[5] Фишер, Р. А. «Распределение коэффициента частичной корреляции». Метрон. Т. 3, 1924, с. 329-332.

[6] Hibbs, D. «Проблемы статистической оценки и причинного вывода в динамических моделях временных рядов». В Costner, Х. (Ред.) Социологическая методология. Сан-Франциско: Джосси-Басс, 1974.

[7] Индер, Б. А. «Конечная мощность выборки тестов для автокорреляции в моделях, содержащих запаздывающие зависимые переменные». Письма по экономике. Том 14, 1984, стр. 179-185.

[8] Джонстон, Дж. Эконометрические методы. Нью-Йорк: Макгроу-Хилл, 1972.

[9] Маэсиро, А. «Преподавание регрессий с запаздывающей зависимой переменной и автокоррелированными нарушениями». Журнал экономического образования. Том 27, 1996, стр. 72-84.

[10] Маэсиро, А. «Иллюстрация смещения ОЛС для Yt = λYt-1 + Ut». Журнал экономического образования. Том 31, 2000, стр. 76-80.

[11] Малинво, Е. Статистические методы эконометрики. Амстердам: Северная Голландия, 1970.

[12] Марриотт, Ф. и Дж. Поуп. «Смещение в оценке автокорреляций». Биометрика. Том 41, 1954, стр. 390-402.

[13] Уайт, Дж. С. «Асимптотические расширения для среднего и дисперсии коэффициента последовательной корреляции». Биометрика. Том 48, 1961, стр. 85-94.

Документация