Регрессия временных рядов VIII: Задержки переменных и смещение оценщика

Открыть Live Script

Этот пример показов, как отстающие предикторы влияют на оценку моделей многофакторной линейной регрессии методом наименьших квадратов. Это восьмой в серии примеров по регрессии временных рядов, после представления в предыдущих примерах.

Введение

Многие эконометрические модели являются динамическими, используя отстающие переменные, чтобы включать обратную связь с течением времени. Напротив, статические модели временных рядов представляют системы, которые реагируют исключительно на текущие события.

Отстающие переменные бывают нескольких типов:

Переменные распределенной задержки (DL) являются отстающими значениями $x_{t - k}$ наблюдаемых переменных экзогенного предиктора $x_{t}$ .
Авторегрессивные (AR) переменные являются отстающими значениями $y_{t - k}$ наблюдаемых переменных эндогенного отклика $y_{t}$ .
Переменные Скользящего Среднего значения (MA) являются отстающими значениями $e_{t - k}$ незабываемых процессов стохастических инноваций $e_{t}$ .

Динамические модели часто строятся с использованием линейных комбинаций различных типов отстающих переменных, для создания ARMA, ARDL и других гибридов. Цель моделирования в каждом случае состоит в том, чтобы точно и кратко отразить важные взаимодействия между соответствующими экономическими факторами.

Динамические спецификации модели задают вопрос: Какие лаги важны? Некоторые модели, такие как сезонные модели, используют лаги в разных периодах данных. Другие модели основывают свою структуру задержки на теоретических факторах о том, как и когда экономические агенты реагируют на меняющиеся условия. В целом структуры задержки идентифицируют временную задержку отклика на известные ведущие индикаторы.

Однако структуры задержки должны делать больше, чем просто представлять доступную теорию. Поскольку динамические спецификации вызывают взаимодействия между переменными, которые могут повлиять на стандартные методы регрессии, структуры задержки должны также быть разработаны с учетом точной оценки модели.

Вопросы спецификаций

Рассмотрим многофакторную линейную регрессию (MLR):

$y_{t} = Z_{t} β + e_{t},$

где $y_{t}$ - наблюдаемый ответ, $Z_{t}$ включает столбцы для каждой потенциально релевантной переменной предиктора, включая отстающие переменные, и $e_{t}$ является стохастическим инновационным процессом. Точность оценки коэффициентов в $β$ зависит от составляющих столбцов $Z_{t}$ , а также совместное распределение $e_{t}$ . Выбор предикторов для $Z_{t}$ которые являются как статистически, так и экономически значимыми, обычно включают циклы оценки, остаточного анализа и респецификации.

Допущения классической линейной модели (CLM), обсуждаемые в примере Временные Ряды Regression I: Linear Models, позволяют обычным методом наименьших квадратов (OLS) производить оценки $β$ с желаемыми свойствами: объективными, последовательными и эффективными относительно других оценщиков. Задержанные предикторы в $Z_{t}$ однако может привести к нарушениям допущений CLM. Конкретные нарушения зависят от типов отстающих переменных в модели, но наличие динамических механизмов обратной связи, в целом, имеет тенденцию преувеличивать проблемы, связанные со статическими спецификациями.

Вопросы спецификации модели обычно обсуждаются относительно процесса генерации данных (DGP) для переменной отклика $y_{t}$ . Практически, однако, DGP является теоретической конструкцией, реализованным только в симуляции. Ни одна модель никогда не захватывает динамику реального мира полностью и не моделирует коэффициенты в $β$ всегда являются подмножеством элементов в истинном DGP. Как результат, инновации в $e_{t}$ стать смесью присущей процессу стохастичности и потенциально большого количества опущенных переменных (OV). Автокорреляции в $e_{t}$ распространены в эконометрических моделях, где OV проявляют стойкость с течением времени. Вместо сравнения модели с теоретическим DGP, более практично оценить, была ли, или в какой степени, динамика в данных отличается от автокорреляций в невязках.

Первоначально структуры задержки могут включать наблюдения экономических факторов в множественные, близкие моменты времени. Однако наблюдения в момент t, вероятно, будут коррелировать с наблюдениями в моменты времени t-1, t-2 и так далее через экономическую инерцию. Таким образом, структура задержки может переопределить динамику отклика путем включения последовательности отстающих предикторов с только предельными вкладами в DGP. Спецификация будет завышать эффекты прошлой истории и не будет накладывать соответствующие ограничения на модель. Расширенные структуры задержки также требуют расширенных данных предварительного образца, уменьшения размера выборки и уменьшения числа степеней свободы в процедурах оценки. Следовательно, переопределенные модели могут демонстрировать выраженные проблемы коллинеарности и высокого оценочного отклонения. Полученные оценки $β$ имеют низкую точность, и становится трудно разделить отдельные эффекты.

Чтобы уменьшить зависимости предиктора, структуры задержки могут быть ограничены. Однако, если ограничения являются слишком серьезными, возникают другие проблемы оценки. Структура ограниченной задержки может недооценивать динамику отклика путем исключения предикторов, которые на самом деле являются значительной частью DGP. Это приводит к модели, которая недооценивает эффекты прошлой истории, принуждая значимых предикторов к инновационному процессу. Если отстающие предикторы в $e_{t}$ коррелируют с близкими отстающими предикторами в $Z_{t}$ , нарушается допущение CLM о строгой экзогенности регрессоров, и оценки OLS $β$ становиться предвзятым и непоследовательным.

Конкретные проблемы связаны с различными типами отстающих предикторов.

Отстающие экзогенные предикторы $x_{t - k}$ сами по себе не нарушают допущения CLM. Однако модели DL часто описываются, по крайней мере, первоначально, длинной последовательностью потенциально значимых лагов и поэтому страдают от проблем сверхспецификации, упомянутых выше. Общие, если несколько ad hoc, методы для наложения ограничений на веса задержки (то есть коэффициенты в $β$ ) обсуждаются в примере Регрессия временных рядов IX: Выбор порядка задержки. В принципе, однако, анализ модели DL параллелен анализу статической модели. Вопросы оценки, связанные с коллинеарностью, влиятельными наблюдениями, ложной регрессией, автокоррелированными или гетероскедастическими инновациями и т.д., все еще должны быть изучены.

Отстающие эндогенные предикторы $y_{t - k}$ более проблематичны. Модели AR вводят нарушения допущений CLM, которые приводят к смещенным оценкам OLS $β$ . Без каких-либо других нарушений CLM, оценки, тем не менее, последовательны и относительно эффективны. Рассмотрим простую авторегрессию первого порядка $y_{t}$ на $y_{t - 1}$ :

$y_{t} = β y_{t - 1} + e_{t} .$

В этой модели, $y_{t}$ определяется обоими $y_{t - 1}$ и $e_{t}$ . Смещение уравнения назад на один шаг за раз, $y_{t - 1}$ определяется обоими $y_{t - 2}$ и $e_{t - 1}$ , $y_{t - 2}$ определяется обоими $y_{t - 3}$ и $e_{t - 2}$ и так далее. Транзитивно предиктор $y_{t - 1}$ коррелирует со всей предыдущей историей инновационного процесса. Так же, как и при недоопределении, нарушается предположение CLM о строгой экзогенности, и оценки OLS $β$ становиться предвзятым. Поскольку $β$ должны поглощать эффекты каждого $e_{t - k}$ , модельные невязки больше не представляют истинные инновации [10].

Проблема усугубляется, когда инновации в модели AR являются автокоррелированными. Как обсуждалось в примере Регрессия временных рядов VI: Остаточная диагностика, автокоррелированные инновации в отсутствие других нарушений CLM вызывают объективные, если потенциально высокие отклонения, оценки OLS коэффициентов модели. Основным осложнением в этом случае является то, что обычный оценщик стандартных ошибок коэффициентов становится смещенным. (Эффекты гетероскедастических инноваций аналогичны, хотя обычно менее выражены.) Если, однако, автокоррелированные инновации сочетаются с нарушениями строгой экзогенности, подобными тем, которые производятся терминами AR, оценки $β$ становиться как предвзятым, так и непоследовательным.

Если отстающие инновации $e_{t - k}$ используются как предикторы, характер процесса оценки принципиально изменяется, так как нововведения не могут непосредственно наблюдаться. Оценка требует, чтобы члены MA были инвертированы, чтобы сформировать бесконечные представления AR, а затем ограничены, чтобы создать модель, которая может быть оценена на практике. Поскольку ограничения должны быть введены во время оценки, требуются числовые методы оптимизации, отличные от OLS, такие как максимальная оценка правдоподобия (MLE). Модели с терминами MA рассматриваются в примере Временные Ряды Regression IX: Lag Order Selection.

Симуляция смещения оценщика

Чтобы проиллюстрировать смещение оценщика, введенное отстающими эндогенными предикторами, рассмотрите следующий DGP:

$y_{t} = β_{0} y_{t - 1} + e_{t},$

$e_{t} = γ_{0} e_{t - 1} + δ_{t},$

$δ_{t} \sim N (0, σ^{2}) .$

Запускаем два набора повторных Симуляций Монте-Карло модели. Первый набор использует нормально и независимо распределенные (NID) инновации с $γ_{0} = 0$ . Второй набор использует AR (1) инновации с $| γ_{0} | > 0$ .

% Build the model components:
beta0 = 0.9;  % AR(1) parameter for y_t
gamma0 = 0.2; % AR(1) parameter for e_t
AR1 = arima('AR',beta0,'Constant',0,'Variance',1);
AR2 = arima('AR',gamma0,'Constant',0,'Variance',1);

% Simulation sample sizes:
T = [10,50,100,500,1000];
numSizes = length(T);

% Run the simulations:
numObs = max(T); % Length of simulation paths
numPaths = 1e4;  % Number of simulation paths
burnIn = 100;    % Initial transient period, to be discarded
sigma = 2.5;     % Standard deviation of the innovations
E0 = sigma*randn(burnIn+numObs,numPaths,2); % NID innovations
E1Full = E0(:,:,1);
Y1Full = filter(AR1,E1Full); % AR(1) process with NID innovations
E2Full = filter(AR2,E0(:,:,2));
Y2Full = filter(AR1,E2Full); % AR(1) process with AR(1) innovations
clear E0

% Extract simulation data, after transient period:
Y1 = Y1Full(burnIn+1:end,:);  % Y1(t)
LY1 = Y1Full(burnIn:end-1,:); % Y1(t-1)
Y2 = Y2Full(burnIn+1:end,:);  % Y2(t)
LY2 = Y2Full(burnIn:end-1,:); % Y2(t-1)
clear Y1Full Y2Full

% Compute OLS estimates of beta0:
BetaHat1 = zeros(numSizes,numPaths);
BetaHat2 = zeros(numSizes,numPaths);
for i = 1:numSizes
    
    n = T(i);
    
    for j = 1:numPaths
        BetaHat1(i,j) = LY1(1:n,j)\Y1(1:n,j);
        BetaHat2(i,j) = LY2(1:n,j)\Y2(1:n,j);
    end
    
end

% Set plot domains:
w1 = std(BetaHat1(:));
x1 = (beta0-w1):(w1/1e2):(beta0+w1);
w2 = std(BetaHat2(:));
x2 = (beta0-w2):(w2/1e2):(beta0+w2);

% Create figures and plot handles: 
hFig1 = figure;
hold on
hPlots1 = zeros(numSizes,1);
hFig2 = figure;
hold on
hPlots2 = zeros(numSizes,1);

% Plot estimator distributions:
colors = winter(numSizes);    
for i = 1:numSizes

    c = colors(i,:);
    
    figure(hFig1);
    f1 = ksdensity(BetaHat1(i,:),x1);    
    hPlots1(i) = plot(x1,f1,'Color',c,'LineWidth',2);
    
    figure(hFig2);
    f2 = ksdensity(BetaHat2(i,:),x2);    
    hPlots2(i) = plot(x2,f2,'Color',c,'LineWidth',2);
    
end

% Annotate plots:
figure(hFig1)
hBeta1 = line([beta0 beta0],[0 (1.1)*max(f1)],'Color','c','LineWidth',2);
xlabel('Estimate')
ylabel('Density')
title(['{\bf OLS Estimates of \beta_0 = ',num2str(beta0,2),', NID Innovations}'])
legend([hPlots1;hBeta1],[strcat({'T = '},num2str(T','%-d'));['\beta_0 = ',num2str(beta0,2)]])
axis tight
grid on
hold off

$Figure contains an axes. The axes with title {\bf OLS Estimates of \beta_0 = 0.9, NID Innovations} contains 6 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000, \beta_0 = 0.9.$

figure(hFig2)
hBeta2 = line([beta0 beta0],[0 (1.1)*max(f2)],'Color','c','LineWidth',2);
xlabel('Estimate')
ylabel('Density')
title(['{\bf OLS Estimates of \beta_0 = ',num2str(beta0,2),', AR(1) Innovations}'])
legend([hPlots2;hBeta2],[strcat({'T = '},num2str(T','%-d'));['\beta_0 = ',num2str(beta0,2)]])
axis tight
grid on
hold off

$Figure contains an axes. The axes with title {\bf OLS Estimates of \beta_0 = 0.9, AR(1) Innovations} contains 6 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000, \beta_0 = 0.9.$

Во всех описанных выше симуляциях $β_{0} = 0.9$ . Графики являются распределениями ${β_{0}}_{}^{ˆ}$ через несколько симуляций каждого процесса, показывающих смещение и отклонение оценщика OLS как функцию от размера выборки.

Перекос распределений затрудняет визуальную оценку их центров. Смещение определяется как $E [{β_{0}}_{}^{ˆ}] - β_{0}$ поэтому мы используем среднее для измерения совокупной оценки. В случае инноваций NID относительно небольшое отрицательное смещение исчезает асимптотически, когда совокупные оценки увеличиваются монотонно к $β_{0}$ :

AggBetaHat1 = mean(BetaHat1,2);
fprintf('%-6s%-6s\n','Size','Mean1')

Size  Mean1

for i = 1:numSizes
    fprintf('%-6u%-6.4f\n',T(i),AggBetaHat1(i))
end

10    0.7974
50    0.8683
100   0.8833
500   0.8964
1000  0.8981

В случае инноваций AR (1) совокупные оценки с отрицательным смещением в небольших выборках увеличиваются монотонно к $β_{0}$ , как выше, но затем пройти через значение DGP при умеренных размерах выборки, и стать постепенно более положительно смещенным в больших выборках:

AggBetaHat2 = mean(BetaHat2,2);
fprintf('%-6s%-6s\n','Size','Mean2')

Size  Mean2

for i = 1:numSizes
    fprintf('%-6u%-6.4f\n',T(i),AggBetaHat2(i))
end

10    0.8545
50    0.9094
100   0.9201
500   0.9299
1000  0.9310

Несогласованность оценки OLS при наличии автокоррелированных инноваций широко известна у экономистов. Тем не менее, это дает точные оценки для области значений размеров выборки имеет практические последствия, которые менее широко оцениваются. Описываем это поведение далее в разделе Эффекты динамики и корреляции.

Принципиальное различие между двумя наборами симуляций выше, с точки зрения оценки OLS, заключается в том, существует ли задержка во взаимодействии между инновациями и предиктором. В процессе AR (1) с инновациями NID предиктор $y_{t - 1}$ одновременно некоррелирован с $e_{t}$ , но коррелировал со всеми предыдущими инновациями, как описано ранее. В процессе AR (1) с инновациями AR (1) предиктор $y_{t - 1}$ становится коррелированным с $e_{t}$ также через автокорреляцию между $e_{t}$ и $e_{t - 1}$ .

Чтобы увидеть эти отношения, мы вычисляем коэффициенты корреляции между $y_{t - 1}$ и то и другое $e_{t}$ и $e_{t - 1}$ соответственно для каждого процесса:

% Extract innovations data, after transient period:
E1 = E1Full(burnIn+1:end,:);  % E1(t)
LE1 = E1Full(burnIn:end-1,:); % E1(t-1) 
E2 = E2Full(burnIn+1:end,:);  % E2(t)
LE2 = E2Full(burnIn:end-1,:); % E2(t-1)
clear E1Full E2Full

% Preallocate for correlation coefficients:
CorrE1 = zeros(numSizes,numPaths);
CorrLE1 = zeros(numSizes,numPaths);
CorrE2 = zeros(numSizes,numPaths);
CorrLE2 = zeros(numSizes,numPaths);

% Compute correlation coefficients:
for i = 1:numSizes
    
    n = T(i);
    
    for j = 1:numPaths
        
        % With NID innovations:
        CorrE1(i,j) = corr(LY1(1:n,j),E1(1:n,j));
        CorrLE1(i,j) = corr(LY1(1:n,j),LE1(1:n,j));
        
        % With AR(1) innovations
        CorrE2(i,j) = corr(LY2(1:n,j),E2(1:n,j));
        CorrLE2(i,j) = corr(LY2(1:n,j),LE2(1:n,j));
        
    end
end

% Set plot domains:
sigmaE1 = std(CorrE1(:));
muE1 = mean(CorrE1(:));
xE1 = (muE1-sigmaE1):(sigmaE1/1e2):(muE1+sigmaE1);
sigmaLE1 = std(CorrLE1(:));
muLE1 = mean(CorrLE1(:));
xLE1 = (muLE1-sigmaLE1/2):(sigmaLE1/1e3):muLE1;
sigmaE2 = std(CorrE2(:));
muE2 = mean(CorrE2(:));
xE2 = (muE2-sigmaE2):(sigmaE2/1e2):(muE2+sigmaE2);
sigmaLE2 = std(CorrLE2(:));
muLE2 = mean(CorrLE2(:));
xLE2 = (muLE2-sigmaLE2):(sigmaLE2/1e2):(muLE2+sigmaLE2);

% Create figures and plot handles:
hFigE1 = figure;
hold on
hPlotsE1 = zeros(numSizes,1);
hFigLE1 = figure;
hold on
hPlotsLE1 = zeros(numSizes,1);
hFigE2 = figure;
hold on
hPlotsE2 = zeros(numSizes,1);
hFigLE2 = figure;
hold on
hPlotsLE2 = zeros(numSizes,1);

% Plot correlation coefficient distributions:
colors = copper(numSizes);    
for i = 1:numSizes

    c = colors(i,:);
    
    figure(hFigE1)
    fE1 = ksdensity(CorrE1(i,:),xE1);    
    hPlotsE1(i) = plot(xE1,fE1,'Color',c,'LineWidth',2);
    
    figure(hFigLE1)
    fLE1 = ksdensity(CorrLE1(i,:),xLE1);    
    hPlotsLE1(i) = plot(xLE1,fLE1,'Color',c,'LineWidth',2);
        
    figure(hFigE2)
    fE2 = ksdensity(CorrE2(i,:),xE2);    
    hPlotsE2(i) = plot(xE2,fE2,'Color',c,'LineWidth',2);
    
    figure(hFigLE2)
    fLE2 = ksdensity(CorrLE2(i,:),xLE2);    
    hPlotsLE2(i) = plot(xLE2,fLE2,'Color',c,'LineWidth',2);
    
end

clear CorrE1 CorrLE1 CorrE2 CorrLE2

% Annotate plots:
figure(hFigE1)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_t}}')
legend(hPlotsE1,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fE1)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_t}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigLE1)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_{t-1}}}')
legend(hPlotsLE1,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fLE1)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and NID {\it e_{t-1}}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigE2)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_t}}')
legend(hPlotsE2,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fE2)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_t}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

figure(hFigLE2)
xlabel('Correlation Coefficient')
ylabel('Density')
title('{\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_{t-1}}}')
legend(hPlotsLE2,strcat({'T = '},num2str(T','%-d')),'Location','NW')
axis tight
grid on
ylim([0 (1.1)*max(fLE2)])
hold off

$Figure contains an axes. The axes with title {\bf Sample Correlation of {\it y_{t-1}} and AR(1) {\it e_{t-1}}} contains 5 objects of type line. These objects represent T = 10, T = 50, T = 100, T = 500, T = 1000.$

Графики показывают корреляцию между $y_{t - 1}$ и $e_{t - 1}$ в обоих случаях. Современная корреляция между $y_{t - 1}$ и $e_{t}$ однако, сохраняется асимптотически только в случае инноваций AR (1).

Коэффициент корреляции является базисом для стандартных мер автокорреляции. Приведенные выше графики выделяют смещение и отклонение коэффициента корреляции в конечных выборках, что усложняет практическую оценку автокорреляций в невязках модели. Корреляционные показатели были подробно изучены Фишером ([3], [4], [5]), который предложил ряд альтернативных вариантов.

Использование смещенных оценок $β_{0}$ оценить $γ_{0}$ в невязках также смещена [11]. Как описано ранее, невязки OLS в случае инноваций AR (1) не точно представляют инновации процесса из-за тенденции к ${β_{0}}_{}^{ˆ}$ для поглощения систематического влияния автокоррелированных нарушений порядка.

Чтобы еще больше усложнить ситуацию, статистика Дурбина-Ватсона, сообщаемая в народе как мера степени автокорреляции первого порядка, смещена против обнаружения любой связи между ${e_{t}}_{}^{ˆ}$ и ${e_{}^{ˆ}}_{t - 1}$ в точности в AR моделей, где такая связь присутствует. Смещение в два раза больше, чем смещение в ${β_{0}}_{}^{ˆ}$ [8].

Таким образом, OLS может постоянно переоценивать $β_{0}$ в то время как стандартные меры остаточной автокорреляции недооценивают условия, которые приводят к несогласованности. Это создает искаженное чувство качества подгонки и искажение значимости динамических терминов. Дурбинские $h$ тест аналогично неэффективен в этом контексте [7]. Дурбинские $m$ тест, или эквивалентный тест Брейша-Годфри, часто предпочтительны [1].

Аппроксимация смещения оценщика

На практике процесс, который создает временные ряды, должен быть обнаружен из имеющихся данных, и этот анализ в конечном счете ограничивается утратой доверия, которая возникает с смещением и отклонением оценки. Размеры выборки для экономических данных часто находятся в нижнем конце тех, которые рассматриваются в симуляциях выше, поэтому неточности могут быть значительными. Эффекты на прогнозную эффективность авторегрессивных моделей могут быть серьезным.

Для простых AR- моделей с простыми инновационными структурами теоретически получаются приближения смещения оценщика OLS. Эти формулы полезны при оценке надежности AR- коэффициентов модели, полученной из одной выборки данных.

В случае инноваций NID мы можем сравнить смещение симуляции с широко используемым приблизительным значением [11], [13]:

$E [{β_{0}}_{}^{ˆ}] - β_{0} \approx - 2 β_{0} / T .$

m = min(T);
M = max(T);
eBias1 = AggBetaHat1-beta0; % Estimated bias
tBias1 = -2*beta0./T;       % Theoretical bias
eB1interp = interp1(T,eBias1,m:M,'pchip');
tB1interp = interp1(T,tBias1,m:M,'pchip');

figure
plot(T,eBias1,'ro','LineWidth',2)
hold on
he1 = plot(m:M,eB1interp,'r','LineWidth',2);
plot(T,tBias1,'bo')
ht1 = plot(m:M,tB1interp,'b');
hold off
legend([he1 ht1],'Simulated Bias','Approximate Theoretical Bias','Location','E')
xlabel('Sample Size')
ylabel('Bias')
title('{\bf Estimator Bias, NID Innovations}')
grid on

$Figure contains an axes. The axes with title {\bf Estimator Bias, NID Innovations} contains 4 objects of type line. These objects represent Simulated Bias, Approximate Theoretical Bias.$

Приближение является достаточно надежным даже для выборок умеренного размера и, как правило, улучшается $β_{0}$ уменьшение абсолютного значения.

В случае инноваций AR (1) смещение зависит от обоих $β_{0}$ и $γ_{0}$ . Асимптотически оно аппроксимируется [6]:

$E [{β_{0}}_{}^{ˆ}] - β_{0} \approx γ_{0} (1 - β_{0}^{2}) / (1 + γ_{0} β_{0}) .$

eBias2 = AggBetaHat2-beta0; % Estimated bias
tBias2 = gamma0*(1-beta0^2)/(1+gamma0*beta0); % Asymptotic bias
eB2interp = interp1(T,eBias2,m:M,'pchip');

figure
plot(T,eBias2,'ro','LineWidth',2)
hold on
he2 = plot(m:M,eB2interp,'r','LineWidth',2);
ht2 = plot(0:M,repmat(tBias2,1,M+1),'b','LineWidth',2);
hold off
legend([he2 ht2],'Simulated Bias','Approximate Asymptotic Bias','Location','E')
xlabel('Sample Size')
ylabel('Bias')
title('{\bf Estimator Bias, AR(1) Innovations}')
grid on

$Figure contains an axes. The axes with title {\bf Estimator Bias, AR(1) Innovations} contains 3 objects of type line. These objects represent Simulated Bias, Approximate Asymptotic Bias.$

Здесь мы видим смещение от отрицательного к положительным значениям, когда размер выборки увеличивается, затем в конечном счете приближается к асимптотической связи. Существует область значений размеров выборки, примерно от 25 до 100, где абсолютное значение смещения ниже 0,02. В таком «сладком пятне» оценщик OLS может превзойти альтернативные оценки, разработанные специально для учета наличия автокорреляции. Описываем это поведение далее в разделе Эффекты динамики и корреляции.

Полезно построить график приблизительного асимптотического смещения в ${β_{0}}_{}^{ˆ}$ как функция от обоих $β_{0}$ и $γ_{0}$ , чтобы увидеть влияние изменения степени автокорреляции в обоих $y_{t}$ и $e_{t}$ :

figure
beta = -1:0.05:1;
gamma = -1:0.05:1;
[Beta,Gamma] = meshgrid(beta,gamma);
hold on
surf(Beta,Gamma,Gamma.*(1-Beta.^2)./(1+Gamma.*Beta))
fig = gcf;
CM = fig.Colormap;
numC = size(CM,1);
zL = zlim;
zScale = zL(2)-zL(1);
iSim = (tBias2-zL(1))*numC/zScale;    
cSim = interp1(1:numC,CM,iSim);
hSim = plot3(beta0,gamma0,tBias2,'ko','MarkerSize',8,'MarkerFaceColor',cSim);
view(-20,20)
ax = gca;
u = ax.XTick;
v = ax.YTick;
mesh(u,v,zeros(length(v),length(u)),'FaceAlpha',0.7,'EdgeColor','k','LineStyle',':')
hold off
legend(hSim,'Simulated Model','Location','Best')
xlabel('\beta_0')
ylabel('\gamma_0')
zlabel('Bias')
title('{\bf Approximate Asymptotic Bias}')
camlight
colorbar
grid on

$Figure contains an axes. The axes with title {\bf Approximate Asymptotic Bias} contains 3 objects of type surface, line. This object represents Simulated Model.$

Асимптотическое смещение становится значительным, когда $β_{0}$ и $γ_{0}$ отойти в противоположных направлениях от нулевой автокорреляции. Конечно, смещение может быть значительно меньше в конечных выборках.

Динамические и корреляционные эффекты

Как обсуждалось, проблемы использования OLS для оценки динамической модели возникают из-за нарушений допущений CLM. Два нарушения являются критическими, и мы обсуждаем их эффекты здесь более подробно.

Первый - это динамический эффект, вызванный корреляцией между предиктором $y_{t - 1}$ и все предыдущие инновации $e_{t - k}$ . Это происходит в любой модели AR и приводит к смещенным оценкам OLS из конечных выборок. В отсутствие других нарушений OLS тем не менее остается последовательным, и смещение исчезает в больших выборках.

Второй - эффект корреляции, вызванный современной корреляцией между предиктором $y_{t - 1}$ и инновации $e_{t}$ . Это происходит, когда инновационный процесс автокоррелирован, и приводит к тому, что коэффициент OLS предиктора получает слишком много, или слишком мало, кредита для современных изменений в отклике, в зависимости от признака корреляции. То есть он вызывает стойкое смещение.

Первый набор симуляций выше иллюстрирует ситуацию, в которой $β_{0}$ положительно и $γ_{0}$ равен нулю. Второй набор симуляций иллюстрирует ситуацию, в которой обе $β_{0}$ и $γ_{0}$ положительны. Для положительного $β_{0}$ , динамический эффект на ${β_{0}}_{}^{ˆ}$ отрицательно. Для положительного $γ_{0}$ , корреляционный эффект на ${β_{0}}_{}^{ˆ}$ положительно. Таким образом, в первом наборе симуляций существует отрицательное смещение между размерами выборки. Однако во втором наборе симуляций существует конкуренция между двумя эффектами с динамическим эффектом, доминирующим в небольших выборках, и эффектом корреляции, доминирующим в больших выборках.

Положительные коэффициенты AR распространены в эконометрических моделях, поэтому для двух эффектов характерно смещать друг друга, создавая область значений размеров выборки, для которых смещение OLS значительно уменьшается. Ширина этой области значений зависит от $β_{0}$ и $γ_{0}$ , и определяет верхнюю область значений OLS, в котором OLS превосходит альтернативные оценки, предназначенные для непосредственного учета автокорреляций в инновациях.

Некоторые факторы, влияющие на размер динамических и корреляционных эффектов, обобщены в [9]. Среди них:

Динамический эффект

Увеличения с уменьшением размера выборки.
Уменьшается с увеличением $β_{0}$ если отклонение нововведений сохранено фиксированной.
Уменьшается с увеличением $β_{0}$ если отклонение нововведений скорректировано так, чтобы поддерживать постоянную $R^{2}$ .
Увеличивается с отклонением нововведений.

Корреляционный эффект

Увеличения с увеличением $γ_{0}$ , со скоростью уменьшения.
Уменьшается с увеличением $β_{0}$ , со скоростью возрастания.

Влияние этих факторов может быть проверено путем изменения коэффициентов в симуляциях выше. В целом, чем больше динамический эффект и чем меньше эффект корреляции, тем шире OLSверхняя область значений.

Jackknife Смещение Уменьшение

Процедура jackknife является перекрестным методом валидации, обычно используемым для уменьшения смещения статистики выборки. Оценки Jacknife коэффициентов модели относительно легко вычислить, без необходимости больших симуляций или повторной дискретизации.

Основная идея состоит в том, чтобы вычислить оценку из полной выборки и из последовательности подвыборок, затем объединить оценки таким образом, чтобы исключить некоторый фрагмент смещения. В целом, для выборки размера $T$ , смещение оценщика OLS ${β_{0}}_{}^{ˆ}$ может быть выражено как расширение в степенях $T^{- 1}$ :

$E ({β_{0}}_{}^{ˆ}) - β_{0} = \frac{w_{1}}{T} + \frac{w_{2}}{T^{2}} + O (T^{- 3}),$

где веса $w_{1}$ и $w_{2}$ зависят от конкретного коэффициента и модели. Если оценки ${β_{i}}_{}^{ˆ}$ сделаны на последовательности $i = 1, . . ., m$ подвыборок длины $l = O (T)$ , затем jackknife estimator of $β_{0}$ является:

${β_{J}}_{}^{ˆ} = (\frac{T}{T - l}) {β_{0}}_{}^{ˆ} - (\frac{l}{T - l}) \frac{1}{m} \sum_{i = 1}^{m} {β_{i}}_{}^{ˆ} .$

Можно показать, что устройство оценки джекового ножа удовлетворяет:

$E ({β_{0}}_{}^{ˆ}) - β_{0} = O (T^{- 2}),$

таким образом удаляя $O (T^{- 1})$ термин от расширения смещения. Является ли смещение фактически уменьшенным, зависит от размера остальных членов в расширении, но оценщики jackknife показали хорошие результаты на практике. В частности, метод является устойчивым по отношению к нештатным инновациям, эффектам ARCH и различным миссионерским задачам модели [2].

Функция Statistics and Machine Learning Toolbox™ jackknife реализует процедуру жаккнайфа, используя систематическую последовательность «слева-один» подвыборок. Для временных рядов удаление наблюдений изменяет автокорреляционную структуру. Чтобы сохранить структуру зависимости в временные ряды, процедура jackknife должна использовать неперекрывающиеся подвыборки, такие как перегородки или движущиеся блоки.

Ниже реализована простая оценка джекнайфа ${β_{0}}_{}^{ˆ}$ использование раздела данных в каждой из симуляций для получения оценок подвыборки ${β_{i}}_{}^{ˆ}$ . Мы сравниваем эффективность до и после jacknifing, на моделируемых данных с NID или AR (1) инновациями:

m = 5; % Number of subsamples

% Preallocate memory:
betaHat1 = zeros(m,1); % Subsample estimates, NID innovations
betaHat2 = zeros(m,1); % Subsample estimates, AR(1) innovations
BetaHat1J = zeros(numSizes,numPaths); % Jackknife estimates, NID innovations
BetaHat2J = zeros(numSizes,numPaths); % Jackknife estimates, AR(1) innovations

% Compute jackknife estimates:
for i = 1:numSizes
    
    n = T(i); % Sample size
    l = n/m;  % Length of partition subinterval
                
    for j = 1:numPaths
        
        for s = 1:m
              
            betaHat1(s) = LY1((s-1)*l+1:s*l,j)\Y1((s-1)*l+1:s*l,j);
            betaHat2(s) = LY2((s-1)*l+1:s*l,j)\Y2((s-1)*l+1:s*l,j);
            
            BetaHat1J(i,j) = (n/(n-l))*BetaHat1(i,j)-(l/((n-l)*m))*sum(betaHat1);
            BetaHat2J(i,j) = (n/(n-l))*BetaHat2(i,j)-(l/((n-l)*m))*sum(betaHat2);
            
        end
        
    end
    
end

clear BetaHat1 BetaHat2

% Display mean estimates, before and after jackknifing:
AggBetaHat1J = mean(BetaHat1J,2);
clear BetaHat1J
fprintf('%-6s%-8s%-8s\n','Size','Mean1','Mean1J')

Size  Mean1   Mean1J

for i = 1:numSizes
    fprintf('%-6u%-8.4f%-8.4f\n',T(i),AggBetaHat1(i),AggBetaHat1J(i))
end

10    0.7974  0.8055  
50    0.8683  0.8860  
100   0.8833  0.8955  
500   0.8964  0.8997  
1000  0.8981  0.8998

AggBetaHat2J = mean(BetaHat2J,2);
clear BetaHat2J
fprintf('%-6s%-8s%-8s\n','Size','Mean2','Mean2J')

Size  Mean2   Mean2J

for i = 1:numSizes
    fprintf('%-6u%-8.4f%-8.4f\n',T(i),AggBetaHat2(i),AggBetaHat2J(i))
end

10    0.8545  0.8594  
50    0.9094  0.9233  
100   0.9201  0.9294  
500   0.9299  0.9323  
1000  0.9310  0.9323

Количество подвыборок, $m = 5$ , выбирается с наименьшим размером выборки, $n = 10$ , в виду. Больше $m$ может улучшить эффективность в больших выборках, но нет принятой эвристики для выбора размеров подприбора, поэтому необходимы некоторые эксперименты. Код легко адаптируется для использования альтернативных методов субдискретизации, таких как движущиеся блоки.

Результаты показывают равномерное снижение смещения для случая инноваций NID. В случае инноваций AR (1) процедура, по-видимому, быстрее проталкивает оценку через верхнюю область значений OLS.

Сводные данные

Этот пример показывает простую модель AR вместе с несколькими простыми инновационными структурами как способ проиллюстрировать некоторые общие проблемы, связанные с оценкой динамических моделей. Код здесь легко изменяется, чтобы наблюдать эффекты изменения значений параметров, корректировки отклонения инноваций, использования различных структур задержки и так далее. Пояснительные термины DL также могут быть добавлены к моделям. Условия DL имеют возможность уменьшить смещение оценщика, хотя OLS имеет тенденцию переоценивать коэффициенты AR за счет коэффициентов DL [11]. Общая настройка здесь позволяет проводить много экспериментов, что часто требуется при оценке моделей на практике.

При рассмотрении компромиссов, представленных смещением и отклонением любого оценщика, важно помнить, что смещенные оценки с уменьшенным отклонением могут иметь превосходные среднеквадратичные характеристики ошибки по сравнению с объективными оценками с более высокой дисперсией. Сильной точкой оценщика OLS, помимо простоты в расчет, является его относительная эффективность в уменьшении его отклонения с увеличением размера выборки. Этого часто достаточно, чтобы принять OLS в качестве оценщика выбора, даже для динамических моделей. Другой сильной точкой, как показал этот пример, является наличие OLSвысшей области значений, где OLS может превосходить другие оценки, даже при том, что обычно рассматривается как неблагоприятные условия. Самой слабой точкой оценщика OLS является его эффективность в небольших выборках, где смещение и отклонение могут быть неприемлемыми.

Вопросы оценки, поднятые в этом примере, свидетельствуют о необходимости новых показателей автокорреляции и более устойчивых методов оценки, которые будут использоваться в ее присутствии. Некоторые из этих методов описаны в примере Регрессия временных рядов X: Обобщенные оценки методом наименьших квадратов и HAC. Однако, как мы видели, несоответствия оценщика OLS для моделей AR с автокорреляцией недостаточно, чтобы исключить его, в целом, как жизнеспособного конкурента для более сложных, последовательных оценок, таких как максимальная правдоподобность, допустимые обобщенные наименьшие квадраты и инструментальные переменные, которые пытаются устранить эффект корреляции, но не изменяют Лучший выбор будет зависеть от размера выборки, структуры задержки, наличия экзогенных переменных и так далее, и часто требует видов симуляций, представленных в этом примере.

Ссылки

[1] Брейш, Т. С. и Л. Г. Годфри. Обзор недавней работы по проверке на автокорреляцию в динамических одновременных моделях. В Currie, D., R. Nobay, and D. Peel (Eds.), Macroeconomic Analysis: Essays in Macroeconomics and Econometrics. Лондон: Крум Хельм, 1981.

[2] Ёмкости, M. J. «Jacknife Estimation of Stationary Autoregressive Models». Дискуссионный документ Университета Эссекса № 684, 2011.

[3] Фишер, Р. А. Частотное распределение значений коэффициента корреляции в выборках из неопределенно большого населения. Биометрика. Том 10, 1915, с. 507-521.

[4] Фишер, Р. А. «О» вероятной ошибке «коэффициента корреляции, выведенной из малой выборки». Метрон. Том 1, 1921, с. 3-32.

[5] Фишер, Р. А. «Распределение коэффициента частичной корреляции». Метрон. Том 3, 1924, с. 329-332.

[6] Hibbs, D. «Problems of Statistical Estimation and Causal Inference in Dynamic Time Series Models». В Костнере Х. (Ред.) Социологическая методология. Сан-Франциско: Jossey-Bass, 1974.

[7] Индер, Б. А. «Конечная выборочная Степень тестов на автокорреляцию в моделях, содержащих отстающие зависимые Переменные». Экономические буквы. Том 14, 1984, стр. 179-185.

[8] Джонстон, Дж. Эконометрические методы. Нью-Йорк: McGraw-Hill, 1972.

[9] Маэширо, А. «Преподавание регрессий с отстающей зависимой переменной и автокоррелированными нарушениями порядка». Журнал экономического образования. Том 27, 1996, стр. 72-84.

[10] Maeshiro, A. «Рисунок уклона OLS для <reservedrangesplaceholder6> <reservedrangesplaceholder5> = <reservedrangesplaceholder4><reservedrangesplaceholder3><reservedrangesplaceholder2>-1+<reservedrangesplaceholder1><reservedrangesplaceholder0>». Журнал экономического образования. Том 31, 2000, стр. 76-80.

[11] Малинво, Э. Статистические методы эконометрики. Амстердам: Северо-Голландия, 1970.

[12] Marriott, F. and J. Pope. Смещение в оценке автокорреляций. Биометрика. Том 41, 1954, с. 390-402.

[13] Уайт, Дж. С. «Асимптотические расширения для среднего и отклонения коэффициента последовательной корреляции». Биометрика. Том 48, 1961, с. 85-94.

Документация