exponenta event banner

Регрессия временного ряда IX: выбор порядка задержки

В этом примере показано, как выбрать статистически значимые истории предикторов для нескольких моделей линейной регрессии. Он является девятым в серии примеров регрессии временных рядов после представления в предыдущих примерах.

Введение

Предикторы в моделях динамической регрессии могут включать запаздывающие значения экзогенных объяснительных переменных (распределенное отставание или DL, термины), запаздывающие значения эндогенных переменных ответа (авторегрессионные, или AR, термины) или оба. Запаздывающие значения инновационного процесса (скользящее среднее или MA, термины) могут иметь экономическое значение, отражающее сохранение шоков, но они чаще всего включаются для компенсации потребности в дополнительных терминах DL или AR. (См. пример Регрессия временного ряда VIII: запаздывающие переменные и смещение оценщика.)

В идеале, экономическая теория предполагает, что отстает в включении в модель. Однако часто задержка между изменениями предиктора и соответствующими изменениями ответа должна быть обнаружена посредством анализа данных. Общий подход моделирования состоит в том, чтобы включать историю предсказателя в моменты времени t-1, t-2, t-3,..., t-p, с предположением, что значительные эффекты на текущий ответ возникают только в результате недавних изменений предсказателя. Затем анализ спецификации рассматривает расширение или ограничение структуры запаздывания и, наконец, выбор соответствующего порядка запаздывания p.

В этом примере рассматриваются стратегии выбора заказов на запаздывание. Хотя детали зависят от данных и контекста моделирования, общей целью является определение краткого, легко интерпретируемого описания процесса генерации данных (DGP), которое приводит к точной оценке и надежному прогнозированию.

Мы начинаем с загрузки соответствующих данных из предыдущих примеров в этой серии:

load Data_TSReg8

Базовые тесты

Классическая, нормальная линейная модель (CNLM), представленная в примере Регрессия временных рядов I: Линейные модели, фильтрует данные для генерации остатков белого шума. Эконометрические модели не всегда стремятся к такому тщательному статистическому описанию ДГП, особенно когда предикторы диктуются теорией или политикой, а цели моделирования сосредоточены на конкретных эффектах. Тем не менее, отступления от CNLM и их степень являются общими показателями отсутствия конкретизации модели.

В любой момент процесса спецификации модели остатки могут демонстрировать ненормальность, автокорреляцию, гетероскедастичность и другие нарушения допущений CNLM. По мере добавления или удаления предикторов модели могут оцениваться по относительному улучшению качества остатков. Тесты для подгонки модели с помощью остаточного анализа описаны в примере Регрессия временного ряда VI: Остаточная диагностика.

Спецификация модели должна также учитывать статистическую значимость предикторов, чтобы избежать чрезмерной подгонки в службе остаточного отбеливания и получить скудное представление DGP. Базовые тесты включают t-тест, который оценивает значимость отдельных предикторов, и F-тест, который используется для оценки совместной значимости, скажем, всей структуры запаздывания. Эти тесты обычно используются вместе, так как предиктор с незначительным индивидуальным эффектом все еще может способствовать значительному эффекту сустава.

Многие процедуры выбора порядка запаздывания используют эти базовые тесты для оценки расширений и ограничений начальной спецификации запаздывания. Хорошая эконометрическая практика предполагает тщательную оценку каждого этапа процесса. Экономисты должны оценивать статистические решения в контексте экономической теории и модельных предположений. Автоматизированные процедуры обсуждаются в примере регрессии временного ряда V: Predictor Selection, но часто трудно полностью автоматизировать идентификацию полезной структуры запаздывания. В этом примере мы используем более «ручной» подход. Конечно, надежность любой такой процедуры критически зависит от надежности основных тестов.

Рассмотрим базовую модель кредитных дефолтов, введенную в примере Регрессия временных рядов I: Линейные модели:

M0
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Основываясь на p-значениях t-статистики, AGE - наиболее значимый индивидуальный фактор риска (положительный коэффициент) для ставок дефолта, измеряемых ответом IGD. AGE представляет собой процент эмитентов облигаций инвестиционного уровня, впервые оцененных 3 года назад. Значения по умолчанию часто возникают после этого периода, когда капитал от первоначальной эмиссии расходуется, но они могут возникнуть рано или поздно. Представляется разумным рассмотреть модели, которые включают задержки или выводы AGE.

Посадка M0 основан только на 21 наблюдении, и 5 уже оцененных коэффициентов оставляют только 16 степеней свободы для дальнейшей подгонки. Расширенные структуры запаздывания и соответствующее сокращение размера выборки поставят под сомнение достоверность диагностической статистики.

Для справки создаем таблицы и подгоняем модели с помощью AGE порядки запаздывания 1, 2, 3, 4 и 5:

% Lagged data:

AGE = DataTable.AGE;
maxLag = 5;
lags = 1:maxLag;
AGELags = lagmatrix(AGE,lags);
lagNames = strcat({'AGELag'},num2str(lags','%-d'));
AGELags = array2table(AGELags,'VariableNames',lagNames);

% Preallocate tables and models:

DTAL = cell(maxLag,1);
MAL = cell(maxLag,1);

% Fit models:

AL = AGELags;
DT = DataTable;

for lagOrder = lags
    
    lagRange = 1:lagOrder;
    
    % Trim next presample row:    
    
    AL(1,:) = [];
    DT(1,:) = [];

    % Fit model:    
    
    DTAL{lagOrder} = [AL(:,lagRange),DT];
    MAL{lagOrder} = fitlm(DTAL{lagOrder});
    MALName{lagOrder} = strcat('MAL',num2str(lagRange,'%u'));

end

Мы начинаем с рассмотрения модели с AGE порядок запаздывания 2, то есть с AGE данные о эмитентах, впервые получивших рейтинг 3 года назад, и отстающих AGE данные о эмитентах, впервые получивших рейтинг 4 и 5 лет назад:

MAL12 = MAL{2}
MAL12 = 
Linear regression model:
    IGD ~ 1 + AGELag1 + AGELag2 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue 
                   _________    _________    _______    ________

    (Intercept)     -0.31335      0.12871    -2.4345    0.031471
    AGELag1        0.0030903     0.012504    0.24714     0.80898
    AGELag2         0.014322    0.0090639     1.5802     0.14006
    AGE             0.017683     0.010243     1.7263     0.10993
    BBB             0.003078    0.0035264    0.87284     0.39988
    CPF            -0.013744    0.0047906     -2.869    0.014115
    SPR             0.030392     0.034582    0.87883     0.39675


Number of observations: 19, Error degrees of freedom: 12
Root Mean Squared Error: 0.0723
R-squared: 0.732,  Adjusted R-Squared: 0.598
F-statistic vs. constant model: 5.46, p-value = 0.00618

Запаздывающие переменные уменьшают размер выборки на два. Вместе с двумя новыми оценочными коэффициентами степени свободы уменьшаются на 4, до 12.

Подгонка модели, измеренная по среднеквадратичной ошибке и скорректированной статистике R2 (которая учитывает дополнительные предикторы), несколько улучшена по сравнению с M0. Значение предикторов уже в M0, как измеряется значениями p их t-статистики, уменьшается. Это типично, когда добавляются предикторы, если новые предикторы не являются совершенно незначительными. Общая F-статистика показывает, что расширенная модель имеет немного уменьшенное значение при описании изменения ответа.

Из двух новых предикторов, AGELag2 представляется гораздо более значимым, чем AGELag1. Это трудно интерпретировать в экономическом плане, и это ставит под сомнение точность мер значимости. Являются ли значения p артефактом малого размера выборки? Влияют ли они на нарушения предположений CNLM, что оценка недостаточно обычных наименьших квадратов (OLS)? Короче говоря, дают ли они законную причину для изменения структуры запаздывания? Получение надежных ответов на эти вопросы в выборках экономических данных реалистичного размера часто является проблемой.

Распределение любой диагностической статистики зависит от распределения технологических инноваций, как показано в остатках модели. Для t и F тестов нормальных инноваций достаточно для получения статистики тестов с распределениями t и F в конечных выборках. Однако, если нововведения отходят от нормальности, статистика может не следовать этим ожидаемым распределениям. Тесты страдают от искажений размера, где номинальные уровни значимости искажают фактическую частоту отклонения нулевой гипотезы. Когда это происходит, выводы о значимости предиктора становятся ненадежными.

Это является фундаментальной проблемой при анализе спецификаций, поскольку на любом этапе процесса модели-кандидаты, вероятно, не указаны, а данные не полностью отфильтрованы. Результаты испытаний должны учитываться в контексте остаточного ряда. Нормальный график вероятности MAL12 остатки показывают некоторые причины подозревать сообщаемые p-значения:

resAL12 = MAL12.Residuals.Raw;

normplot(resAL12)
xlabel('Residual')
title('{\bf MAL12 Residuals}')

Figure contains an axes. The axes with title {\bf MAL12 Residuals} contains 3 objects of type line.

Общее мнение заключается в том, что тесты t и F устойчивы к ненормальным инновациям. В какой-то степени это правда. Инновации из эллиптически симметричных распределений, таких как t распределений, которые обобщают многомерное нормальное распределение, дают статистику t и F, которая следует за t и F распределениями в конечных выборках [12]. Этот результат, однако, предполагает диагональную ковариационную структуру. Когда инновации демонстрируют гетероскедастичность и автокорреляцию, стандартные t и F-тесты становятся гораздо менее надежными [5], [16]. Искажения размеров могут быть существенными в конечных выборках. На практике, однако, характер распределения инноваций и степень искажения могут быть трудно измерить.

Надежные тесты

Статистика t и F включает как оценки коэффициентов, так и их стандартные ошибки. При наличии гетероскедастичности или автокорреляции оценки коэффициента ОЛС остаются несмещенными при условии, что предикторы являются экзогенными. Однако стандартные ошибки при оценке с помощью обычных формул CNLM являются смещенными.

Одним из ответов является формирование статистики с использованием стандартных оценок ошибок, которые являются устойчивыми к несферическим инновациям [2], [3], как в примере Регрессия временных рядов X: обобщенные наименьшие квадраты и оценки HAC. Эту стратегию мы иллюстрируем здесь.

P-значение t-статистики обычно вычисляется с использованием t-распределения Стьюдента. Например, для AGELag2 в MAL12:

AGELag2Idx = find(strcmp(MAL12.CoefficientNames,'AGELag2'));
coeff_AGELag2 = MAL12.Coefficients.Estimate(AGELag2Idx);
se_AGELag2 = MAL12.Coefficients.SE(AGELag2Idx);
t_AGELag2 = coeff_AGELag2/se_AGELag2;

dfeAL12 = MAL12.DFE;
p_AGELag2 = 2*(1-tcdf(t_AGELag2,dfeAL12))
p_AGELag2 = 0.1401

Это значение p, указанное в предыдущем отображении MAL12.

Используя гетероскедастико-совместимые (HC) или более общие гетероскедастико-автокорреляционно-совместимые (HAC) оценки стандартной ошибки, продолжая предполагать t-распределение Стьюдента для результирующей статистики, приводят к очень разным значениям p:

% HC estimate:

[~,seHC] = hac(MAL12,'type','HC','weights','HC3','display','off');
se_AGELag2HC = seHC(AGELag2Idx);
t_AGELag2HC = coeff_AGELag2/se_AGELag2HC;

p_AGELag2HC = 2*(1-tcdf(t_AGELag2HC,dfeAL12))
p_AGELag2HC = 0.3610
% HAC estimate:

[~,seHAC] = hac(MAL12,'type','HAC','weights','BT','display','off');
se_AGELag2HAC = seHAC(AGELag2Idx);
t_AGELag2HAC = coeff_AGELag2/se_AGELag2HAC;

p_AGELag2HAC = 2*(1-tcdf(t_AGELag2HAC,dfeAL12))
p_AGELag2HAC = 0.0688

Значение HC p показывает AGELag2 быть относительно незначительным, в то время как p-значение HAC показывает, что оно потенциально является довольно значительным. Значение p CNLM находится между ними.

Существует ряд проблем с получением надежных выводов из этих результатов. Во-первых, без более тщательного анализа остаточного ряда (как в примере Регрессия временного ряда VI: Остаточная диагностика) нет причин выбирать один стандартный оценщик ошибок над другим. Во-вторых, стандартные оценки ошибок согласуются только асимптотически, и выборка здесь невелика, даже по эконометрическим стандартам. В-третьих, оценщики требуют нескольких, иногда произвольно выбранных, параметров неприятностей ('weights', 'bandwidth', 'whiten'), которые могут значительно изменить результаты, особенно в небольших выборках. Наконец, вновь сформированная статистика t и F, сформированная с надежными стандартными ошибками, не следует за распределениями t и F в конечных выборках.

Короче говоря, оценки значимости здесь могут быть не лучше традиционных, основанных на предположениях CNLM. Модификации тестов на основе HAC, такие как тесты KVB [11], эффективны в решении проблем с индивидуальными параметрами неприятностей, но они не решают более масштабную проблему применения асимптотических методов к конечным образцам.

Тесты начальной загрузки

Другой реакцией на искажения размеров в традиционных тестах спецификаций является начальная загрузка. Тестовая статистика, вычисленная на основе исходных данных, сохраняется, но ее распределение повторно оценивается посредством смоделированной повторной выборки с целью получения более точного p-значения.

Повторная выборка данных из популяции является стандартным методом оценки распределения статистики. Однако характер экономических временных рядов обычно делает это нецелесообразным. Экономика имеет фиксированную историю. Создание реалистичных альтернативных путей со статистическими свойствами, аналогичными эмпирическим данным, требует дополнительных допущений.

В тесте с начальной загрузкой нулевая модель подгоняется под доступные данные, и нулевое распределение остатков используется для аппроксимации популяционного распределения инноваций. Затем происходит повторная выборка остатков с заменой для создания новых остаточных рядов. Соответствующие отклики начальной загрузки вычисляются с использованием фиксированных предысторий предикторов. Наконец, новые данные ответа используются для корректировки альтернативной (исходной) модели и повторного вычисления статистики теста. Этот процесс повторяется для создания загрузочного дистрибутива.

Для сравнения, мы загрузим статистику t AGELag2 при нулевой гипотезе, что его коэффициент равен нулю. Нулевая модель:

MAL1 = MAL{1}
MAL1 = 
Linear regression model:
    IGD ~ 1 + AGELag1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)      -0.1708      0.11961      -1.428      0.17521
    AGELag1        -0.011149     0.011266    -0.98959      0.33917
    AGE              0.01323     0.010845      1.2198      0.24268
    BBB            0.0062225    0.0033386      1.8638     0.083456
    CPF            -0.017738    0.0047775     -3.7129    0.0023176
    SPR              0.05048     0.036097      1.3985      0.18373


Number of observations: 20, Error degrees of freedom: 14
Root Mean Squared Error: 0.0786
R-squared: 0.634,  Adjusted R-Squared: 0.503
F-statistic vs. constant model: 4.84, p-value = 0.00885

AGELag1, очень незначительный в модели MAL12 который включает в себя оба AGELag1 и AGELag2, становится более значимым при отсутствии AGELag2, но его роль все еще незначительна по сравнению с предикторами в M0. Его коэффициент становится отрицательным, вопреки нашему пониманию его как предиктора риска дефолта. Вывод может заключаться в том, что AGELag1 не имеет значения. Тем не менее, мы сохраняем его для оценки конкретного ограничения MAL12 кому MAL1, уменьшение порядка запаздывания на 1:

DTAL1 = DTAL{1};  % Lag order 1 table
DTAL12 = DTAL{2}; % Lag order 2 table (one less observation)

numBoot = 1e3;                           % Number of statistics
res0 = MAL1.Residuals.Raw;               % Bootstrap "population"
[~,IdxBoot] = bootstrp(numBoot,[],res0); % Bootstrap indices
ResBoot = res0(IdxBoot);                 % Bootstrap residuals

IGD0 = DTAL1.IGD - res0; % Residual-free response
IGDB = zeros(size(DTAL12,1),numBoot); % Bootstrap responses

DTBoot = DTAL12;
tBoot = zeros(numBoot,1); % Bootstrap t statistics

for boot = 1:numBoot
    
    IGDBoot = IGD0 + ResBoot(:,boot);
    IGDBoot(1) = []; % Trim to size of DTBoot
    IGDBoot(IGDBoot < 0) = 0; % Set negative default rates to 0
    
    DTBoot.IGD = IGDBoot;
    MBoot = fitlm(DTBoot);
    tBoot(boot) = MBoot.Coefficients.tStat(AGELag2Idx);
    IGDB(:,boot) = IGDBoot;
    
end

Процедура создает numBoot отклики начальной загрузки, которые заменяют исходный отклик на фиксированные данные предиктора:

figure
hold on
bootDates = dates(3:end);
hIGD = plot(bootDates,IGDB,'b.');
hIGDEnd = plot(bootDates,IGDB(:,end),'b-');
hIGD0 = plot(bootDates,DTAL12.IGD,'ro-','LineWidth',2);
hold off
xlabel('Date')
ylabel('Default Rate')
title('{\bf Bootstrap Responses}')
legend([hIGD(end),hIGDEnd,hIGD0],'Bootstrap Responses',...
                                 'Typical Bootstrap Response',...
                                 'Empirical Response',...
                                 'Location','NW')

Figure contains an axes. The axes with title {\bf Bootstrap Responses} contains 1002 objects of type line. These objects represent Bootstrap Responses, Typical Bootstrap Response, Empirical Response.

Загрузочное значение p не сильно отличается от исходного значения p, p_AGELag2, найдено с использованием распределения Student's t:

p_AGELag2
p_AGELag2 = 0.1401
p_AGELag2Boot = sum(tBoot > t_AGELag2)/length(tBoot)
p_AGELag2Boot = 0.1380

Однако гистограмма показывает, что распределение начальной загрузки статистики t сдвинулось:

figure
hold on

numBins = 50;
hHist = histogram(tBoot,numBins,'Normalization','probability',...
                                'FaceColor',[.8 .8 1]);

x = hHist.BinLimits(1):0.001:hHist.BinLimits(end);
y = tpdf(x,dfeAL12);
hPDF = plot(x,y*hHist.BinWidth,'m','LineWidth',2);

hStat = plot(t_AGELag2,0,'ro','MarkerFaceColor','r');
line([t_AGELag2 t_AGELag2],1.2*[0 max(hHist.Values)],'Color','r')
axis tight

legend([hHist,hPDF,hStat],'Bootstrap {\it t} Distribution',...
                          'Student''s {\it t} Distribution',...
                          'Original {\it t} Statistic',...
                          'Location','NE')
xlabel('{\it t}')
title('{\bf Bootstrap {\it t} Statistics}')

hold off

Figure contains an axes. The axes with title {\bf Bootstrap {\it t} Statistics} contains 4 objects of type histogram, line. These objects represent Bootstrap {\it t} Distribution, Student's {\it t} Distribution, Original {\it t} Statistic.

Статистика t менее значима в распределении начальной загрузки, предполагая возможное влияние несферических инноваций на первоначальный тест.

У теста начальной загрузки есть свои трудности. Для обеспечения неотрицательности ставок по умолчанию необходимо обрезать загрузочные ответы с отрицательными значениями. Последствия для вывода неясны. Более того, загрузочный тест основан, в основном, на предположении, что эмпирическое распределение остатков верно представляет соответствующие характеристики распределения инноваций в DGP. В более мелких образцах это трудно оправдать.

Существует множество вариантов начальной загрузки. Например, wild bootstrap [7], который сочетает надежную оценку с остаточной повторной выборкой, кажется, хорошо работает с меньшими образцами в присутствии гетероскедастичности.

Тесты на основе правдоподобия

Версии t и F тестов, сформулированные с использованием предположений CNLM, могут обеспечить надежные выводы в различных ситуациях, когда распределение инноваций отходит от спецификации. Тесты на основе правдоподобия, напротив, требуют формальной модели инноваций, чтобы работать вообще. Вероятность данных обычно вычисляется в предположении независимых и нормально распределенных инноваций с фиксированной дисперсией. Эта базовая модель DGP может быть скорректирована для учета различных инновационных моделей, включая более высокие вероятности экстремальных событий, но сильное предположение о распределении остается.

Подобно статистике F, вероятности данных (или, на практике, логические особенности) измеряют соответствие всей модели или структуры запаздывания, а не значимость отдельных терминов модели. Вероятности основаны на совместной вероятности данных в предположении распределения, а не на остаточных суммах квадратов. Большие вероятности указывают на лучшую подгонку, но для оценки относительного качества моделей необходимо оценить статистическую значимость различий правдоподобия.

Рассмотрим нормальные логики оценок OLS MAL12 и его ограничения. Мы начинаем с построения MAL2, только с AGELag2, для завершения набора рассмотренных ограничений:

DTAL2 = [AGELags(:,2),DataTable];
MAL2 = fitlm(DTAL2)
MAL2 = 
Linear regression model:
    IGD ~ 1 + AGELag2 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.29694      0.10622    -2.7955      0.01516
    AGELag2         0.013694    0.0083803     1.6341      0.12621
    AGE             0.017022    0.0095247     1.7872     0.097235
    BBB            0.0035843    0.0027645     1.2965      0.21733
    CPF            -0.014476    0.0036275    -3.9907    0.0015388
    SPR             0.033047     0.031661     1.0438      0.31562


Number of observations: 19, Error degrees of freedom: 13
Root Mean Squared Error: 0.0696
R-squared: 0.731,  Adjusted R-Squared: 0.627
F-statistic vs. constant model: 7.05, p-value = 0.00216
% Unrestricted loglikelihood of MAL12:
uLLOLS = MAL12.LogLikelihood
uLLOLS = 27.3282
% Restricted loglikelihoods of M0, MAL1, and MAL2:
rLLOLS = [M0.LogLikelihood;MAL1.LogLikelihood;MAL2.LogLikelihood]
rLLOLS = 3×1

   27.0796
   26.0606
   27.2799

Это логики OLS, основанные на остаточных сериях. Например, логика данных в отношении M0 вычисляется с использованием:

resM0 = M0.Residuals.Raw;
MSEM0 = M0.MSE;
muM0 = mean(resM0);
LLM0 = sum(log(normpdf(resM0,muM0,sqrt(MSEM0))))
LLM0 = 26.7243

Поскольку OLS не обязательно максимизирует вероятности, если не выполняются предположения CNLM, ограничения пространства параметров модели могут увеличить вероятности данных. Мы видим это для ограничений M0 и MAL2. Это еще раз говорит о ненормальном процессе инноваций.

Для сравнения рассмотрим меры, основанные на оценках максимального правдоподобия (MLE) коэффициентов модели, используя arima функция. Мы подгоняем модели ARMAX со спецификациями AR и MA нулевого порядка (то есть модели чистой регрессии):

% Prepare data:

LLOLS = [uLLOLS;rLLOLS];

DataAL12 = table2array(DTAL12);
y = DataAL12(:,7);
X = DataAL12(:,1:6);
PredCols = {1:6,3:6,[1,3:6],2:6};
ModelNames = {'MAL12','M0','MAL1','MAL2'};

% Compute MLEs:

LLMLE = zeros(4,1);
Mdl = arima(0,0,0);
options = optimoptions(@fmincon,'Display','off','Diagnostics','off',...
    'Algorithm','sqp','TolCon',1e-7);
for model = 1:4
    [~,~,LL] = estimate(Mdl,y,'X',X(:,PredCols{model}),...
                              'Display','off','Options',options);
    LLMLE(model) = LL;
end

% Display results:

fprintf('\nLoglikelihoods\n')
Loglikelihoods
fprintf('\n%-8s%-9s%-9s','Model |','OLSLL','MLELL')
Model | OLSLL    MLELL    
fprintf(['\n',repmat('=',1,24)])
========================
for model = 1:4    
    fprintf(['\n%-6s','| ','%-9.4f%-9.4f'],...
            ModelNames{model},LLOLS(model),LLMLE(model))    
end
MAL12 | 27.3282  27.3282  
M0    | 27.0796  25.5052  
MAL1  | 26.0606  25.5324  
MAL2  | 27.2799  27.2799  

В случае MLE все ограниченные модели имеют уменьшенную вероятность описания данных, как и ожидалось. Показатели OLS и MLE расходятся в модели наибольшей вероятности с выбором OLS M0и выбор MLE MAL12.

Значительны ли различия в вероятности? Для MLE этот вопрос традиционно решался в некоторой версии теста отношения правдоподобия (реализован lratiotest), тест Вальда (реализован waldtest) или тест множителя Лагранжа (реализованный lmtest). Они обсуждаются в примере Классические испытания модели (тесты CMM). Геометрия сравнения для тестов ШМ основана в основном на оптимальности коэффициентов модели. Они не должны использоваться с возможностями OLS, если нет доказательств того, что предположения CNLM удовлетворены.

Подобно F-тестам, CMM-тесты применимы только к сравнениям вложенных моделей, которые являются ограничениями или расширениями друг друга. Это типичная ситуация при оценке структур запаздывания. В отличие от F-тестов, CMM-тесты применимы к сравнениям, включающим нелинейные модели, нелинейные ограничения и ненормальные (но полностью определенные) инновационные распределения. Это важно в определенных эконометрических настройках, но редко при выборе порядка запаздывания. Недостатком тестов ШМ является то, что они придают значимость различиям моделей только асимптотически и поэтому должны использоваться с осторожностью в конечных выборках.

Например, тест отношения правдоподобия, наиболее прямая оценка различий правдоподобия MLE, может быть использован для оценки адекватности различных ограничений:

% Restrictions of |MAL12| to |M0|, |MAL1|, and |MAL2|:
dof = [2;1;1]; % Number of restrictions
[hHist,pValue] = lratiotest(LLMLE(1),LLMLE(2:4),dof)
hHist = 3x1 logical array

   0
   0
   0

pValue = 3×1

    0.1615
    0.0581
    0.7561

% Restrictions of |MAL1| and |MAL2| to |M0|:
dof = [1;1]; % Number of restrictions
[hHist,pValue] = lratiotest(LLMLE(3:4),LLMLE(2),dof)
hHist = 2x1 logical array

   0
   0

pValue = 2×1

    0.8154
    0.0596

На уровне значимости по умолчанию 5% тест не отклоняет нулевую ограниченную модель в пользу альтернативной неограниченной модели во всех случаях. То есть статистический случай для включения любой структуры запаздывания является слабым. Исходная модель, M0, может быть выбран исключительно из соображений парсимонии модели.

Альтернативой испытаниям ШМ являются различные формы информационных критериев (ИС). IC также рассматривает благость соответствия, измеряемую вероятностями, но наказывает за отсутствие парсимонии, измеряемой количеством модельных коэффициентов. Как и в случае чистых вероятностей, скорректированные вероятности ИС обеспечивают относительный, но не абсолютный показатель адекватности модели. Тем не менее, не существует обычно используемых тестов гипотез, соответствующих тестам CMM, для оценки значимости различий IC. Основное преимущество на практике заключается в том, что ИС можно использовать для сравнения несложных моделей, хотя это часто не имеет значения при сравнении структур запаздывания.

В следующей таблице сравниваются два общих IC, AIC и BIC, а также эквивалент OLS, скорректированный R2:

AR2 = [MAL12.Rsquared.Adjusted; M0.Rsquared.Adjusted; ...
       MAL1.Rsquared.Adjusted; MAL2.Rsquared.Adjusted];
   
AIC = [MAL12.ModelCriterion.AIC; M0.ModelCriterion.AIC; ...
       MAL1.ModelCriterion.AIC; MAL2.ModelCriterion.AIC];
   
BIC = [MAL12.ModelCriterion.BIC; M0.ModelCriterion.BIC; ...
       MAL1.ModelCriterion.BIC; MAL2.ModelCriterion.BIC];

fprintf('\nSize-Adjusted Fit\n')
Size-Adjusted Fit
fprintf('\n%-8s%-7s%-9s%-9s','Model |','AR2','AIC','BIC')
Model | AR2    AIC      BIC      
fprintf(['\n',repmat('=',1,32)])
================================
for model = 1:4     
    fprintf(['\n%-6s','| ','%-7.4f','%-9.4f','%-9.4f'],...
            ModelNames{model},AR2(model),AIC(model),BIC(model))    
end
MAL12 | 0.5979 -40.6563 -34.0452 
M0    | 0.5264 -44.1593 -38.9367 
MAL1  | 0.5028 -40.1213 -34.1469 
MAL2  | 0.6269 -42.5598 -36.8932 

При сравнении моделей более высокие скорректированные R2 и более низкие IC указывают на лучший компромисс между посадкой и уменьшенными степенями свободы. Результаты показывают предпочтение включения структуры запаздывания при оценке с помощью скорректированных R2, но не при оценке с помощью ИС. Такого рода разногласия не редкость, особенно с небольшими образцами, и, кроме того, предполагает сравнительное использование нескольких методов тестирования.

BIC, с его, как правило, более строгими штрафами на дополнительные коэффициенты, имеет тенденцию выбирать более простые модели, хотя часто не такие простые, как те, которые выбраны последовательным t и F тестированием со стандартными настройками. BIC обладает некоторыми превосходными свойствами больших выборок, такими как асимптотическая непротиворечивость, но исследования Монте-Карло показали, что AIC может превосходить BIC в правильной идентификации DGP в небольших выборках данных [6]. Альтернативная версия AIC, AICc, корректирует для небольших образцов и особенно полезна в этих ситуациях.

Тестирование вверх, тестирование вниз

При попытке определить значительные, но скудные структуры запаздывания в эконометрических моделях часто используются две общие стратегии. Первое - начать с небольшой модели, затем протестировать дополнительные задержки до тех пор, пока их индивидуальная значимость, или совместная значимость всей структуры запаздывания, не опустится ниже установленного уровня. Это называется тестирование. Альтернативно, щедрая первоначальная структура запаздывания систематически обрезается до тех пор, пока не станет значительным наибольшее запаздывание или вся структура запаздывания. Это называется тестирование.

Тестирование начинается с скрупулезного описания данных, такого как статическая модель с текущими значениями соответствующих предикторов, но без динамических терминов. Затем происходит переход от конкретного к общему. Каждый этап процесса оценивает эффект добавления нового запаздывания, обычно используя некоторую комбинацию t-тестов, F-тестов, CMM-тестов или IC. Он останавливается, когда добавление нового запаздывания становится незначительным на каком-то заданном уровне. Это гарантирует, таким образом, что первоначальная модель парсимония в некоторой степени сохранится.

Признавая бритву Оккама и принципы научного метода, тестирование предлагает ряд преимуществ. Простые модели менее дороги в вычислении, легче интерпретировать и обнаруживать нарушения спецификации, лучше работать с небольшими выборками и более поддаются обобщению. Более того, они часто дают лучшие прогнозы [10].

Тем не менее, тестирование часто не рекомендуется для выбора порядка запаздывания и экономического моделирования в целом. Существует распространенный сценарий, когда значительные задержки лежат за пределами первого незначительного, например, с сезонными лагами. Автоматическое тестирование не обнаружит их. Кроме того, последовательное тестирование в присутствии пропущенных переменных, которые еще не были добавлены к модели, создает смещение оценщика и искажения размеров теста и мощности, что в конечном итоге приводит к неправильным выводам. Опущенное переменное смещение обсуждается в примерах Регрессия временного ряда IV: Ложная регрессия и Регрессия временного ряда VIII: запаздывающие переменные и смещение оценщика.

Как следствие, тестирование часто рекомендуется [9]. Эта стратегия начинается с модели, которая включает все потенциальные объясняющие переменные. То есть он включает в себя смесь предикторов, имеющих более или менее важное значение для объяснения вариации ответа. Затем он переходит от общего к конкретному (иногда называемому GETS). Каждый шаг процесса оценивает эффект удаления предиктора, используя те же самые виды тестов, которые используются для тестирования. Он останавливается, когда ограниченная модель достигает некоторого заданного уровня значимости.

Такой подход имеет несколько преимуществ. Если исходная модель и структура запаздывания достаточно всеобъемлющи, то все испытания проводятся, по крайней мере в принципе, при отсутствии пропущенного переменного смещения. Локализованные тесты, такие как тесты на наибольшее отставание, могут привести к моделям, которые продолжают содержать смесь значительных и незначительных отставаний, но поскольку все они присутствуют в модели, их можно исследовать на предмет совместной значимости. Недостатком такого подхода является отсутствие теоретического руководства, или даже хороших эвристических советов, при выборе начального порядка запаздывания в разных ситуациях моделирования.

Следующая таблица показывает p значений t статистики по коэффициентам отставания AGE в запаздывающих структурах порядка, 1 5:

fprintf('\nt Statistic p Values\n')
t Statistic p Values
fprintf('\n%-11s%-5s%-5s%-5s%-5s%-5s','Model    |',...
        'AL1','AL2','AL3','AL4','AL5')
Model    | AL1  AL2  AL3  AL4  AL5  
fprintf(['\n',repmat('=',1,35)])
===================================
for lag = 1:5
    pVals = MAL{lag}.Coefficients.pValue(2:lag+1);
    fprintf(['\n%-9s','| ',repmat('%-5.2f',1,lag)],...
            MALName{lag},pVals(1:lag))    
end
MAL1     | 0.34 
MAL12    | 0.81 0.14 
MAL123   | 0.77 0.45 0.44 
MAL1234  | 0.55 0.76 0.55 0.30 
MAL12345 | 0.88 0.91 0.19 0.14 0.29 

При уровне значимости 15% тестирование начинается с M0 не добавляет задержки к модели, поскольку она не может отклонить нулевой коэффициент для AgeLag1 в первой испытанной модели, MAL1. На том же уровне тестирование от самой большой модели, последовательная оценка значимости самого большого отставания, MAL12 выбрано, добавление двух лагов к M0. Относительная значимость определенных лагов в различных структурах запаздывания подчеркивает риск автоматизации этих локализованных оценок.

Статистика F добавляет полезную информацию о значимости суставов. F-тесты на дополнительных лагах относительно модели со всеми предыдущими лагами эквивалентны t-тестам с одинаковыми значениями p. Однако F-тесты всей структуры запаздывания относительно статической спецификации могут дать намеки на значительные запаздывания до наибольшего запаздывания. F-отношения вычисляются с помощью coefTest способ LinearModel класс:

fprintf('\nF Statistic p Values\n')
F Statistic p Values
fprintf('\n%-11s%-5s%-5s','Model    |','Last','All')
Model    | Last All  
fprintf(['\n',repmat('=',1,20)])
====================
for lag = 1:5
    
    % Sequential F test (last lag = 0):
    HSq = [zeros(1,lag),1,zeros(1,4)];
    pSq = coefTest(MAL{lag},HSq);
        
    % Static F test (all lags = 0):
    HSt = [zeros(lag,1),eye(lag),zeros(lag,4)];
    pSt = coefTest(MAL{lag},HSt);

    fprintf(['\n%-9s','| ','%-5.2f','%-5.2f'],MALName{lag},pSq,pSt)
    
end
MAL1     | 0.34 0.34 
MAL12    | 0.14 0.32 
MAL123   | 0.44 0.65 
MAL1234  | 0.30 0.74 
MAL12345 | 0.29 0.54 

Статистика F не может подскочить-начать зашедшую в тупик стратегию тестирования, но при тестировании они дают основания пересмотреть самую большую модель с ее относительно более низким значением p. Возросшая значимость AgeLag3 и AgeLag4 в MAL12345, обозначенные t статистическими значениями p, повышают совместную значимость этой структуры запаздывания. Тем не менее, наиболее значимая общая структура запаздывания находится в MAL12, в соответствии с тестированием с помощью статистики t.

Как и следовало ожидать, исследования Монте-Карло показывают, что стратегии автоматизированного тестирования часто не подходят, когда DGP является супермоделью, а тестирование не подходит, когда DGP является подмоделью [14]. В любом случае производительность улучшается путем систематической корректировки уровней значимости для учета различных степеней свободы. В целом, однако, статистические последствия исключения соответствующих лагов обычно считаются более серьезными, чем включение неактуальных лагов, и допуски отклонения должны быть установлены соответствующим образом.

На практике гибридные стратегии обычно предпочтительны, перемещая предикторы в модель и из нее до тех пор, пока не будет оптимизирована некоторая мера подгонки, и не будет получена экономически разумная модель. Пошаговая регрессия (описанная в примере Регрессия временного ряда V: Выбор предиктора) является одним из способов автоматизации этого подхода. При современных вычислительных мощностях также существует возможность в некоторых случаях исчерпывающей оценки всех актуальных моделей. Однако, как показывает этот пример, автоматизация процедур выбора моделей должна рассматриваться с некоторым скептицизмом. Процесс обязательно динамичен, тесты имеют разную степень актуальности, и решения в конечном итоге требуют некоторого рассмотрения экономической теории и целей моделирования.

Особые случаи

Из-за трудностей использования стандартных процедур тестирования в контекстах моделирования, где нарушаются допущения CNLM, был разработан ряд специализированных процедур для использования с конкретными типами моделей. В некоторых случаях соответствующие заказы на запаздывание могут быть определены исключительно посредством анализа данных. Другие случаи требуют последовательной оценки и оценки ряда моделей-кандидатов.

  • Модели ARMA. Стационарные временные ряды часто представлены теоретически процессами МА бесконечного порядка [18]. Модели ARMA переводят эти представления в конечную, рациональную форму. Заказы на запаздывание для компонентов AR и MA модели должны выбираться вместе для достижения баланса между точностью и парсимонией модели. Стандартный способ [4] идентификации, описанный в примере Выбор модели Бокса-Дженкинса, исследует закономерности в выборочных автокорреляционных функциях для определения относительной значимости потенциальных структур запаздывания.

  • Модели ARDL. На многие экономические переменные влияют экзогенные процессы вождения, которые могут оказывать постоянное воздействие на ДГУ. Теоретически они представлены DL-моделями бесконечного порядка, но как и в случае с ARMA-моделями, для практической оценки требуются конечные, рациональные формы. Стандартные методы, такие как предложенные Almon [1] и Koyck [13], присваивают веса структуре запаздывания таким образом, что модель может быть преобразована в форму AR, ARMA или ARMAX. Методы являются более случайными, чем управляемые данными, и подвержены проблемам коллинеарности, которые возникают в результате работы со многими лагами предиктора в ближайшее время. (См. пример Регрессия временного ряда II: коллинеарность и дисперсия оценщика.)

  • Модели GARCH. Модели GARCH обычно используются для моделирования моделей гетероскедастичности в инновационном процессе, особенно в финансовых приложениях. Как и модели ARMA и ARDL, они сочетают два типа лагов, с порядками, которые должны быть сбалансированы соответствующим образом. На практике существуют методы преобразования моделей GARCH в форму ARMA [8], где могут применяться методы Бокса-Дженкинса, но это редко делается на практике. Для большинства экономических и финансовых рядов отставание порядка 1 и 1, как представляется, служит хорошим.

  • Корневые тесты блока. Тесты корня блока и стационарности, такие как adftest и lmctest, использовать динамические модели процесса тестирования и требовать от пользователей выбора порядка задержки. Этот неприятный параметр может оказать значительное влияние на результаты теста. Потенциальное наличие нестационарных данных в этой установке ставит под сомнение использование стандартных t и F тестов. Однако Симс, Сток и Уотсон [17] показали, что они оправданы, когда регрессия включает все детерминированные компоненты DGP.

  • Модели VAR. Модели VAR являются общей, широко используемой формой для представления систем взаимодействующих экономических переменных. Они требуют порядка запаздывания, который фиксирует соответствующую историю прошлого всех переменных в модели. Так как модели являются многомерными, затраты на оценку быстро растут с увеличением порядка запаздывания, поэтому необходима скрупулезная процедура выбора. Lütkepohl [15] обсуждает различные стратегии, большинство из которых являются многомерными обобщениями методов, представленных в этом примере.

Резюме

В этом примере рассматриваются общие стратегии для выбора порядка запаздывания и приводится пример адаптации стратегий к отдельным наборам данных и моделям. Рассматриваемые здесь данные немногочисленны и далеки от идеализаций асимптотического анализа. Также вполне возможно, что исследуемая модель может быть неточной, что смешивает ее собственную оценку. Однако эти препятствия довольно типичны в эконометрической практике. Без учета «практического» применения, руководствуясь некоторым чувством экономической реальности, выбор порядка отставания предоставляет много возможностей для искаженного вывода, который может привести к плохой работе моделей. Знакомство с общими трудностями, однако, может помочь направить путь к более четким спецификациям.

Конечно, не всегда нужно выбирать «лучшую» модель или порядок отставания. Часто, учитывая статистическую неопределенность, достаточно исключить большое подмножество крайне маловероятных кандидатов, оставив меньшее подмножество для дальнейшего анализа и сбора данных. Стратегии этого примера служат этой цели хорошо.

Ссылки

[1] Альмон, С. «Распределенное отставание между капитальными ассигнованиями и расходами». Эконометрика. т. 33, 1965, с. 178-196.

[2] Эндрюс, Д. В. К. «Оценка гетероскедастичности и автокорреляционной согласованной ковариационной матрицы». Эконометрика. Том 59, 1991, стр. 817-858.

[3] Эндрюс, Д. В. К. и Дж. К. Монохан. «Улучшенная гетероскедастичность и согласованная ковариационная матричная оценка автокорреляции». Эконометрика. Том 60, 1992, стр. 953-966.

[4] Бокс, Джордж Э. П., Гвилим М. Дженкинс и Грегори К. Рейнсель. Анализ временных рядов: прогнозирование и контроль. 3-й ред. Энглвуд Клиффс, Нью-Джерси: Прентис Холл, 1994.

[5] Банерджи, А. Н. и Дж. Р. Магнус. «О чувствительности обычных t- и F-тестов к ковариантной мисспецификации». Журнал эконометрики. Том 95, 2000, стр. 157-176.

[6] Бернем, Кеннетом П. и Дэвидом Р. Андерсоном. Выбор модели и вывод мультимодели: практический информационно-теоретический подход. 2-е изд., Нью-Йорк: Спрингер, 2002.

[7] Дэвидсон, Р. и Э. Флашер. «The Wild Bootstrap, прирученный наконец.» Журнал эконометрики. т. 146, 2008, стр. 162-169.

[8] Гамильтон, Джеймс Д. Анализ временных рядов. Принстон, Нью-Джерси: Princeton University Press, 1994.

[9] Хендри, Д. Ф. Эконометрика: алхимия или наука? Oxford: Oxford University Press, 2001.

[10] Keuzenkamp, H. A. и М. Макэлир. «Простота, научный вывод и экономическое моделирование». Экономический журнал. Том 105, 1995, стр. 1-21.

[11] Кифер, Н. М., Т. Дж. Фогельсанг, и Х. Бунцель. «Простое надежное тестирование гипотез регрессии». Эконометрика. Том 68, 2000, стр. 695-714.

[12] Кинг, М. Л. «Надежные тесты на сферическую симметрию и их применение к регрессии наименьших квадратов». Анналы статистики. Т. 8, 1980, с. 1265-1271.

[13] Койк, Л. М. Распределенные модели лагов и инвестиционный анализ. Амстердам: Северная Голландия, 1954.

[14] Кролциг, Х. -М., и Хендри, Д. Ф. «Компьютерная автоматизация общих процедур выбора моделей». Журнал экономической динамики и контроля. Том 25, 2001, стр. 831-866.

[15] Люткеполь, Гельмут. Новое введение в анализ нескольких временных рядов. Нью-Йорк, Нью-Йорк: Спрингер-Верлаг, 2007.

[16] Цинь, Х. и А. Т. К. Вань. «О свойствах t- и F-отношений в линейных регрессиях с ненормальными ошибками». Эконометрическая теория. т. 20, № 4, 2004, стр. 690-700.

[17] Sims, C., Stock, J. и Watson, М. «Вывод в моделях линейных временных рядов с некоторыми единичными корнями». Эконометрика. Том 58, 1990, стр. 113-144.

[18] Wold, H. Исследование в анализе стационарных временных рядов. Уппсала, Швеция: Almqvist & Wiksell, 1938.