Регрессия временных рядов I: линейные модели

Этот пример вводит основные допущения за несколькими линейными регрессиоными моделями. Это первый в серии примеров по регрессии временных рядов, обеспечивающий базис для всех последующих примеров.

Несколько линейных моделей

Процессы временных рядов часто описываются многофакторными линейными регрессиями (MLR) вида:

yt=Xtβ+et,

где yt является наблюдаемой реакцией и Xt содержит столбцы для современных значений наблюдаемых предикторов. Частичные коэффициенты регрессии в β представление предельных вкладов отдельных предикторов в изменение в yt когда все другие предикторы остаются фиксированными.

Термин et является catch-all для различий между предсказанными и наблюдаемыми значениями yt. Эти различия связаны с колебаниями процесса (изменения в β), ошибки измерения (изменения в Xt) и модель определения (для примера, опущенных предикторов или нелинейных отношений между Xt и yt). Они также возникают из-за присущей стохастичности в базовом процессе генерации данных (DGP), который модель пытается представлять. Обычно принято, что et генерируется ненаблюдаемым инновационным процессом со стационарной ковариацией

ΩT=Cov({e1,...,eT}),

для любого временного интервала длины T. При некоторых дальнейших основных допущениях о Xt, etи их отношения, достоверные оценки β получаются обычными наименьшими квадратами (OLS).

Как и в других социальных науках, экономические данные обычно собираются пассивным наблюдением, без помощи контролируемых экспериментов. Теоретически релевантные предикторы могут потребоваться заменить практически доступными прокси. Экономические наблюдения, в свою очередь, могут иметь ограниченную частоту, низкую изменчивость и сильные взаимозависимости.

Эти недостатки данных приводят к ряду проблем с надежностью оценок OLS и стандартных статистических методов, применяемых к спецификации модели. Оценки коэффициентов могут быть чувствительны к ошибкам измерения данных, что делает тесты значимости ненадежными. Одновременные изменения в нескольких предикторах могут привести к взаимодействиям, которые трудно разделить на отдельные эффекты. Наблюдаемые изменения в ответе могут быть коррелированы с, но не вызваны, наблюдаемыми изменениями в предикторах.

Оценка допущений модели в контексте доступных данных является целью анализа спецификаций. Когда надежность модели становится подозрительной, практические решения могут быть ограничены, но тщательный анализ может помочь идентифицировать источник и степень любых проблем.

Это первый в серии примеров, которые обсуждают основные методы для определения и диагностики моделей MLR. Серия также предлагает некоторые общие стратегии для решения конкретных вопросов, которые возникают при работе с экономическими данными временных рядов.

Классические допущения

Допущения классической линейной модели (CLM) позволяют OLS производить оценки βˆ с желаемыми свойствами [3]. Фундаментальным предположением является то, что модель MLR и выбранные предикторы правильно задают линейную зависимость в базовом DGP. Другие допущения CLM включают:

  • Xt - полный ранг (нет коллинеарности среди предикторов).

  • et некоррелирован с Xs для всех s (строгая экзогенность предикторов).

  • et не автокоррелирован (ΩT диагональ).

  • et является гомосцедастическим (диагональные элементы в ΩT все σ2).

Предположим ϵ=βˆ-β - ошибка расчета. Смещение оценщика E[ϵ] и средняя квадратная ошибка (MSE) E[ϵϵ]. MSE является суммой отклонения оценщика и квадрата смещения, поэтому он аккуратно суммирует два важных источника неточности оценщика. Его не следует путать с регрессионным MSE, касающимся невязок модели, который зависит от выборки.

Все оценщики ограничены в своей способности минимизировать MSE, который никогда не может быть меньше, чем нижняя граница Крамера-Рао [1]. Эта граница достигается асимптотически (то есть, когда размер выборки увеличивается) с помощью максимального оценщика правдоподобия (MLE). Однако в конечных выборках, и особенно в относительно небольших выборках, встречающихся в экономике, другие оценщики могут конкурировать с MLE с точки зрения относительной эффективности, то есть с точки зрения достигнутого MSE.

Согласно допущениям CLM, теорема Гаусса-Маркова говорит, что оценка OLS βˆ СИНИЙ:

  • B est (минимальное отклонение)

  • L-линейный (линейная функция данных)

  • U nbiased (E[βˆ]=β)

  • E-стимулятор коэффициентов в β.

BEST добавляет до минимума MSE среди линейных оценок. Линейность важна, потому что теория линейных векторных пространств может быть применена к анализу оценщика (см., например, [5]).

Если нововведения et нормально распределены, βˆ также будет нормально распространяться. В этом случае надежный t и F тесты могут быть проведены на оценках коэффициентов для оценки значимости предиктора, и доверительные интервалы могут быть построены для описания отклонения оценщика с использованием стандартных формул. Нормальность также позволяет βˆ достичь нижней границы Крамера-Рао (она становится эффективной) с оценками, идентичными MLE.

Независимо от распределения et, теорема Central Limit уверяет, что βˆ будет приблизительно нормально распределен в больших выборках, так что стандартные методы вывода, связанные со спецификацией модели, станут действительными асимптотически. Однако, как отмечалось ранее, выборки экономических данных часто относительно малы, и теорема Центрального предела не может опираться на нормальное распределение оценок.

Статические эконометрические модели представляют системы, которые реагируют исключительно на текущие события. Статические модели MLR предполагают, что предикторы, образующие столбцы Xt являются современными с ответом yt. Оценка допущений CLM относительно проста для этих моделей.

Напротив, динамические модели используют отстающие предикторы, чтобы включать обратную связь с течением времени. В допущениях CLM нет ничего, что явно исключает предикторы с лагами или лидами. Действительно, отставшие экзогенные предикторы xt-k, без взаимодействия с инновациями et, не влияют, сами по себе, на Гауссовско-марковскую оптимальность оценки OLS. Если предикторы включают соседние лаги xt-k, xt-k-1, xt-k-2..., однако, как часто делают экономические модели, тогда, вероятно, будут введены взаимозависимости предикторов, нарушающие предположение CLM об отсутствии коллинеарности и создавающие связанные с этим проблемы для оценки OLS. Эта проблема обсуждается в примере Регрессия временных рядов II: Коллинеарность и отклонение оценщика.

Когда предикторы являются эндогенными, определяемыми отстающими значениями отклика yt (авторегрессивные модели), предположение CLM о строгой экзогенности нарушается посредством рекурсивных взаимодействий между предикторами и инновациями. В этом случае возникают другие, часто более серьезные, проблемы оценки OLS. Эта проблема обсуждается в примере Регрессия временных рядов VIII: Задержки переменных и смещение оценщика.

Нарушения допущений CLM на ΩT (несферические инновации) обсуждаются в примере Регрессия временных рядов VI: Остаточная диагностика.

Нарушения допущений CLM не обязательно признают недействительными результаты оценки OLS. Вместе с тем важно помнить, что эффекты отдельных нарушений будут более или менее следствием в зависимости от того, сочетаются ли они с другими нарушениями. Анализ спецификаций пытается идентифицировать всюсь область значений нарушений, оценить эффекты на оценку модели и предложить возможные средства правовой защиты в контексте целей моделирования.

Данные временных рядов

Рассмотрим простую модель MLR ставок дефолта кредита. Файл Data_CreditDefaults.mat содержит исторические данные о дефолтах корпоративных облигаций инвестиционного уровня, а также данные о четырех потенциальных предикторах за 1984-2004 годы:

load Data_CreditDefaults
X0 = Data(:,1:4);         % Initial predictor set (matrix)
X0Tbl = DataTable(:,1:4); % Initial predictor set (tabular array)
predNames0 = series(1:4); % Initial predictor set names
T0 = size(X0,1);          % Sample size
y0 = Data(:,5);           % Response data
respName0 = series{5};    % Response data name

Потенциальные предикторы, измеренные для года t, являются:

  • AGE Процент эмитентов инвестиционных облигаций впервые оценили 3 года назад. Эти относительно новые эмитенты имеют высокую эмпирическую вероятность дефолта после расходования капитала от первоначальной эмиссии, которая обычно составляет примерно 3 года.

  • BBB Процент эмитентов облигаций инвестиционного уровня с кредитным рейтингом Standard & Poor's на уровне BBB, самый низкий инвестиционный уровень. Этот процент представляет собой еще один фактор риска.

  • CPF Прогноз изменения прибыли компаний на год вперед с поправкой на инфляцию. Прогноз является мерой общего экономического здоровья, включенной в качестве показателя больших бизнес-циклов.

  • SPR Спред между выражениями корпоративных облигаций и аналогичными государственными облигациями. Распространение является еще одной мерой риска текущих проблем.

Ответ, измеренный для года t + 1, равен:

  • IGD Ставка дефолта по корпоративным облигациям инвестиционного уровня

Как описано в [2] и [4], предикторы являются прокси, созданными из других рядов. Цель моделирования состоит в том, чтобы создать динамическую модель прогнозирования с годичным отрывом в отклике (эквивалентно, годичная задержка в предикторах).

Сначала мы исследуем данные, преобразуя даты в вектор datetime, чтобы служебная функция recessionplot может наложить полосы, показывающие соответствующие провалы в бизнес-цикле:

% Convert dates to datetime vector:
dt = datetime(string(dates),'Format','yyyy');

% Plot potential predictors:
figure;
plot(dt,X0,'LineWidth',2)
recessionplot;
xlabel('Year') 
ylabel('Predictor Level')
legend(predNames0,'Location','NW')
title('{\bf Potential Predictors}')
axis('tight')
grid('on')

Figure contains an axes. The axes with title {\bf Potential Predictors} contains 6 objects of type line, patch. These objects represent AGE, BBB, CPF, SPR.

% Plot response:
figure;
hold('on');
plot(dt,y0,'k','LineWidth',2);
plot(dt,y0-detrend(y0),'m--')
hold('off');
recessionplot;
xlabel('Year') 
ylabel('Response Level')
legend(respName0,'Linear Trend','Location','NW')
title('{\bf Response}')
axis('tight');
grid('on');

Figure contains an axes. The axes with title {\bf Response} contains 4 objects of type line, patch. These objects represent IGD, Linear Trend.

Мы видим это BBB находится в несколько отличной шкале, чем другие предикторы, и в тренде с течением времени. Поскольку данные отклика предназначены для года t + 1, пик показателей дефолта фактически следует за рецессией в t = 2001.

Анализ модели

Предиктор и данные отклика теперь могут быть собраны в модель MLR, и оценка OLS βˆ можно найти с помощью обратной косой черты MATLAB (\) оператор:

% Add intercept to model:
X0I = [ones(T0,1),X0]; % Matrix
X0ITbl = [table(ones(T0,1),'VariableNames',{'Const'}),X0Tbl]; % Table

Estimate = X0I\y0
Estimate = 5×1

   -0.2274
    0.0168
    0.0043
   -0.0149
    0.0455

Кроме того, модель может быть исследована с LinearModel функции объекта, которые обеспечивают диагностическую информацию и множество удобных опций для анализа. Функция fitlm используется для оценки коэффициентов модели в βˆ из данных. Он добавляет точку пересечения по умолчанию. Передача в данных в виде табличного массива с именами переменных и значениями отклика в последнем столбце возвращает подобранную модель со стандартной диагностической статистикой:

M0 = fitlm(DataTable)
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Остается много вопросов, которые нужно задать о надежности этой модели. Являются ли предикторы хорошим подмножеством всех потенциальных предикторов отклика? Точны ли оценки коэффициентов? Является ли связь между предикторами и ответом, действительно, линейной? Надежны ли прогнозы действительно ли модели? Короче говоря, хорошо ли задана модель, и делает ли OLS хорошую работу, подгоняя ее к данным?

Другое LinearModel функция объекта, anova, возвращает дополнительную статистику подгонки в виде табличного массива, полезную для сравнения вложенных моделей в более расширенном анализе спецификаций:

ANOVATable = anova(M0)
ANOVATable=5×5 table
              SumSq      DF     MeanSq        F        pValue  
             ________    __    _________    ______    _________

    AGE      0.019457     1     0.019457    3.3382     0.086402
    BBB      0.014863     1     0.014863      2.55      0.12985
    CPF      0.089108     1     0.089108    15.288    0.0012473
    SPR      0.010435     1     0.010435    1.7903       0.1996
    Error     0.09326    16    0.0058287                       

Сводные данные

Спецификация модели является одной из фундаментальных задач эконометрического анализа. Основным инструментом является регрессия, в самом широком смысле оценки параметра, используемая для оценки области значений моделей кандидата. Любая форма регрессии, однако, опирается на определенные предположения и определенные методы, которые почти никогда не являются полностью оправданными на практике. В результате информативные, надежные результаты регрессии редко получаются одним приложением стандартных процедур с настройками по умолчанию. Они требуют, вместо этого, рассматриваемого цикла спецификации, анализа и респецификации, основанного на практическом опыте, соответствующей теории и осведомленности о многих обстоятельствах, когда плохо рассмотренные статистические данные могут путать разумные выводы.

Исследовательский анализ данных является ключевым компонентом такого анализа. Базис эмпирической эконометрики заключается в том, что хорошие модели возникают только посредством взаимодействия с хорошими данными. Если данные ограничены, как это часто бывает в эконометрике, анализ должен признать возникающие неоднозначности и помочь идентифицировать область значений альтернативных моделей, которые нужно учитывать. Стандартной процедуры сборки самой надежной модели не существует. Хорошие модели появляются из данных и адаптируются к новой информации.

Последующие примеры в этой серии рассматривают линейные регрессионые модели, построенные из небольшого набора потенциальных предикторов и калиброванные к довольно небольшому набору данных. Тем не менее, методы и рассмотренные функции тулбокса MATLAB являются показательными для типового анализа спецификаций. Что еще более важно, рабочий процесс от первоначального анализа данных до предварительного построения моделей и уточнения и, наконец, до проверки на практической арене прогнозной эффективности также довольно типична. Как и в большинстве эмпирических начинаний, процесс является точкой.

Ссылки

[1] Крамер, Х. Математические методы статистики. Princeton, NJ: Princeton University Press, 1946.

[2] Helwege, J., and P. Kleiman. «Понимание совокупных ставок дефолта облигаций с высоким выражением». Федеральный резервный банк Нью-Йорка Актуальные вопросы экономики и финансов. Том 2, № 6, 1996, стр. 1-6.

[3] Кеннеди, П. Руководство по эконометрике. 6-й эд. Нью-Йорк: John Wiley & Sons, 2008.

[4] Лоффлер, Г. и П. Н. Пош. Моделирование кредитного риска с использованием Excel и VBA. Западный Сассекс, Англия: Wiley Finance, 2007.

[5] Strang, G. Linear Algebra и ее приложения. 4-й эд. Pacific Grove, CA: Brooks Cole, 2005.