exponenta event banner

Регрессия временных рядов I: Линейные модели

В этом примере представлены основные допущения, лежащие в основе нескольких моделей линейной регрессии. Он является первым в серии примеров регрессии временных рядов, обеспечивая основу для всех последующих примеров.

Несколько линейных моделей

Процессы временных рядов часто описываются с помощью моделей множественной линейной регрессии (MLR) вида:

yt = Xtβ + et,

где yt - наблюдаемый ответ, а Xt включает столбцы для одновременных значений наблюдаемых предикторов. Коэффициенты частичной регрессии в β представляют предельный вклад отдельных предикторов в изменение yt, когда все другие предикторы остаются фиксированными.

Термин et является общим для различий между прогнозируемыми и наблюдаемыми значениями yt. Эти различия обусловлены колебаниями процесса (изменениями в β), ошибками измерения (изменениями в Xt) и ошибками модели (например, пропущенными предикторами или нелинейными отношениями между Xt и yt). Они также возникают из-за присущей стохастичности в базовом процессе генерации данных (DGP), который модель пытается представить. Обычно предполагается, что et генерируется ненаблюдаемым инновационным процессом со стационарной ковариацией

StartT = Cov ({e1,..., eT}),

для любого временного интервала длины T. При некоторых других основных предположениях о Xt, et и их взаимосвязи надежные оценки β получены обычными наименьшими квадратами (OLS).

Как и в других социальных науках, экономические данные обычно собираются путем пассивного наблюдения, без помощи контролируемых экспериментов. Теоретически релевантные предикторы могут потребоваться заменить практически доступными прокси. Экономические наблюдения, в свою очередь, могут иметь ограниченную частоту, низкую изменчивость и сильную взаимозависимость.

Эти недостатки данных приводят к ряду проблем с надежностью оценок ОЛС и стандартными статистическими методами, применяемыми к спецификации модели. Оценки коэффициентов могут быть чувствительными к ошибкам измерения данных, что делает тесты значимости ненадежными. Одновременные изменения в нескольких предикторах могут вызывать взаимодействия, которые трудно разделить на отдельные эффекты. Наблюдаемые изменения в ответе могут быть коррелированы с наблюдаемыми изменениями в предикторах, но не вызваны ими.

Оценка предположений модели в контексте имеющихся данных является целью анализа спецификаций. Когда надежность модели становится подозрительной, практические решения могут быть ограничены, но тщательный анализ может помочь определить источник и степень любых проблем.

Это первый в серии примеров, в которых обсуждаются основные методы определения и диагностики моделей МЛР. В серии также предлагаются некоторые общие стратегии решения конкретных проблем, возникающих при работе с данными экономических временных рядов.

Классические допущения

Предположения классической линейной модели (CLM) позволяют ОЛС производить оценки, βˆ с желательными свойствами [3]. Фундаментальное предположение заключается в том, что модель MLR и выбранные предикторы правильно указывают линейную взаимосвязь в базовом DGP. Другие предположения CLM включают в себя:

  • Xt - это полный ранг (нет коллинеарности среди предикторов).

  • et не коррелирует с Xs для всех s (строгая экзогенность предикторов).

  • et не является автокоррелированным (StartT - диагональ).

  • et является гомоскедастикой (диагональные записи в StartT - все

Предположим, ϵ=βˆ-β является ошибкой оценки. Смещение оценщика равно E[ϵ], а среднеквадратичная ошибка (MSE) равна E[ϵ′ϵ]. MSE - это сумма дисперсии оценщика и квадрата смещения, поэтому он аккуратно суммирует два важных источника неточности оценщика. Его не следует путать с регрессионным MSE, касающимся остатков модели, которые зависят от выборки.

Все оценщики ограничены по своей способности минимизировать MSE, который никогда не может быть меньше нижней границы Крамера-Рао [1]. Эта граница достигается асимптотически (то есть по мере увеличения размера выборки) с помощью оценщика максимального правдоподобия (MLE). Однако в конечных выборках, и особенно в относительно небольших выборках, встречающихся в экономике, другие оценщики могут конкурировать с MLE с точки зрения относительной эффективности, то есть с точки зрения достигнутого MSE.

В предположениях CLM теорема Гаусса - Маркова говорит, что βˆ оценки OLS является BLUE:

  • B est (минимальное отклонение)

  • L - линейная функция данных

  • U - смещение (E[βˆ]=β)

  • Е стимулятор коэффициентов в β.

BEST суммирует минимальный MSE среди линейных оценщиков. Линейность важна, потому что теория линейных векторных пространств может быть применена к анализу оценщика (см., например, [5]).

Если инновации и т.д. распределены нормально, βˆ также будут распределены нормально. В этом случае могут быть выполнены надежные t и F тесты на оценки коэффициентов для оценки значимости предиктора, и доверительные интервалы могут быть построены для описания дисперсии оценщика с использованием стандартных формул. Нормальность также позволяет βˆ достичь нижней границы Крамера-Рао (она становится эффективной), с оценками, идентичными MLE.

Независимо от распределения et, теорема Central Limit гарантирует, что βˆ будут приблизительно нормально распределены в больших выборках, так что стандартные методы вывода, связанные со спецификацией модели, становятся действительными асимптотически. Однако, как отмечалось ранее, выборки экономических данных часто относительно малы, и на теорему «Центральный предел» нельзя полагаться для получения нормального распределения оценок.

Статические эконометрические модели представляют системы, которые реагируют исключительно на текущие события. Статические модели MLR предполагают, что предикторы, формирующие столбцы Xt, являются одновременными с ответом yt. Оценка допущений CLM относительно проста для этих моделей.

Напротив, динамические модели используют запаздывающие предикторы для включения обратной связи во времени. В предположениях CLM нет ничего, что явно исключало бы предикторы с лагами или выводами. Действительно, запаздывающие экзогенные предикторы xt-k, свободные от взаимодействий с инновациями et, сами по себе не влияют на оптимальность Гаусса-Маркова при оценке ОЛС. Если предикторы включают в себя ближайшие задержки xt-k, xt-k-1, xt-k-2,..., однако, как это часто делают экономические модели, то, вероятно, будут введены взаимозависимости предикторов, нарушающие предположение CLM об отсутствии коллинеарности и создающие связанные проблемы для оценки OLS. Эта проблема обсуждается в примере Регрессия временного ряда II: коллинеарность и дисперсия оценщика.

Когда предикторы являются эндогенными, определяемыми запаздывающими значениями ответа yt (авторегрессионные модели), предположение CLM о строгой экзогенности нарушается посредством рекурсивных взаимодействий между предикторами и инновациями. В этом случае возникают другие, часто более серьезные, проблемы оценки ОЛС. Эта проблема обсуждается в примере Регрессия временного ряда VIII: запаздывающие переменные и смещение оценщика.

Нарушения допущений CLM на (несферические нововведения) рассматриваются в примере Регрессия временного ряда VI: Остаточная диагностика.

Нарушения допущений CLM не обязательно признают недействительными результаты оценки ОЛС. Однако важно помнить, что последствия отдельных нарушений будут более или менее вытекать из них в зависимости от того, сочетаются ли они с другими нарушениями или нет. Анализ спецификаций пытается выявить весь спектр нарушений, оценить влияние на оценку модели и предложить возможные меры в контексте целей моделирования.

Данные временных рядов

Рассмотрим простую модель MLR кредитных ставок дефолта. Файл Data_CreditDefaults.mat содержит исторические данные о дефолтах корпоративных облигаций инвестиционного уровня, а также данные о четырех потенциальных предикторах за 1984-2004 годы:

load Data_CreditDefaults
X0 = Data(:,1:4);         % Initial predictor set (matrix)
X0Tbl = DataTable(:,1:4); % Initial predictor set (tabular array)
predNames0 = series(1:4); % Initial predictor set names
T0 = size(X0,1);          % Sample size
y0 = Data(:,5);           % Response data
respName0 = series{5};    % Response data name

Потенциальными предикторами, измеренными для года t, являются:

  • AGE Процент эмитентов облигаций инвестиционного уровня, впервые оцененных 3 года назад. Эти относительно новые эмитенты имеют высокую эмпирическую вероятность дефолта после расходования капитала от первоначального выпуска, что обычно происходит примерно через 3 года.

  • BBB Процент эмитентов облигаций инвестиционного уровня с кредитным рейтингом Standard & Poor's BBB, самым низким инвестиционным рейтингом. Этот процент представляет собой еще один фактор риска.

  • CPF Прогноз изменения прибыли корпораций на один год вперед с поправкой на инфляцию. Прогноз представляет собой показатель общего состояния экономики, включенный в качестве показателя более крупных бизнес-циклов.

  • SPR Спред между доходностью корпоративных облигаций и доходностью сопоставимых государственных облигаций. Еще одной мерой риска текущих проблем является спред.

Отклик, измеренный для года t + 1, составляет:

  • Ставка дефолта по корпоративным облигациям инвестиционного уровня

Как описано в [2] и [4], предикторами являются прокси, построенные из других серий. Целью моделирования является создание динамической модели прогнозирования с годичным опережением в ответе (эквивалентно годичному отставанию в предикторах).

Сначала мы рассмотрим данные, преобразуя даты в вектор datetime, чтобы функция утилиты recessionplot может накладывать полосы, показывающие соответствующие провалы в бизнес-цикле:

% Convert dates to datetime vector:
dt = datetime(string(dates),'Format','yyyy');

% Plot potential predictors:
figure;
plot(dt,X0,'LineWidth',2)
recessionplot;
xlabel('Year') 
ylabel('Predictor Level')
legend(predNames0,'Location','NW')
title('{\bf Potential Predictors}')
axis('tight')
grid('on')

Figure contains an axes. The axes with title {\bf Potential Predictors} contains 6 objects of type line, patch. These objects represent AGE, BBB, CPF, SPR.

% Plot response:
figure;
hold('on');
plot(dt,y0,'k','LineWidth',2);
plot(dt,y0-detrend(y0),'m--')
hold('off');
recessionplot;
xlabel('Year') 
ylabel('Response Level')
legend(respName0,'Linear Trend','Location','NW')
title('{\bf Response}')
axis('tight');
grid('on');

Figure contains an axes. The axes with title {\bf Response} contains 4 objects of type line, patch. These objects represent IGD, Linear Trend.

Мы видим, что BBB находится в несколько ином масштабе, чем другие предикторы, и имеет тенденцию с течением времени. Поскольку данные ответа относятся к году t + 1, пик ставок по умолчанию фактически следует за спадом в t = 2001.

Анализ модели

Данные предиктора и ответа теперь могут быть собраны в модель MLR, и оценка βˆ OLS может быть найдена с обратной косой чертой MATLAB (\) оператор:

% Add intercept to model:
X0I = [ones(T0,1),X0]; % Matrix
X0ITbl = [table(ones(T0,1),'VariableNames',{'Const'}),X0Tbl]; % Table

Estimate = X0I\y0
Estimate = 5×1

   -0.2274
    0.0168
    0.0043
   -0.0149
    0.0455

Альтернативно, модель может быть изучена с помощью LinearModel объектные функции, обеспечивающие диагностическую информацию и множество удобных вариантов анализа. Функция fitlm используется для оценки коэффициентов модели в βˆ из данных. Он добавляет перехват по умолчанию. При передаче данных в виде табличного массива с именами переменных и значениями ответа в последнем столбце возвращается подходящая модель со стандартной диагностической статистикой:

M0 = fitlm(DataTable)
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Остается много вопросов о надежности этой модели. Являются ли предикторы хорошим подмножеством всех потенциальных предикторов ответа? Точны ли оценки коэффициента? Действительно ли взаимосвязь между предикторами и ответом является линейной? Являются ли прогнозы модели надежными? Короче говоря, хорошо ли указана модель и хорошо ли работает ОЛС, подгоняя ее к данным?

Другой LinearModel функция объекта, anova, возвращает дополнительную статистику аппроксимации в виде табличного массива, полезного для сравнения вложенных моделей в более расширенном анализе спецификации:

ANOVATable = anova(M0)
ANOVATable=5×5 table
              SumSq      DF     MeanSq        F        pValue  
             ________    __    _________    ______    _________

    AGE      0.019457     1     0.019457    3.3382     0.086402
    BBB      0.014863     1     0.014863      2.55      0.12985
    CPF      0.089108     1     0.089108    15.288    0.0012473
    SPR      0.010435     1     0.010435    1.7903       0.1996
    Error     0.09326    16    0.0058287                       

Резюме

Спецификация модели является одной из фундаментальных задач эконометрического анализа. Основным инструментом является регрессия в самом широком смысле оценки параметров, используемая для оценки диапазона моделей-кандидатов. Однако любая форма регрессии опирается на определенные предположения и определенные методы, которые почти никогда не являются полностью оправданными на практике. В результате информативные, надежные результаты регрессии редко получаются одним применением стандартных процедур с настройками по умолчанию. Вместо этого они требуют продуманного цикла спецификации, анализа и рефекции, основанного на практическом опыте, соответствующей теории и осознании многих обстоятельств, когда плохо продуманные статистические данные могут спутать разумные выводы.

Ключевым компонентом таких анализов является анализ исследовательских данных. Основой эмпирической эконометрики является то, что хорошие модели возникают только через взаимодействие с хорошими данными. Если данные ограничены, как это часто бывает в эконометрике, анализ должен признать полученные неоднозначности и помочь определить ряд альтернативных моделей для рассмотрения. Стандартной процедуры сборки самой надежной модели не существует. Из данных появляются хорошие модели, которые можно адаптировать к новой информации.

Последующие примеры в этой серии рассматривают модели линейной регрессии, построенные из небольшого набора потенциальных предикторов и откалиброванные до довольно малого набора данных. Тем не менее, методы и рассмотренные функции набора инструментов MATLAB являются репрезентативными для типичного анализа спецификаций. Более того, поток операций, начиная с анализа исходных данных, предварительного построения и уточнения модели и, наконец, заканчивая тестированием в практической области производительности прогноза, также является вполне типичным. Как и в большинстве эмпирических исследований, в этом заключается суть этого процесса.

Ссылки

[1] Крамер, Х. Математические методы статистики. Принстон, Нью-Джерси: Princeton University Press, 1946.

[2] Helwege, J. и П. Клейман. «Общие сведения о совокупных ставках по умолчанию для высокодоходных облигаций». Федеральный резервный банк Нью-Йорка Текущие вопросы экономики и финансов. Том 2, № 6, 1996, стр. 1-6.

[3] Кеннеди, P. Руководство по эконометрике. 6-я ред. Нью-Йорк: John Wiley & Sons, 2008.

[4] Лоэффлер, Г. и П. Н. Пош. Моделирование кредитных рисков с использованием Excel и VBA. Западный Сассекс, Англия: Wiley Finance, 2007.

[5] Странг, Г. Линейная алгебра и её приложения. 4-й ред. Пасифик Гроув, Калифорния: Брукс Коул, 2005.