Регрессия временных рядов I: линейные модели

Этот пример вводит основные допущения позади моделей многофакторной линейной регрессии. Это является первым в серии примеров на регрессии временных рядов, обеспечивая основание для всех последующих примеров.

Несколько линейных моделей

Процессы временных рядов часто описываются моделями многофакторной линейной регрессии (MLR) формы:

yt=Xtβ+et,

где yt наблюдаемый ответ и Xt включает столбцы для одновременных значений заметных предикторов. Частичные коэффициенты регрессии в β представляйте крайние вклады отдельных предикторов к изменению yt когда все другие предикторы считаются зафиксированные.

Термин et вместилище для различий между предсказанными и наблюдаемыми величинами yt. Эти различия происходят из-за колебаний процесса (изменения в β), погрешности измерения (изменяется в Xt), и модель misspecifications (например, не использованные предикторы или нелинейные отношения между Xt и yt). Они также являются результатом свойственной стохастичности в базовом генерирующем данные процессе (DGP), который модель пытается представлять. Это обычно принимается это et сгенерирован неразличимым инновационным процессом со стационарной ковариацией

ΩT=Cov({e1,...,eT}),

для любого временного интервала длины T. При некоторых дальнейших основных допущениях о Xt, et, и их отношение, надежные оценки β получены обычными наименьшими квадратами (OLS).

Как в других общественных науках, экономические данные обычно собираются пассивным наблюдением без помощи управляемых экспериментов. Теоретически соответствующие предикторы, возможно, должны быть заменены практически доступными прокси. Результаты экономических исследований, в свою очередь, возможно, ограничили частоту, низкую изменчивость и сильные взаимозависимости.

Эти недостатки данных приводят ко многим проблемам с надежностью оценок OLS и стандартных статистических методов, к которым применяются спецификация модели. Содействующие оценки могут быть чувствительны к погрешностям измерения данных, делая тесты значения ненадежными. Одновременные изменения в нескольких предикторах могут произвести взаимодействия, которые затрудняют, чтобы распасться на отдельные эффекты. Наблюдаемые изменения в ответе могут коррелироваться с, но не вызываться, наблюдал изменения в предикторах.

Оценка предположений модели в контексте доступных данных является целью анализа спецификации. Когда надежность модели становится подозреваемым, практические решения могут быть ограничены, но полный анализ может помочь идентифицировать источник и степень любых проблем.

Это является первым в серии примеров, которые обсуждают основные методы для определения и диагностирования моделей MLR. Ряд также предлагает некоторые общие стратегии того, чтобы решить конкретные проблемы, которые возникают при работе с экономическими данными временных рядов.

Классические предположения

Предположения классической линейной модели (CLM) позволяют OLS производить оценки βˆ с желательными свойствами [3]. Основное предположение - то, что модель MLR и выбранные предикторы, правильно задают линейное соотношение в базовом DGP. Другие предположения CLM включают:

  • Xt полный ранг (никакая коллинеарность среди предикторов).

  • et является некоррелированым с Xs \forall s (строгий exogeneity предикторов).

  • et не автокоррелируется (ΩT является диагональным).

  • et гомоскедастично (диагональные элементы в ΩT все σ2).

Предположим ϵ=βˆ-β ошибка оценки. Смещение средства оценки E[ϵ] и среднеквадратическая ошибка (MSE) E[ϵϵ]. MSE является суммой отклонения средства оценки и квадратом смещения, таким образом, это аккуратно обобщает два важных источника погрешности средства оценки. Это не должно быть перепутано с регрессией MSE, относительно остаточных значений модели, который является демонстрационным зависимым.

Все средства оценки ограничиваются в их способности, минимизируют MSE, который никогда не может быть меньшим, чем нижняя граница Крэмер-Рао [1]. Связанный достигается асимптотически (то есть, когда объем выборки растет) средством оценки наибольшего правдоподобия (MLE). Однако в конечных выборках, и особенно в относительно небольших выборках, с которыми сталкиваются в экономике, другие средства оценки могут конкурировать с MLE в терминах относительного КПД, то есть, в терминах достигнутого MSE.

Под предположениями CLM теорема Маркова Гаусса говорит что средство оценки OLS βˆ BLUE:

  • B оценка (минимальное отклонение)

  • L inear (линейная функция данных)

  • U nbiased (E[βˆ]=β)

  • E stimator коэффициентов в β.

BEST составляет в целом минимальный MSE среди линейных средств оценки. Линейность важна, потому что теория линейных векторных пространств может быть применена к анализу средства оценки (см., например [5]).

Если инновации et нормально распределены, βˆ также будет нормально распределено. В этом случае, надежный t и F тесты могут быть выполнены на содействующих оценках, чтобы оценить значение предиктора, и доверительные интервалы могут быть созданы, чтобы описать отклонение средства оценки с помощью стандартных формул. Нормальность также позволяет βˆ достигнуть нижней границы Крэмер-Рао (это становится эффективным), с оценками, идентичными MLE.

Независимо от распределения et, Центральная предельная теорема гарантирует это βˆ будет приблизительно нормально распределено в больших выборках, так, чтобы стандартные методы вывода, связанные со спецификацией модели, стали допустимыми асимптотически. Однако, как отмечено ранее, выборки экономических данных часто относительно малы, и на Центральную предельную теорему нельзя положиться, чтобы произвести нормальное распределение оценок.

Статические эконометрические модели представляют системы, которые исключительно отвечают на текущие события. Статические модели MLR принимают что предикторы, формирующие столбцы Xt являются одновременными с ответом yt. Оценка предположений CLM является относительно прямой для этих моделей.

В отличие от этого, динамические модели используют изолированные предикторы, чтобы включать обратную связь в зависимости от времени. Нет ничего в предположениях CLM, которое явным образом исключает предикторы с задержками или ведет. Действительно, изолированные внешние предикторы xt-k, свободный от взаимодействий с инновациями et, не делайте, в себе, влияйте на оптимальность Маркова Гаусса оценки OLS. Если предикторы включают ближайшие задержки xt-k, xt-k-1, xt-k-2..., однако, как экономические модели часто делают, затем взаимозависимости предиктора, вероятно, будут введены, нарушая предположение CLM ни о какой коллинеарности, и производя сопоставленные проблемы для оценки OLS. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера II: Коллинеарность и Отклонение Средства оценки.

Когда предикторы являются эндогенными, определяются изолированными значениями ответа yt (авторегрессивные модели), предположение CLM о строгом exogeneity нарушено через рекурсивные взаимодействия между предикторами и инновациями. В этом случае другой, часто более серьезный, проблемы оценки OLS возникают. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера VIII: Изолированные Переменные и Смещение Средства оценки.

Нарушения предположений CLM на ΩT (несферические инновации), обсуждены в Регрессии Временных рядов в качестве примера VI: Остаточная Диагностика.

Нарушения предположений CLM не обязательно делают недействительным результаты оценки OLS. Важно помнить, однако, что эффект отдельных нарушений будет более или менее последователен, в зависимости от того, объединены ли они с другими нарушениями. Анализ спецификации пытается идентифицировать полный спектр нарушений, оценить эффекты на оценке модели и предложить возможные средства в контексте моделирования целей.

Данные временных рядов

Рассмотрите простую модель MLR уровней значения по умолчанию кредита. Файл Data_CreditDefaults.mat содержит исторические данные на значениях по умолчанию корпоративной облигации инвестиционного класса, а также данные по четырем потенциальным предикторам в течение лет 1984 - 2004:

load Data_CreditDefaults
X0 = Data(:,1:4);         % Initial predictor set (matrix)
X0Tbl = DataTable(:,1:4); % Initial predictor set (tabular array)
predNames0 = series(1:4); % Initial predictor set names
T0 = size(X0,1);          % Sample size
y0 = Data(:,5);           % Response data
respName0 = series{5};    % Response data name

Потенциальные предикторы, измеренные в течение года t:

  • Процент AGE выпускающих облигации инвестиционного уровня сначала оценил 3 года назад. У этих относительно новых выпускающих есть высокая эмпирическая вероятность значения по умолчанию после того, как капитал от начальной проблемы расходован, который является обычно приблизительно после 3 лет.

  • Процент BBB выпускающих облигации инвестиционного уровня с кредитным рейтингом Standard & Poor's BBB, самого низкого инвестиционного класса. Этот процент представляет другой фактор риска.

  • CPF предсказывают "Один год вперед" изменения в прибыли корпорации, приведенной в соответствие с инфляцией. Прогноз является мерой полного экономического благосостояния, включенного как индикатор больших деловых циклов.

  • Распространение SPR между доходностью корпоративных облигаций и теми из сопоставимых государственных облигаций. Распространение является другой мерой риска текущих проблем.

Ответ, измеренный в течение года t+1:

  • Уровень Значения по умолчанию IGD на корпоративных облигациях инвестиционного класса

Как описано в [2] и [4], предикторы являются прокси, созданными из другого ряда. Цель моделирования состоит в том, чтобы произвести динамическую модель прогнозирования, с однолетним выводом в ответе (эквивалентно, однолетняя задержка в предикторах).

Мы сначала исследуем данные, преобразовывая даты в последовательные числа даты так, чтобы служебная функция recessionplot может наложить полосы, показывающие соответствующие падения в деловом цикле:

% Convert dates to serial date numbers:
dateNums = datenum([dates,ones(T0,2)]);

% Plot potential predictors:
figure;
plot(dateNums,X0,'LineWidth',2)
ax = gca;
ax.XTick = dateNums(1:2:end);
datetick('x','yyyy','keepticks')
recessionplot;
xlabel('Year') 
ylabel('Predictor Level')
legend(predNames0,'Location','NW')
title('{\bf Potential Predictors}')
axis('tight')
grid('on')

% Plot response:
figure;
hold('on');
plot(dateNums,y0,'k','LineWidth',2);
plot(dateNums,y0-detrend(y0),'m--')
hold('off');
ax = gca;
ax.XTick = dateNums(1:2:end);
datetick('x','yyyy','keepticks')
recessionplot;
xlabel('Year') 
ylabel('Response Level')
legend(respName0,'Linear Trend','Location','NW')
title('{\bf Response}')
axis('tight');
grid('on');

Мы видим тот BBB находится по немного отличающейся шкале, чем другие предикторы, и отклоняющийся в зависимости от времени. Поскольку данные об ответе в течение года t+1, пик в уровнях по умолчанию на самом деле следует за рецессией t = 2001.

Анализ модели

Предиктор и данные об ответе могут теперь быть собраны в модель MLR и оценку OLS βˆ может быть найден с обратной косой чертой MATLAB (\оператор:

% Add intercept to model:
X0I = [ones(T0,1),X0]; % Matrix
X0ITbl = [table(ones(T0,1),'VariableNames',{'Const'}),X0Tbl]; % Table

Estimate = X0I\y0
Estimate = 5×1

   -0.2274
    0.0168
    0.0043
   -0.0149
    0.0455

В качестве альтернативы модель может быть исследована с методами LinearModel класс, которые предоставляют диагностическую информацию и много удобных опций для анализа. Функциональный fitlm (эквивалентный статическому методу LinearModel.fit) используется, чтобы оценить коэффициенты модели в βˆ из данных. Это добавляет прерывание по умолчанию. Передача в данных в форме табличного массива, с именами переменных и значениями ответа в последнем столбце, возвращает подобранную модель со стандартной диагностической статистикой:

M0 = fitlm(DataTable)
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Там останьтесь много вопросов, которые спросят о надежности этой модели. Действительно ли предикторы являются хорошим подмножеством всех потенциальных предикторов ответа? Действительно ли содействующие оценки точны? Отношение между предикторами и ответом, действительно, линейно? Прогнозы действительно ли модели надежны? Короче говоря, модель хорошо задана и делает OLS, делают хорошее задание, соответствующее ему к данным?

Другой метод LinearModel класс, anova, возвращает дополнительную подходящую статистику в форме табличного массива, полезного для сравнения вложенных моделей в более расширенном анализе спецификации:

ANOVATable = anova(M0)
ANOVATable=5×5 table
              SumSq      DF     MeanSq        F        pValue  
             ________    __    _________    ______    _________

    AGE      0.019457     1     0.019457    3.3382     0.086402
    BBB      0.014863     1     0.014863      2.55      0.12985
    CPF      0.089108     1     0.089108    15.288    0.0012473
    SPR      0.010435     1     0.010435    1.7903       0.1996
    Error     0.09326    16    0.0058287                       

Сводные данные

Спецификацией модели является одна из основных задач эконометрического анализа. Основной инструмент является регрессией, в самом широком смысле оценки параметра, используемой, чтобы оценить область значений моделей кандидата. Любая форма регрессии, однако, использует определенные предположения и определенные методы, которые почти полностью никогда не выравниваются по ширине на практике. В результате информативные, надежные результаты регрессии редко получаются одним применением стандартных процедур с настройками по умолчанию. Они требуют, вместо этого, продуманный цикл спецификации, анализа и respecification, которому сообщает практический опыт, соответствующая теория и осведомленность о многих обстоятельствах, где плохо продуманные статистические данные могут соединить разумные заключения.

Исследовательский анализ данных является ключевым компонентом таких исследований. Основание эмпирической эконометрики - то, что хорошие модели возникают только через взаимодействие с хорошими данными. Если данные ограничиваются, как это часто бывает в эконометрике, анализ должен подтвердить получившиеся неоднозначности и помочь идентифицировать область значений альтернативных моделей, чтобы рассмотреть. Нет никакой стандартной процедуры для сборки самой надежной модели. Хорошие модели появляются из данных и адаптируемы к новой информации.

Последующие примеры в этом ряду рассматривают модели линейной регрессии, созданные от маленького набора потенциальных предикторов и калиброванные к довольно маленькому набору данных. Однако, методы и рассмотренные функции тулбокса MATLAB, являются представительными для типичных исследований спецификации. Что еще более важно, рабочий процесс, от анализа исходных данных, посредством предварительного построения моделей и улучшения, и наконец к тестированию на практической арене производительности прогноза, также довольно типичен. Как в большинстве эмпирических усилий, процесс является точкой.

Ссылки

[1] Cramér, H. Математические методы статистики. Принстон, NJ: Издательство Принстонского университета, 1946.

[2] Helwege, J. и П. Клейман. "Изучая Совокупные Уровни По умолчанию Связей Высокой доходности". Федеральный резервный банк нью-йоркских Текущих проблем в Экономике и Финансах. Издание 2, № 6, 1996, стр 1–6.

[3] Кеннеди, P. Руководство по Эконометрике. 6-й редактор Нью-Йорк: John Wiley & Sons, 2008.

[4] Loeffler, G. и П. Н. Пош. Credit Risk Modeling Using Excel и VBA. Западный Сассекс, Англия: финансы Вайли, 2007.

[5] Странг, G. Линейная алгебра и Ее Приложения. 4-й редактор Пасифик-Гроув, CA: Брукс Коул, 2005.

Для просмотра документации необходимо авторизоваться на сайте