Регрессия временных рядов I: линейные модели

Скрипт Open Live Script

Этот пример вводит основные допущения позади моделей многофакторной линейной регрессии. Это является первым в серии примеров на регрессии временных рядов, обеспечивая основание для всех последующих примеров.

Несколько линейных моделей

Процессы временных рядов часто описываются моделями многофакторной линейной регрессии (MLR) формы:

$y_{t} = X_{t} β + e_{t},$

где $y_{t}$ наблюдаемый ответ и $X_{t}$ включает столбцы для одновременных значений заметных предикторов. Частичные коэффициенты регрессии в $β$ представляйте крайние вклады отдельных предикторов к изменению $y_{t}$ когда все другие предикторы считаются зафиксированные.

Термин $e_{t}$ вместилище для различий между предсказанными и наблюдаемыми величинами $y_{t}$ . Эти различия происходят из-за колебаний процесса (изменения в $β$ ), погрешности измерения (изменяется в $X_{t}$ ), и модель misspecifications (например, не использованные предикторы или нелинейные отношения между $X_{t}$ и $y_{t}$ ). Они также являются результатом свойственной стохастичности в базовом генерирующем данные процессе (DGP), который модель пытается представлять. Это обычно принимается это $e_{t}$ сгенерирован неразличимым инновационным процессом со стационарной ковариацией

$Ω_{T} = C o v ({e_{1}, . . ., e_{T}}),$

для любого временного интервала длины $T$ . При некоторых дальнейших основных допущениях о $X_{t}$ , $e_{t}$ , и их отношение, надежные оценки $β$ получены обычными наименьшими квадратами (OLS).

Как в других общественных науках, экономические данные обычно собираются пассивным наблюдением без помощи управляемых экспериментов. Теоретически соответствующие предикторы, возможно, должны быть заменены практически доступными прокси. Результаты экономических исследований, в свою очередь, возможно, ограничили частоту, низкую изменчивость и сильные взаимозависимости.

Эти недостатки данных приводят ко многим проблемам с надежностью оценок OLS и стандартных статистических методов, к которым применяются спецификация модели. Содействующие оценки могут быть чувствительны к погрешностям измерения данных, делая тесты значения ненадежными. Одновременные изменения в нескольких предикторах могут произвести взаимодействия, которые затрудняют, чтобы распасться на отдельные эффекты. Наблюдаемые изменения в ответе могут коррелироваться с, но не вызываться, наблюдал изменения в предикторах.

Оценка предположений модели в контексте доступных данных является целью анализа спецификации. Когда надежность модели становится подозреваемым, практические решения могут быть ограничены, но полный анализ может помочь идентифицировать источник и степень любых проблем.

Это является первым в серии примеров, которые обсуждают основные методы для определения и диагностирования моделей MLR. Ряд также предлагает некоторые общие стратегии того, чтобы решить конкретные проблемы, которые возникают при работе с экономическими данными временных рядов.

Классические предположения

Предположения классической линейной модели (CLM) позволяют OLS производить оценки $β_{}^{ˆ}$ с желательными свойствами [3]. Основное предположение - то, что модель MLR и выбранные предикторы, правильно задают линейное соотношение в базовом DGP. Другие предположения CLM включают:

$X_{t}$ полный ранг (никакая коллинеарность среди предикторов).
$e_{t}$ является некоррелированым с $X_{s}$ \forall $s$ (строгий exogeneity предикторов).
$e_{t}$ не автокоррелируется ( $Ω_{T}$ является диагональным).
$e_{t}$ гомоскедастично (диагональные элементы в $Ω_{T}$ все $σ^{2}$ ).

Предположим $ϵ = β_{}^{ˆ} - β$ ошибка расчета. Смещение средства оценки $E [ϵ]$ и среднеквадратическая ошибка (MSE) $E [ϵ^{'} ϵ]$ . MSE является суммой отклонения средства оценки и квадратом смещения, таким образом, это аккуратно обобщает два важных источника погрешности средства оценки. Это не должно быть перепутано с регрессией MSE, относительно остаточных значений модели, который является демонстрационным зависимым.

Все средства оценки ограничиваются в их способности, минимизируют MSE, который никогда не может быть меньшим, чем нижняя граница Крэмер-Рао [1]. Связанный достигается асимптотически (то есть, когда объем выборки растет) средством оценки наибольшего правдоподобия (MLE). Однако в конечных выборках, и особенно в относительно небольших выборках, с которыми сталкиваются в экономике, другие средства оценки могут конкурировать с MLE в терминах относительного КПД, то есть, в терминах достигнутого MSE.

Под предположениями CLM теорема Маркова Гаусса говорит что средство оценки OLS $β_{}^{ˆ}$ BLUE:

B оценка (минимальное отклонение)
L inear (линейная функция данных)
U nbiased ( $E [β_{}^{ˆ}] = β$ )
E stimator коэффициентов в $β$ .

BEST составляет в целом минимальный MSE среди линейных средств оценки. Линейность важна, потому что теория линейных векторных пространств может быть применена к анализу средства оценки (см., например [5]).

Если инновации $e_{t}$ нормально распределены, $β_{}^{ˆ}$ также будет нормально распределено. В этом случае, надежный $t$ и $F$ тесты могут быть выполнены на содействующих оценках, чтобы оценить значение предиктора, и доверительные интервалы могут быть созданы, чтобы описать отклонение средства оценки с помощью стандартных формул. Нормальность также позволяет $β_{}^{ˆ}$ достигнуть нижней границы Крэмер-Рао (это становится эффективным), с оценками, идентичными MLE.

Независимо от распределения $e_{t}$ , Центральная предельная теорема гарантирует это $β_{}^{ˆ}$ будет приблизительно нормально распределено в больших выборках, так, чтобы стандартные методы вывода, связанные со спецификацией модели, стали допустимыми асимптотически. Однако, как отмечено ранее, выборки экономических данных часто относительно малы, и на Центральную предельную теорему нельзя положиться, чтобы произвести нормальное распределение оценок.

Статические эконометрические модели представляют системы, которые исключительно отвечают на текущие события. Статические модели MLR принимают что предикторы, формирующие столбцы $X_{t}$ являются одновременными с ответом $y_{t}$ . Оценка предположений CLM является относительно прямой для этих моделей.

В отличие от этого, динамические модели используют изолированные предикторы, чтобы включать обратную связь в зависимости от времени. Нет ничего в предположениях CLM, которое явным образом исключает предикторы с задержками или ведет. Действительно, изолированные внешние предикторы $x_{t - k}$ , свободный от взаимодействий с инновациями $e_{t}$ , не делайте, в себе, влияйте на оптимальность Маркова Гаусса оценки OLS. Если предикторы включают ближайшие задержки $x_{t - k}$ , $x_{t - k - 1}$ , $x_{t - k - 2}$ ..., однако, как экономические модели часто делают, затем взаимозависимости предиктора, вероятно, будут введены, нарушая предположение CLM ни о какой коллинеарности, и производя сопоставленные проблемы для оценки OLS. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера II: Коллинеарность и Отклонение Средства оценки.

Когда предикторы являются эндогенными, определяются изолированными значениями ответа $y_{t}$ (авторегрессивные модели), предположение CLM о строгом exogeneity нарушено через рекурсивные взаимодействия между предикторами и инновациями. В этом случае другой, часто более серьезный, проблемы оценки OLS возникают. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера VIII: Изолированные Переменные и Смещение Средства оценки.

Нарушения предположений CLM на $Ω_{T}$ (несферические инновации), обсуждены в Регрессии Временных рядов в качестве примера VI: Остаточная Диагностика.

Нарушения предположений CLM не обязательно делают недействительным результаты оценки OLS. Важно помнить, однако, что эффект отдельных нарушений будет более или менее последователен, в зависимости от того, объединены ли они с другими нарушениями. Анализ спецификации пытается идентифицировать полный спектр нарушений, оценить эффекты на оценке модели и предложить возможные средства в контексте моделирования целей.

Данные временных рядов

Рассмотрите простую модель MLR уровней значения по умолчанию кредита. Файл Data_CreditDefaults.mat содержит исторические данные на значениях по умолчанию корпоративной облигации инвестиционного класса, а также данные по четырем потенциальным предикторам в течение лет 1984 - 2004:

load Data_CreditDefaults

X0 = Data(:,1:4);         % Initial predictor set (matrix)
X0Tbl = DataTable(:,1:4); % Initial predictor set (tabular array)
predNames0 = series(1:4); % Initial predictor set names
T0 = size(X0,1);          % Sample size
y0 = Data(:,5);           % Response data
respName0 = series{5};    % Response data name

Потенциальные предикторы, измеренные в течение года t:

Процент AGE выпускающих облигации инвестиционного уровня сначала оценил 3 года назад. У этих относительно новых выпускающих есть высокая эмпирическая вероятность значения по умолчанию после того, как капитал от начальной проблемы расходован, который является обычно приблизительно после 3 лет.
Процент BBB выпускающих облигации инвестиционного уровня с кредитным рейтингом Standard & Poor's BBB, самого низкого инвестиционного класса. Этот процент представляет другой фактор риска.
CPF предсказывают "Один год вперед" изменения в прибыли корпорации, приведенной в соответствие с инфляцией. Прогноз является мерой полного экономического благосостояния, включенного как индикатор больших деловых циклов.
Распространение SPR между выражениями корпоративной облигации и теми из сопоставимых государственных облигаций. Распространение является другой мерой риска текущих проблем.

Ответ, измеренный в течение года t+1:

Уровень Значения по умолчанию IGD на корпоративных облигациях инвестиционного класса

Как описано в [2] и [4], предикторы являются прокси, созданными из другого ряда. Цель моделирования состоит в том, чтобы произвести динамическую модель прогнозирования, с однолетним выводом в ответе (эквивалентно, однолетняя задержка в предикторах).

Мы сначала исследуем данные, преобразовывая даты в вектор datetime так, чтобы служебная функция recessionplot может наложить полосы, показывающие соответствующие падения в деловом цикле:

% Convert dates to datetime vector:
dt = datetime(string(dates),'Format','yyyy');

% Plot potential predictors:
figure;
plot(dt,X0,'LineWidth',2)
recessionplot;
xlabel('Year') 
ylabel('Predictor Level')
legend(predNames0,'Location','NW')
title('{\bf Potential Predictors}')
axis('tight')
grid('on')

% Plot response:
figure;
hold('on');
plot(dt,y0,'k','LineWidth',2);
plot(dt,y0-detrend(y0),'m--')
hold('off');
recessionplot;
xlabel('Year') 
ylabel('Response Level')
legend(respName0,'Linear Trend','Location','NW')
title('{\bf Response}')
axis('tight');
grid('on');

Мы видим тот BBB находится по немного отличающейся шкале, чем другие предикторы, и отклоняющийся в зависимости от времени. Поскольку данные об ответе в течение года t + 1, пик в уровнях по умолчанию на самом деле следует за рецессией t = 2001.

Анализ модели

Предиктор и данные об ответе могут теперь быть собраны в модель MLR и оценку OLS $β_{}^{ˆ}$ может быть найден с обратной косой чертой MATLAB (\оператор:

% Add intercept to model:
X0I = [ones(T0,1),X0]; % Matrix
X0ITbl = [table(ones(T0,1),'VariableNames',{'Const'}),X0Tbl]; % Table

Estimate = X0I\y0

Estimate = 5×1

   -0.2274
    0.0168
    0.0043
   -0.0149
    0.0455

В качестве альтернативы модель может быть исследована с LinearModel возразите функциям, которые предоставляют диагностическую информацию и много удобных опций для анализа. Функциональный fitlm используется, чтобы оценить коэффициенты модели в $β_{}^{ˆ}$ из данных. Это добавляет прерывание по умолчанию. Передача в данных в форме табличного массива, с именами переменных и значениями отклика в последнем столбце, возвращает подобранную модель со стандартной диагностической статистикой:

M0 = fitlm(DataTable)

M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

Там останьтесь много вопросов, которые спросят о надежности этой модели. Действительно ли предикторы являются хорошим подмножеством всех потенциальных предикторов ответа? Действительно ли содействующие оценки точны? Отношение между предикторами и ответом, действительно, линейно? Прогнозы действительно ли модели надежны? Короче говоря, модель хорошо задана и делает OLS, делают хорошее задание, соответствующее ему к данным?

Другой LinearModel возразите функции, anova, возвращает дополнительную подходящую статистику в форме табличного массива, полезного для сравнения вложенных моделей в более расширенном анализе спецификации:

ANOVATable = anova(M0)

ANOVATable=5×5 table
              SumSq      DF     MeanSq        F        pValue  
             ________    __    _________    ______    _________

    AGE      0.019457     1     0.019457    3.3382     0.086402
    BBB      0.014863     1     0.014863      2.55      0.12985
    CPF      0.089108     1     0.089108    15.288    0.0012473
    SPR      0.010435     1     0.010435    1.7903       0.1996
    Error     0.09326    16    0.0058287

Сводные данные

Спецификацией модели является одна из основных задач эконометрического анализа. Основной инструмент является регрессией, в самом широком смысле оценки параметра, используемой, чтобы оценить область значений моделей кандидата. Любая форма регрессии, однако, использует определенные предположения и определенные методы, которые почти полностью никогда не выравниваются по ширине на практике. В результате информативные, надежные результаты регрессии редко получаются одним применением стандартных процедур с настройками по умолчанию. Они требуют, вместо этого, продуманный цикл спецификации, анализа и respecification, которому сообщает практический опыт, соответствующая теория и осведомленность о многих обстоятельствах, где плохо продуманные статистические данные могут соединить разумные заключения.

Исследовательский анализ данных является ключевым компонентом таких исследований. Основание эмпирической эконометрики - то, что хорошие модели возникают только через взаимодействие с хорошими данными. Если данные ограничиваются, как это часто бывает в эконометрике, анализ должен подтвердить получившиеся неоднозначности и помочь идентифицировать область значений альтернативных моделей, чтобы рассмотреть. Нет никакой стандартной процедуры для сборки самой надежной модели. Хорошие модели появляются из данных и адаптируемы к новой информации.

Последующие примеры в этом ряду рассматривают модели линейной регрессии, созданные от маленького набора потенциальных предикторов и калиброванные к довольно маленькому набору данных. Однако, методы и рассмотренные функции тулбокса MATLAB, являются представительными для типичных исследований спецификации. Что еще более важно, рабочий процесс, от анализа исходных данных, посредством предварительного построения моделей и улучшения, и наконец к тестированию на практической арене эффективности прогноза, также довольно типичен. Как в большинстве эмпирических усилий, процесс является точкой.

Ссылки

[1] Cramér, H. Математические методы статистики. Принстон, NJ: Издательство Принстонского университета, 1946.

[2] Helwege, J. и П. Клейман. "Изучая Совокупные Уровни По умолчанию Связей Высокой доходности". Федеральный резервный банк нью-йоркских Текущих проблем в Экономике и Финансах. Издание 2, № 6, 1996, стр 1–6.

[3] Кеннеди, P. Руководство по Эконометрике. 6-й редактор Нью-Йорк: John Wiley & Sons, 2008.

[4] Loeffler, G. и П. Н. Пош. Credit Risk Modeling Using Excel и VBA. Западный Сассекс, Англия: финансы Вайли, 2007.

[5] Странг, G. Линейная алгебра и Ее Приложения. 4-й редактор Пасифик-Гроув, CA: Брукс Коул, 2005.

Документация