Этот пример вводит основные допущения позади моделей многофакторной линейной регрессии. Это является первым в серии примеров на регрессии временных рядов, обеспечивая базис для всех последующих примеров.
Процессы временных рядов часто описываются моделями многофакторной линейной регрессии (MLR) формы:
где наблюдаемый ответ и включает столбцы для одновременных значений заметных предикторов. Частичные коэффициенты регрессии в представляйте крайние вклады отдельных предикторов к изменению когда все другие предикторы считаются зафиксированные.
Термин вместилище для различий между предсказанными и наблюдаемыми величинами . Эти различия происходят из-за колебаний процесса (изменения в ), погрешности измерения (изменяется в ), и модель misspecifications (например, не использованные предикторы или нелинейные отношения между и ). Они также являются результатом свойственной стохастичности в базовом генерирующем данные процессе (DGP), который модель пытается представлять. Это обычно принимается это сгенерирован неразличимым инновационным процессом со стационарной ковариацией
для любого временного интервала длины . При некоторых дальнейших основных допущениях о , , и их отношение, надежные оценки получены обычными наименьшими квадратами (OLS).
Как в других общественных науках, экономические данные обычно собираются пассивным наблюдением без помощи управляемых экспериментов. Теоретически соответствующие предикторы, возможно, должны быть заменены практически доступными прокси. Результаты экономических исследований, в свою очередь, возможно, ограничили частоту, низкую изменчивость и сильные взаимозависимости.
Эти недостатки данных приводят ко многим проблемам с надежностью оценок OLS и стандартных статистических методов, к которым применяются спецификация модели. Содействующие оценки могут быть чувствительны к погрешностям измерения данных, делая тесты значения ненадежными. Одновременные изменения в нескольких предикторах могут произвести взаимодействия, которые затрудняют, чтобы распасться на отдельные эффекты. Наблюдаемые изменения в ответе могут коррелироваться с, но не вызываться, наблюдал изменения в предикторах.
Оценка предположений модели в контексте доступных данных является целью анализа спецификации. Когда надежность модели становится подозреваемым, практические решения могут быть ограничены, но полный анализ может помочь идентифицировать источник и степень любых проблем.
Это является первым в серии примеров, которые обсуждают основные методы для определения и диагностирования моделей MLR. Ряд также предлагает некоторые общие стратегии того, чтобы решить конкретные проблемы, которые возникают при работе с экономическими данными временных рядов.
Предположения классической линейной модели (CLM) позволяют OLS производить оценки с желательными свойствами [3]. Основное предположение - то, что модель MLR и выбранные предикторы, правильно задают линейное соотношение в базовом DGP. Другие предположения CLM включают:
полный ранг (никакая коллинеарность среди предикторов).
является некоррелированым с \forall (строгий exogeneity предикторов).
не автокоррелируется ( является диагональным).
гомоскедастично (диагональные элементы в все ).
Предположим ошибка расчета. Смещение средства оценки и среднеквадратическая ошибка (MSE) . MSE является суммой отклонения средства оценки и квадратом смещения, таким образом, это аккуратно обобщает два важных источника погрешности средства оценки. Это не должно быть перепутано с регрессией MSE, относительно остаточных значений модели, который является демонстрационным зависимым.
Все средства оценки ограничиваются в их способности, минимизируют MSE, который никогда не может быть меньшим, чем нижняя граница Крэмер-Рао [1]. Связанный достигается асимптотически (то есть, когда объем выборки растет) средством оценки наибольшего правдоподобия (MLE). Однако в конечных выборках, и особенно в относительно небольших выборках, с которыми сталкиваются в экономике, другие средства оценки могут конкурировать с MLE в терминах относительного КПД, то есть, в терминах достигнутого MSE.
Под предположениями CLM теорема Маркова Гаусса говорит что средство оценки OLS BLUE:
B оценка (минимальное отклонение)
L inear (линейная функция данных)
U nbiased ()
E stimator коэффициентов в .
BEST составляет в целом минимальный MSE среди линейных средств оценки. Линейность важна, потому что теория линейных векторных пространств может быть применена к анализу средства оценки (см., например [5]).
Если инновации нормально распределены, также будет нормально распределено. В этом случае, надежный и тесты могут быть выполнены на содействующих оценках, чтобы оценить значение предиктора, и доверительные интервалы могут быть созданы, чтобы описать отклонение средства оценки с помощью стандартных формул. Нормальность также позволяет достигнуть нижней границы Крэмер-Рао (это становится эффективным), с оценками, идентичными MLE.
Независимо от распределения , Центральная предельная теорема гарантирует это будет приблизительно нормально распределено в больших выборках, так, чтобы стандартные методы вывода, связанные со спецификацией модели, стали допустимыми асимптотически. Однако, как отмечено ранее, выборки экономических данных часто относительно малы, и на Центральную предельную теорему нельзя положиться, чтобы произвести нормальное распределение оценок.
Статические эконометрические модели представляют системы, которые исключительно отвечают на текущие события. Статические модели MLR принимают что предикторы, формирующие столбцы являются одновременными с ответом . Оценка предположений CLM является относительно прямой для этих моделей.
В отличие от этого, динамические модели используют изолированные предикторы, чтобы включать обратную связь в зависимости от времени. Нет ничего в предположениях CLM, которое явным образом исключает предикторы с задержками или ведет. Действительно, изолированные внешние предикторы , свободный от взаимодействий с инновациями , не делайте, в себе, влияйте на оптимальность Маркова Гаусса оценки OLS. Если предикторы включают ближайшие задержки , , ..., однако, как экономические модели часто делают, затем взаимозависимости предиктора, вероятно, будут введены, нарушая предположение CLM ни о какой коллинеарности, и производя сопоставленные проблемы для оценки OLS. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера II: Коллинеарность и Отклонение Средства оценки.
Когда предикторы являются эндогенными, определяются изолированными значениями ответа (авторегрессивные модели), предположение CLM о строгом exogeneity нарушено через рекурсивные взаимодействия между предикторами и инновациями. В этом случае другой, часто более серьезный, проблемы оценки OLS возникают. Этот вопрос обсуждается в Регрессии Временных рядов в качестве примера VIII: Изолированные Переменные и Смещение Средства оценки.
Нарушения предположений CLM на (несферические инновации), обсуждены в Регрессии Временных рядов в качестве примера VI: Остаточная Диагностика.
Нарушения предположений CLM не обязательно делают недействительным результаты оценки OLS. Важно помнить, однако, что эффект отдельных нарушений будет более или менее последователен, в зависимости от того, объединены ли они с другими нарушениями. Анализ спецификации пытается идентифицировать полный спектр нарушений, оценить эффекты на оценке модели и предложить возможные средства в контексте моделирования целей.
Рассмотрите простую модель MLR уровней значения по умолчанию кредита. Файл Data_CreditDefaults.mat
содержит исторические данные на значениях по умолчанию корпоративной облигации инвестиционного класса, а также данные по четырем потенциальным предикторам в течение лет 1984 - 2004:
load Data_CreditDefaults
X0 = Data(:,1:4); % Initial predictor set (matrix) X0Tbl = DataTable(:,1:4); % Initial predictor set (tabular array) predNames0 = series(1:4); % Initial predictor set names T0 = size(X0,1); % Sample size y0 = Data(:,5); % Response data respName0 = series{5}; % Response data name
Потенциальные предикторы, измеренные в течение года t:
Процент AGE выпускающих облигации инвестиционного уровня сначала оценил 3 года назад. У этих относительно новых выпускающих есть высокая эмпирическая вероятность значения по умолчанию после того, как капитал от начальной проблемы расходован, который является обычно приблизительно после 3 лет.
Процент BBB выпускающих облигации инвестиционного уровня с кредитным рейтингом Standard & Poor's BBB, самого низкого инвестиционного класса. Этот процент представляет другой фактор риска.
CPF предсказывают "Один год вперед" изменения в прибыли корпорации, приведенной в соответствие с инфляцией. Прогноз является мерой полного экономического благосостояния, включенного как индикатор больших деловых циклов.
Распространение SPR между выражениями корпоративной облигации и теми из сопоставимых государственных облигаций. Распространение является другой мерой риска текущих проблем.
Ответ, измеренный в течение года t+1:
Уровень Значения по умолчанию IGD на корпоративных облигациях инвестиционного класса
Как описано в [2] и [4], предикторы являются прокси, созданными из другого ряда. Цель моделирования состоит в том, чтобы произвести динамическую модель прогнозирования, с однолетним выводом в ответе (эквивалентно, однолетняя задержка в предикторах).
Мы сначала исследуем данные, преобразовывая даты в вектор datetime так, чтобы служебная функция recessionplot
может наложить полосы, показывающие соответствующие падения в деловом цикле:
% Convert dates to datetime vector: dt = datetime(string(dates),'Format','yyyy'); % Plot potential predictors: figure; plot(dt,X0,'LineWidth',2) recessionplot; xlabel('Year') ylabel('Predictor Level') legend(predNames0,'Location','NW') title('{\bf Potential Predictors}') axis('tight') grid('on')
% Plot response: figure; hold('on'); plot(dt,y0,'k','LineWidth',2); plot(dt,y0-detrend(y0),'m--') hold('off'); recessionplot; xlabel('Year') ylabel('Response Level') legend(respName0,'Linear Trend','Location','NW') title('{\bf Response}') axis('tight'); grid('on');
Мы видим тот BBB
находится по немного отличающейся шкале, чем другие предикторы, и отклоняющийся в зависимости от времени. Поскольку данные об ответе в течение года t + 1, пик в уровнях по умолчанию на самом деле следует за рецессией t = 2001.
Предиктор и данные об ответе могут теперь быть собраны в модель MLR и оценку OLS может быть найден с обратной косой чертой MATLAB (\
оператор:
% Add intercept to model: X0I = [ones(T0,1),X0]; % Matrix X0ITbl = [table(ones(T0,1),'VariableNames',{'Const'}),X0Tbl]; % Table Estimate = X0I\y0
Estimate = 5×1
-0.2274
0.0168
0.0043
-0.0149
0.0455
В качестве альтернативы модель может быть исследована с LinearModel
возразите функциям, которые предоставляют диагностическую информацию и много удобных опций для анализа. Функциональный fitlm
используется, чтобы оценить коэффициенты модели в из данных. Это добавляет точку пересечения по умолчанию. Передача в данных в форме табличного массива, с именами переменных и значениями отклика в последнем столбце, возвращает подобранную модель со стандартной диагностической статистикой:
M0 = fitlm(DataTable)
M0 = Linear regression model: IGD ~ 1 + AGE + BBB + CPF + SPR Estimated Coefficients: Estimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996 Number of observations: 21, Error degrees of freedom: 16 Root Mean Squared Error: 0.0763 R-squared: 0.621, Adjusted R-Squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253
Там останьтесь много вопросов, которые спросят о надежности этой модели. Действительно ли предикторы являются хорошим подмножеством всех потенциальных предикторов ответа? Действительно ли содействующие оценки точны? Отношение между предикторами и ответом, действительно, линейно? Прогнозы действительно ли модели надежны? Короче говоря, модель хорошо задана и делает OLS, делают хорошее задание, соответствующее ему к данным?
Другой LinearModel
возразите функции, anova
, возвращает дополнительную подходящую статистику в форме табличного массива, полезного для сравнения вложенных моделей в более расширенном анализе спецификации:
ANOVATable = anova(M0)
ANOVATable=5×5 table
SumSq DF MeanSq F pValue
________ __ _________ ______ _________
AGE 0.019457 1 0.019457 3.3382 0.086402
BBB 0.014863 1 0.014863 2.55 0.12985
CPF 0.089108 1 0.089108 15.288 0.0012473
SPR 0.010435 1 0.010435 1.7903 0.1996
Error 0.09326 16 0.0058287
Спецификацией модели является одна из основных задач эконометрического анализа. Основной инструмент является регрессией, в самом широком смысле оценки параметра, используемой, чтобы оценить область значений моделей кандидата. Любая форма регрессии, однако, использует определенные предположения и определенные методы, которые почти полностью никогда не выравниваются по ширине на практике. В результате информативные, надежные результаты регрессии редко получаются одним применением стандартных процедур с настройками по умолчанию. Они требуют, вместо этого, продуманный цикл спецификации, анализа и respecification, которому сообщает практический опыт, соответствующая теория и осведомленность о многих обстоятельствах, где плохо продуманные статистические данные могут соединить разумные заключения.
Исследовательский анализ данных является ключевым компонентом таких исследований. Базис эмпирической эконометрики - то, что хорошие модели возникают только через взаимодействие с хорошими данными. Если данные ограничиваются, как это часто бывает в эконометрике, анализ должен подтвердить получившиеся неоднозначности и помочь идентифицировать область значений альтернативных моделей, чтобы рассмотреть. Нет никакой стандартной процедуры для сборки самой надежной модели. Хорошие модели появляются из данных и адаптируемы к новой информации.
Последующие примеры в этом ряду рассматривают модели линейной регрессии, созданные от маленького набора потенциальных предикторов и калиброванные к довольно маленькому набору данных. Однако, методы и рассмотренные функции тулбокса MATLAB, являются представительными для типичных исследований спецификации. Что еще более важно, рабочий процесс, от анализа исходных данных, посредством предварительного построения моделей и улучшения, и наконец к тестированию на практической арене эффективности прогноза, также довольно типичен. Как в большинстве эмпирических усилий, процесс является точкой.
[1] Cramér, H. Математические методы статистики. Принстон, NJ: Издательство Принстонского университета, 1946.
[2] Helwege, J. и П. Клейман. "Изучая Совокупные Уровни По умолчанию Связей Высокой доходности". Федеральный резервный банк нью-йоркских Текущих проблем в Экономике и Финансах. Издание 2, № 6, 1996, стр 1–6.
[3] Кеннеди, P. Руководство по Эконометрике. 6-й редактор Нью-Йорк: John Wiley & Sons, 2008.
[4] Loeffler, G. и П. Н. Пош. Credit Risk Modeling Using Excel и VBA. Западный Сассекс, Англия: финансы Вайли, 2007.
[5] Странг, G. Линейная алгебра и Ее Приложения. 4-й редактор Пасифик-Гроув, CA: Брукс Коул, 2005.