Регрессия III временных рядов: влиятельные наблюдения

Открыть сценарий в реальном времени

В этом примере показано, как обнаружить влиятельные наблюдения в данных временных рядов и учесть их влияние на несколько моделей линейной регрессии. Он является третьим в серии примеров регрессии временных рядов после представления в предыдущих примерах.

Введение

При рассмотрении эмпирических ограничений, которые влияют на оценки ОЛС, Belsley et al. [1] советуем сначала устранить коллинеарности. Следующим шагом является поиск влиятельных наблюдений, присутствие которых, индивидуально или в группах, оказывает измеримое влияние на результаты регрессии. Мы отличаем по существу метрическое понятие «влиятельное наблюдение» от более субъективного понятия «выброс», которое может включать любые данные, которые не следуют ожидаемым шаблонам.

Начнем с загрузки соответствующих данных из предыдущего примера Регрессия временного ряда II: коллинеарность и отклонение оценщика и продолжим анализ представленной там модели дефолта кредита:

load Data_TSReg2
dt = datetime(dateNums,'ConvertFrom','datenum','Format','yyyy');

Влиятельные наблюдения

Влиятельные наблюдения возникают двумя принципиально различными способами. Во-первых, они могут быть результатом ошибок измерения или записи. В этом случае они являются просто плохими данными, наносящими ущерб оценке модели. С другой стороны, они могут отражать истинное распределение инновационного процесса, проявляя гетероскедастичность, перекос или лептокуртоз, для которых модель не учитывает. Такие наблюдения могут содержать ненормальную выборочную информацию, которая, тем не менее, необходима для точной оценки модели. Определение типа влиятельного наблюдения затруднено только при рассмотрении данных. Лучшие подсказки часто встречаются в взаимодействиях модели данных, которые производят остаточные ряды. Исследуем их далее в примере Регрессия временного ряда VI: Остаточная диагностика.

Предварительная обработка влиятельных наблюдений имеет три компонента: идентификация, оценка влияния и аккомодация. В эконометрических условиях идентификация и оценка влияния обычно основаны на статистике регрессии. Согласование, если таковое имеется, обычно является выбором между удалением данных, что требует принятия допущений относительно ДГУ, или же реализацией достаточно надежной процедуры оценки, с возможностью затемнения ненормальной, но, возможно, важной информации.

Данные временных рядов отличаются от данных поперечного сечения тем, что удаление наблюдений оставляет «дыры» во временной базе образца. Стандартные методы расчета значений замены, такие как сглаживание, нарушают допущение CLM о строгой экзогенности. Если данные временных рядов демонстрируют последовательную корреляцию, как это часто происходит в экономических условиях, удаление наблюдений изменит предполагаемые автокорреляции. Возможность диагностики отклонений от спецификации модели посредством остаточного анализа оказывается скомпрометированной. В результате процесс моделирования должен циклически переходить между диагностикой и повторением до тех пор, пока оценки приемлемых коэффициентов не дадут приемлемую серию остатков.

Диагностика удаления

Функция fitlm вычисляет многие стандартные регрессионные статистические данные, используемые для измерения влияния отдельных наблюдений. Они основаны на последовательности удалений строк один в раз совместно наблюдаемых значений предиктора и ответа. Статистика регрессии вычисляется для каждого набора данных удаления-1 и сравнивается со статистикой для полного набора данных.

Существенные изменения в оценках коэффициентов, $_{}^{βˆ}$ после удаления наблюдения, являются основной проблемой. Свойство подогнанной модели Diagnostics.dfBetas масштабирует эти различия по оценкам отклонений индивидуальных коэффициентов для сравнения:

dfBetas = M0.Diagnostics.dfBetas;

figure
hold on
plot(dt,dfBetas(:,2:end),'LineWidth',2)
plot(dt,dfBetas(:,1),'k','LineWidth',2)
hold off
legend([predNames0,'Intercept'],'Location','Best')
xlabel('Observation Deleted') 
ylabel('Scaled Change in Coefficient Estimate') 
title('{\bf Delete-1 Coefficient Estimate Changes}')
axis tight
grid on

$Figure contains an axes. The axes with title {\bf Delete-1 Coefficient Estimate Changes} contains 5 objects of type line. These objects represent AGE, BBB, CPF, SPR, Intercept.$

Влияние делеций на пары компонентов в $_{}^{βˆ}$ показано в матрице 2-D графиков рассеяния изменений:

figure
gplotmatrix(dfBetas,[],[],[],'o',2,[],...
            'variable',['Const',predNames0]);
title('{\bf Delete-1 Coefficient Estimate Changes}')

При наличии достаточных данных эти рассеяния имеют тенденцию быть приблизительно эллиптическими [2]. Внешние точки могут быть помечены именем соответствующего удаленного наблюдения путем ввода gname(dt) в командной строке, а затем щелчком мыши на точке на графиках.

Альтернативно, расстояние Кука, найденное в Diagnostics.CooksDistance свойство подогнанной модели, является общей сводной статистикой для этих графиков, с контурами, образующими эллипсы, центрированные вокруг $_{}^{βˆ}$ (то есть dfBeta = 0). Точки, расположенные далеко от центра на нескольких участках, имеют большое расстояние Кука, указывая на влиятельное наблюдение:

cookD = M0.Diagnostics.CooksDistance;

figure;
plot(dt,cookD,'m','LineWidth',2)
recessionplot;
xlabel('Observation'); 
ylabel('Cook''s Distance'); 
title('{\bf Cook''s Distance}');
axis('tight');
grid('on');

$Figure contains an axes. The axes with title {\bf Cook's Distance} contains 3 objects of type line, patch.$

Если ${_{}^{βˆ}}_{(i}$ ) является оценочным вектором коэффициентов с $^{}$ i-м наблюдением, удаленным из данных, то расстояние Кука также является евклидовым расстоянием между

${_{}}_{}^{}_{}_{}^{ytˆ=Xtβˆ}$

${_{}}_{}^{ytˆ}_{i})_{} {_{}^{}}_{=Xtβˆ}$ i).

В результате расстояние Кука является прямой мерой влияния наблюдения на подогнанные значения отклика.

Связанной мерой влияния является рычаг, который использует нормальные уравнения для записи

${_{}}_{}^{}_{}_{}^{}_{ytˆ=Xtβˆ=Xt} (_{}^{}_{} {XtTXt}^{)} -_{}^{}_{} 1XTyt_{=}$ Hyt,

где $H$ - матрица hat, вычисленная только из данных предиктора. Диагональные элементы $H$ являются значениями рычагов, что дает компонентные пропорции наблюдаемого $_{yt}$ , способствующие соответствующим оценкам в ${_{}}_{}^{ytˆ}$ . Значения рычагов, найденные в Diagnostics.Leverage свойство подогнанной модели, подчеркнуть различные источники влияния:

leverage = M0.Diagnostics.Leverage;

figure;
plot(dt,leverage,'m','LineWidth',2)
recessionplot;
xlabel('Observation');
ylabel('Leverage'); 
title('{\bf Leverage}');
axis('tight');
grid('on');

$Figure contains an axes. The axes with title {\bf Leverage} contains 3 objects of type line, patch.$

Другой распространенной мерой влияния, расстояние Махаланобиса, является просто масштабная версия рычагов. Расстояния Махаланобиса в X0 можно вычислить с помощью d = mahal(X0,X0), в этом случае значения рычагов задаются h = d/(T0-1)+(1/T0).

Дополнительные диагностические графики могут быть созданы путем извлечения других статистических данных из Diagnostics свойства подгоняемой модели или с помощью plotDiagnostics функция.

Экономическое значение

Прежде чем удалять данные, следует придать какой-то экономический смысл влиятельным пунктам, выявленным различными мерами. Расстояние Кука, связанное с изменениями в общем ответе, показывает резкий всплеск в 2001 году. Леверидж, связанный только с данными предикторов, показывает резкий всплеск в 1988 году. Также примечательно, что после внезапного увеличения левереджа и периода высоких ставок дефолта, предиктор BBB изгибается вверх после 1991 года, и процент облигаций более низкого класса начинает расти. (См. график предикторов в примере Регрессия временных рядов I: Линейные модели.)

Некоторые подсказки встречаются в экономической истории времени. 2001 год был периодом рецессии в экономике США (вторая вертикальная полоса на участках выше), вызванной, отчасти, крахом спекулятивного интернет-пузыря и сокращением инвестиций в бизнес. Это также был год терактов 11 сентября, которые нанесли серьезный шок рынкам облигаций. Неопределенность, а не количественный риск, характеризует инвестиционные решения на оставшуюся часть этого года. С другой стороны, в 1980-х годах началось долгосрочное изменение характера рынков облигаций. Новые выпуски высокодоходных облигаций, которые стали известны как «мусорные облигации», использовались для финансирования многих корпоративных проектов реструктуризации. Этот сегмент рынка облигаций рухнул в 1989 году. После рецессии (первая вертикальная полоса на участках выше) и шока цен на нефть в 1990-1991 годах рынок высокой доходности снова начал расти и созрел.

Решение об удалении данных в конечном итоге зависит от цели модели. Если цель в основном пояснительная, удаление точно записанных данных неуместно. Если, однако, цель состоит в прогнозировании, то следует спросить, создаст ли удаление точек более «типичный» пример прошлого и, следовательно, будущего. Например, исторический контекст данных в 2001 году может привести к выводу о том, что они искажают исторические закономерности и не должны влиять на модель прогнозирования. Аналогичным образом, история 80-х годов может привести к выводу о том, что на рынках облигаций произошли структурные изменения, и данные до 1991 должны игнорироваться при прогнозах в новом режиме.

Для справки создадим оба измененных набора данных:

% Delete 2001:
d1 = (dt ~= '2001'); % Delete 1
datesd1 = dt(d1);
Xd1 = X0(d1,:);
yd1 = y0(d1);

% Delete dates prior to 1991, as well:
dm = (datesd1 >= '1991'); % Delete many
datesdm = datesd1(dm);
Xdm = Xd1(dm,:);
ydm = yd1(dm);

Резюме

Влияние удалений на оценку модели кратко излагается ниже. Табличные массивы обеспечивают удобный формат для сравнения статистики регрессии между моделями:

Md1 = fitlm(Xd1,yd1);
Mdm = fitlm(Xdm,ydm);

% Model mean squared errors:
MSEs = table(M0.MSE,...
             Md1.MSE,...
             Mdm.MSE,...
             'VariableNames',{'Original','Delete01','Post90'},...              
             'RowNames',{'MSE'})

MSEs=1×3 table
           Original     Delete01      Post90  
           _________    _________    _________

    MSE    0.0058287    0.0032071    0.0023762

% Coefficient estimates:
Coeffs = table(M0.Coefficients.Estimate,...
               Md1.Coefficients.Estimate,...
               Mdm.Coefficients.Estimate,...
               'VariableNames',{'Original','Delete01','Post90'},...              
               'RowNames',['Const',predNames0])

Coeffs=5×3 table
             Original      Delete01      Post90  
             _________    __________    _________

    Const     -0.22741      -0.12821     -0.13529
    AGE       0.016781      0.016635     0.014107
    BBB      0.0042728     0.0017657    0.0016663
    CPF      -0.014888    -0.0098507    -0.010577
    SPR       0.045488      0.024171     0.041719

% Coefficient standard errors:
StdErrs = table(M0.Coefficients.SE,...
               Md1.Coefficients.SE,...
               Mdm.Coefficients.SE,...
               'VariableNames',{'Original','Delete01','Post90'},...              
               'RowNames',['Const',predNames0])

StdErrs=5×3 table
             Original     Delete01      Post90  
             _________    _________    _________

    Const     0.098565     0.077746     0.086073
    AGE      0.0091845    0.0068129     0.013024
    BBB      0.0026757    0.0020942    0.0030328
    CPF      0.0038077    0.0031273    0.0041749
    SPR       0.033996     0.025849     0.027367

MSE улучшается с удалением точки в 2001 году, а затем снова с удалением данных до 1991 года. Удаление пункта в 2001 году также приводит к ужесточению стандартных ошибок в оценках коэффициентов. Однако удаление всех данных до 1991 года значительно сокращает размер выборки, и стандартные ошибки в некоторых оценках становятся больше, чем в исходных данных.

Ссылки

[1] Белсли, Д. А., Э. Кух и Р. Э. Уэлш. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.

[2] Вайсберг, С. Примененная линейная регрессия. Хобокен, Нью-Джерси: John Wiley & Sons, Inc., 2005.

Документация