В этом примере показано, как обнаружить влиятельные наблюдения в данных временных рядов и учесть их влияние на несколько моделей линейной регрессии. Он является третьим в серии примеров регрессии временных рядов после представления в предыдущих примерах.
При рассмотрении эмпирических ограничений, которые влияют на оценки ОЛС, Belsley et al. [1] советуем сначала устранить коллинеарности. Следующим шагом является поиск влиятельных наблюдений, присутствие которых, индивидуально или в группах, оказывает измеримое влияние на результаты регрессии. Мы отличаем по существу метрическое понятие «влиятельное наблюдение» от более субъективного понятия «выброс», которое может включать любые данные, которые не следуют ожидаемым шаблонам.
Начнем с загрузки соответствующих данных из предыдущего примера Регрессия временного ряда II: коллинеарность и отклонение оценщика и продолжим анализ представленной там модели дефолта кредита:
load Data_TSReg2 dt = datetime(dateNums,'ConvertFrom','datenum','Format','yyyy');
Влиятельные наблюдения возникают двумя принципиально различными способами. Во-первых, они могут быть результатом ошибок измерения или записи. В этом случае они являются просто плохими данными, наносящими ущерб оценке модели. С другой стороны, они могут отражать истинное распределение инновационного процесса, проявляя гетероскедастичность, перекос или лептокуртоз, для которых модель не учитывает. Такие наблюдения могут содержать ненормальную выборочную информацию, которая, тем не менее, необходима для точной оценки модели. Определение типа влиятельного наблюдения затруднено только при рассмотрении данных. Лучшие подсказки часто встречаются в взаимодействиях модели данных, которые производят остаточные ряды. Исследуем их далее в примере Регрессия временного ряда VI: Остаточная диагностика.
Предварительная обработка влиятельных наблюдений имеет три компонента: идентификация, оценка влияния и аккомодация. В эконометрических условиях идентификация и оценка влияния обычно основаны на статистике регрессии. Согласование, если таковое имеется, обычно является выбором между удалением данных, что требует принятия допущений относительно ДГУ, или же реализацией достаточно надежной процедуры оценки, с возможностью затемнения ненормальной, но, возможно, важной информации.
Данные временных рядов отличаются от данных поперечного сечения тем, что удаление наблюдений оставляет «дыры» во временной базе образца. Стандартные методы расчета значений замены, такие как сглаживание, нарушают допущение CLM о строгой экзогенности. Если данные временных рядов демонстрируют последовательную корреляцию, как это часто происходит в экономических условиях, удаление наблюдений изменит предполагаемые автокорреляции. Возможность диагностики отклонений от спецификации модели посредством остаточного анализа оказывается скомпрометированной. В результате процесс моделирования должен циклически переходить между диагностикой и повторением до тех пор, пока оценки приемлемых коэффициентов не дадут приемлемую серию остатков.
Функция fitlm вычисляет многие стандартные регрессионные статистические данные, используемые для измерения влияния отдельных наблюдений. Они основаны на последовательности удалений строк один в раз совместно наблюдаемых значений предиктора и ответа. Статистика регрессии вычисляется для каждого набора данных удаления-1 и сравнивается со статистикой для полного набора данных.
Существенные изменения в оценках коэффициентов, после удаления наблюдения, являются основной проблемой. Свойство подогнанной модели Diagnostics.dfBetas масштабирует эти различия по оценкам отклонений индивидуальных коэффициентов для сравнения:
dfBetas = M0.Diagnostics.dfBetas; figure hold on plot(dt,dfBetas(:,2:end),'LineWidth',2) plot(dt,dfBetas(:,1),'k','LineWidth',2) hold off legend([predNames0,'Intercept'],'Location','Best') xlabel('Observation Deleted') ylabel('Scaled Change in Coefficient Estimate') title('{\bf Delete-1 Coefficient Estimate Changes}') axis tight grid on

Влияние делеций на пары компонентов в показано в матрице 2-D графиков рассеяния изменений:
figure gplotmatrix(dfBetas,[],[],[],'o',2,[],... 'variable',['Const',predNames0]); title('{\bf Delete-1 Coefficient Estimate Changes}')

При наличии достаточных данных эти рассеяния имеют тенденцию быть приблизительно эллиптическими [2]. Внешние точки могут быть помечены именем соответствующего удаленного наблюдения путем ввода gname(dt) в командной строке, а затем щелчком мыши на точке на графиках.
Альтернативно, расстояние Кука, найденное в Diagnostics.CooksDistance свойство подогнанной модели, является общей сводной статистикой для этих графиков, с контурами, образующими эллипсы, центрированные вокруг (то есть dfBeta = 0). Точки, расположенные далеко от центра на нескольких участках, имеют большое расстояние Кука, указывая на влиятельное наблюдение:
cookD = M0.Diagnostics.CooksDistance; figure; plot(dt,cookD,'m','LineWidth',2) recessionplot; xlabel('Observation'); ylabel('Cook''s Distance'); title('{\bf Cook''s Distance}'); axis('tight'); grid('on');

Если ) является оценочным вектором коэффициентов с i-м наблюдением, удаленным из данных, то расстояние Кука также является евклидовым расстоянием между
и
i).
В результате расстояние Кука является прямой мерой влияния наблюдения на подогнанные значения отклика.
Связанной мерой влияния является рычаг, который использует нормальные уравнения для записи
Hyt,
где - матрица hat, вычисленная только из данных предиктора. Диагональные элементы являются значениями рычагов, что дает компонентные пропорции наблюдаемого , способствующие соответствующим оценкам в . Значения рычагов, найденные в Diagnostics.Leverage свойство подогнанной модели, подчеркнуть различные источники влияния:
leverage = M0.Diagnostics.Leverage; figure; plot(dt,leverage,'m','LineWidth',2) recessionplot; xlabel('Observation'); ylabel('Leverage'); title('{\bf Leverage}'); axis('tight'); grid('on');

Другой распространенной мерой влияния, расстояние Махаланобиса, является просто масштабная версия рычагов. Расстояния Махаланобиса в X0 можно вычислить с помощью d = mahal(X0,X0), в этом случае значения рычагов задаются h = d/(T0-1)+(1/T0).
Дополнительные диагностические графики могут быть созданы путем извлечения других статистических данных из Diagnostics свойства подгоняемой модели или с помощью plotDiagnostics функция.
Прежде чем удалять данные, следует придать какой-то экономический смысл влиятельным пунктам, выявленным различными мерами. Расстояние Кука, связанное с изменениями в общем ответе, показывает резкий всплеск в 2001 году. Леверидж, связанный только с данными предикторов, показывает резкий всплеск в 1988 году. Также примечательно, что после внезапного увеличения левереджа и периода высоких ставок дефолта, предиктор BBB изгибается вверх после 1991 года, и процент облигаций более низкого класса начинает расти. (См. график предикторов в примере Регрессия временных рядов I: Линейные модели.)
Некоторые подсказки встречаются в экономической истории времени. 2001 год был периодом рецессии в экономике США (вторая вертикальная полоса на участках выше), вызванной, отчасти, крахом спекулятивного интернет-пузыря и сокращением инвестиций в бизнес. Это также был год терактов 11 сентября, которые нанесли серьезный шок рынкам облигаций. Неопределенность, а не количественный риск, характеризует инвестиционные решения на оставшуюся часть этого года. С другой стороны, в 1980-х годах началось долгосрочное изменение характера рынков облигаций. Новые выпуски высокодоходных облигаций, которые стали известны как «мусорные облигации», использовались для финансирования многих корпоративных проектов реструктуризации. Этот сегмент рынка облигаций рухнул в 1989 году. После рецессии (первая вертикальная полоса на участках выше) и шока цен на нефть в 1990-1991 годах рынок высокой доходности снова начал расти и созрел.
Решение об удалении данных в конечном итоге зависит от цели модели. Если цель в основном пояснительная, удаление точно записанных данных неуместно. Если, однако, цель состоит в прогнозировании, то следует спросить, создаст ли удаление точек более «типичный» пример прошлого и, следовательно, будущего. Например, исторический контекст данных в 2001 году может привести к выводу о том, что они искажают исторические закономерности и не должны влиять на модель прогнозирования. Аналогичным образом, история 80-х годов может привести к выводу о том, что на рынках облигаций произошли структурные изменения, и данные до 1991 должны игнорироваться при прогнозах в новом режиме.
Для справки создадим оба измененных набора данных:
% Delete 2001: d1 = (dt ~= '2001'); % Delete 1 datesd1 = dt(d1); Xd1 = X0(d1,:); yd1 = y0(d1); % Delete dates prior to 1991, as well: dm = (datesd1 >= '1991'); % Delete many datesdm = datesd1(dm); Xdm = Xd1(dm,:); ydm = yd1(dm);
Влияние удалений на оценку модели кратко излагается ниже. Табличные массивы обеспечивают удобный формат для сравнения статистики регрессии между моделями:
Md1 = fitlm(Xd1,yd1); Mdm = fitlm(Xdm,ydm); % Model mean squared errors: MSEs = table(M0.MSE,... Md1.MSE,... Mdm.MSE,... 'VariableNames',{'Original','Delete01','Post90'},... 'RowNames',{'MSE'})
MSEs=1×3 table
Original Delete01 Post90
_________ _________ _________
MSE 0.0058287 0.0032071 0.0023762
% Coefficient estimates: Coeffs = table(M0.Coefficients.Estimate,... Md1.Coefficients.Estimate,... Mdm.Coefficients.Estimate,... 'VariableNames',{'Original','Delete01','Post90'},... 'RowNames',['Const',predNames0])
Coeffs=5×3 table
Original Delete01 Post90
_________ __________ _________
Const -0.22741 -0.12821 -0.13529
AGE 0.016781 0.016635 0.014107
BBB 0.0042728 0.0017657 0.0016663
CPF -0.014888 -0.0098507 -0.010577
SPR 0.045488 0.024171 0.041719
% Coefficient standard errors: StdErrs = table(M0.Coefficients.SE,... Md1.Coefficients.SE,... Mdm.Coefficients.SE,... 'VariableNames',{'Original','Delete01','Post90'},... 'RowNames',['Const',predNames0])
StdErrs=5×3 table
Original Delete01 Post90
_________ _________ _________
Const 0.098565 0.077746 0.086073
AGE 0.0091845 0.0068129 0.013024
BBB 0.0026757 0.0020942 0.0030328
CPF 0.0038077 0.0031273 0.0041749
SPR 0.033996 0.025849 0.027367
MSE улучшается с удалением точки в 2001 году, а затем снова с удалением данных до 1991 года. Удаление пункта в 2001 году также приводит к ужесточению стандартных ошибок в оценках коэффициентов. Однако удаление всех данных до 1991 года значительно сокращает размер выборки, и стандартные ошибки в некоторых оценках становятся больше, чем в исходных данных.
[1] Белсли, Д. А., Э. Кух и Р. Э. Уэлш. Регрессионная диагностика. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.
[2] Вайсберг, С. Примененная линейная регрессия. Хобокен, Нью-Джерси: John Wiley & Sons, Inc., 2005.