Регрессия V временных рядов: выбор предиктора

Открыть сценарий в реальном времени

В этом примере показано, как выбрать скудный набор предикторов с высокой статистической значимостью для моделей множественной линейной регрессии. Он является пятым в серии примеров регрессии временных рядов после представления в предыдущих примерах.

Введение

Каковы «лучшие» предикторы для модели множественной линейной регрессии (MLR)? Без теоретической основы для ответа на этот вопрос модели могут, по крайней мере первоначально, включать смесь «потенциальных» предикторов, которые ухудшают качество оценок ОЛС и путают идентификацию значимых эффектов.

В идеале набор предикторов будет иметь следующие характеристики:

Каждый предиктор способствует изменению ответа (необходимость и парсимония)
Никакие дополнительные предикторы не способствуют изменению ответа (достаточность)
Никакие дополнительные предикторы существенно не изменяют оценки коэффициента (стабильность)

Реалии экономического моделирования, однако, затрудняют поиск такого набора. Во-первых, существует неизбежность опущенных, значимых предикторов, которые приводят к моделям с смещенными и неэффективными оценками коэффициентов. Другие примеры в этой серии обсуждают связанные проблемы, такие как корреляция между предикторами, корреляция между предикторами и опущенными переменными, ограниченная вариация выборки, нетипичные данные и так далее, все из которых создают проблемы для чисто статистического выбора «лучших» предикторов.

Методы автоматизированного отбора используют статистическую значимость, несмотря на ее недостатки, в качестве замены теоретической значимости. Эти методы обычно выбирают «лучший» набор предикторов, минимизируя некоторую меру ошибки прогноза. Ограничения оптимизации используются для указания требуемых или исключенных предикторов или для задания размера конечной модели.

В предыдущем примере Регрессия временного ряда IV: Ложная регрессия было высказано предположение, что некоторые преобразования предикторов могут быть полезны при создании более точной модели прогнозирования. Выбор предикторов перед преобразованием имеет преимущество сохранения исходных единиц, что может быть важно для идентификации подмножества, которое является как значимым, так и статистически значимым. Обычно методы выбора и преобразования используются вместе, с целью моделирования, заключающейся в достижении простой, но все же точной модели прогнозирования реакции.

Чтобы изучить методы выбора, мы начинаем с загрузки соответствующих данных из предыдущего примера Регрессия временного ряда IV: Ложная регрессия:

load Data_TSReg4

Для справки мы отображаем модели с полным набором предикторов как на уровнях, так и на различиях:

M0

M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253

MD1

MD1 = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.089492      0.10843    -0.82535       0.4221
    AGE             0.015193     0.012574      1.2083      0.24564
    D1BBB          -0.023538     0.020066      -1.173      0.25909
    D1CPF          -0.015707    0.0046294      -3.393    0.0040152
    D1SPR           -0.03663      0.04017    -0.91187      0.37626


Number of observations: 20, Error degrees of freedom: 15
Root Mean Squared Error: 0.106
R-squared: 0.49,  Adjusted R-Squared: 0.354
F-statistic vs. constant model: 3.61, p-value = 0.0298

Ступенчатая регрессия

Многие подходы к выбору предиктора используют t-статистику оцененных коэффициентов и F-статистику групп коэффициентов для измерения статистической значимости. При использовании этой статистики необходимо помнить, что пропуск предикторов с незначительным индивидуальным вкладом может скрыть значительный совместный вклад. Кроме того, статистика t и F может быть ненадежной при наличии коллинеарности или переменных тренда. Таким образом, проблемы с данными должны быть решены до выбора предиктора.

Ступенчатая регрессия - это систематическая процедура добавления и удаления предикторов МЛР на основе статистики F. Процедура начинается с начального подмножества потенциальных предикторов, включая любые, считающиеся теоретически значимыми. На каждом шаге вычисляется p-значение F-статистики (то есть квадрат t-статистики с идентичным p-значением) для сравнения моделей с одним из потенциальных предикторов и без него. Если предсказателя в настоящее время нет в модели, нулевая гипотеза состоит в том, что он будет иметь нулевой коэффициент при добавлении к модели. Если имеется достаточно доказательств для отклонения нулевой гипотезы, предиктор добавляется к модели. И наоборот, если предсказатель в настоящее время находится в модели, нулевая гипотеза состоит в том, что он имеет нулевой коэффициент. Если доказательств для отклонения нулевой гипотезы недостаточно, предиктор удаляется из модели. На любом этапе процедура может удалить предикторы, которые были добавлены, или добавить предикторы, которые были удалены.

Ступенчатая регрессия происходит следующим образом:

Подгоните исходную модель.
Если какие-либо предикторы, отсутствующие в модели, имеют p-значения, меньшие, чем входной допуск (то есть, если маловероятно, что они имели бы нулевой коэффициент при добавлении к модели), добавьте значение с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.
Если какие-либо предикторы в модели имеют p-значения, превышающие допуск выхода (то есть, если маловероятно, что гипотеза нулевого коэффициента может быть отвергнута), удалите значение с наибольшим p-значением и перейдите к шагу 2; в противном случае конец.

В зависимости от начальной модели и порядка, в котором предикторы перемещаются внутрь и наружу, процедура может строить различные модели из одного и того же набора потенциальных предикторов. Процедура завершается, когда ни один шаг не улучшает модель. Однако нет никакой гарантии, что иная начальная модель и другая последовательность шагов не приведут к лучшей подгонке. В этом смысле пошаговые модели являются локально оптимальными, но могут не быть глобально оптимальными. Тем не менее, процедура эффективна во избежание оценки каждого возможного подмножества потенциальных предикторов и часто дает полезные результаты на практике.

Функция stepwiselm (эквивалентно статическому методу LinearModel.stepwise) выполняет пошаговую регрессию автоматически. По умолчанию он включает константу в модель, начинается с пустого набора предикторов и использует допуски входа/выхода для p-значений F-статистики 0,05/0,10. Применяется следующее: stepwiselm к исходному набору потенциальных предикторов, устанавливая верхнюю границу Linear в модели, которая ограничивает процедуру, не включая квадратные или интерактивные термины при поиске модели с самой низкой среднеквадратичной ошибкой (RMSE):

M0SW = stepwiselm(DataTable,'Upper','Linear')

1. Adding CPF, FStat = 6.22, pValue = 0.022017
2. Adding BBB, FStat = 10.4286, pValue = 0.00465235

M0SW = 
Linear regression model:
    IGD ~ 1 + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    _______    __________

    (Intercept)    -0.087741     0.071106     -1.234       0.23309
    BBB            0.0074389    0.0023035     3.2293     0.0046523
    CPF            -0.016187    0.0039682    -4.0792    0.00070413


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0808
R-squared: 0.523,  Adjusted R-Squared: 0.47
F-statistic vs. constant model: 9.87, p-value = 0.00128

На дисплее отображаются активные предикторы при завершении. F-тесты выбирают два предиктора с оптимальной значимостью в суставах, BBB и CPF. Это не предикторы с наиболее значимой индивидуальной t-статистикой, AGE и CPF, в полной модели M0. RMSE уменьшенной модели, 0,0808, сопоставим с RMSE M0, 0.0763. Незначительное повышение - цена парсимонии.

Для сравнения, мы применяем процедуру к полному набору дифференциальных предикторов (с AGE недифференцированные) в MD1:

MD1SW = stepwiselm(D1X0,D1y0,'Upper','Linear','VarNames',[predNamesD1,respNameD1])

1. Adding D1CPF, FStat = 9.7999, pValue = 0.0057805

MD1SW = 
Linear regression model:
    D1IGD ~ 1 + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)    0.0097348     0.024559    0.39638      0.69649
    D1CPF          -0.014783    0.0047222    -3.1305    0.0057805


Number of observations: 20, Error degrees of freedom: 18
Root Mean Squared Error: 0.109
R-squared: 0.353,  Adjusted R-Squared: 0.317
F-statistic vs. constant model: 9.8, p-value = 0.00578

RMSE уменьшенной модели, 0,109, снова сопоставим с MD1, 0.106. Пошаговая процедура распределяет модель по одному предиктору, D1CPF, с его значительно меньшим p-значением.

RMSE, конечно, не является гарантией производительности прогноза, особенно с небольшими выборками. Поскольку существует теоретическая основа для включения эффекта старения в модели дефолта по кредиту [5], мы, возможно, захотим форсировать AGE в модель. Это делается путем фиксации D1IGD ~ AGE как исходная модель, так и нижняя граница для всех рассматриваемых моделей:

MD1SWA = stepwiselm(D1X0,D1y0,'D1IGD~AGE',...
                              'Lower','D1IGD~AGE',...
                              'Upper','Linear',...
                              'VarNames',[predNamesD1,respNameD1])

1. Adding D1CPF, FStat = 10.9238, pValue = 0.00418364

MD1SWA = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.11967      0.10834    -1.1047       0.2847
    AGE             0.015463     0.012617     1.2255      0.23708
    D1CPF          -0.015523    0.0046967    -3.3051    0.0041836


Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 0.108
R-squared: 0.405,  Adjusted R-Squared: 0.335
F-statistic vs. constant model: 5.79, p-value = 0.0121

RMSE немного уменьшен, выделяя локальный характер поиска. По этой причине рекомендуется несколько пошаговых поисков, продвигающихся от пустой начальной модели и назад от полной начальной модели, при этом фиксируя любые теоретически важные предикторы. Сравнение локальных минимумов, в контексте теории, дает наиболее достоверные результаты.

Пошаговая процедура регрессии может быть изучена более подробно с помощью функции stepwise, что позволяет взаимодействовать на каждом шаге, и функцию Example_StepwiseTrace, которая отображает историю оценок коэффициентов в течение всего процесса выбора.

Критерии информации

Ступенчатая регрессия сравнивает вложенные модели, используя F-тесты, которые эквивалентны тестам отношения правдоподобия. Для сравнения моделей, не являющихся расширениями или ограничениями друг друга, часто используются информационные критерии (IC). Существует несколько общих разновидностей, но все они пытаются сбалансировать меру вписывания в выборку со штрафом за увеличение числа модельных коэффициентов. Информационный критерий Акайке (AIC) и информационный критерий Байеса (BIC) вычисляются посредством ModelCriterion способ LinearModel класс. Мы сравниваем показатели, используя полный набор предикторов как на уровнях, так и на различиях:

AIC0 = M0.ModelCriterion.AIC

AIC0 = -44.1593

BIC0 = M0.ModelCriterion.BIC

BIC0 = -38.9367

AICD1 = MD1.ModelCriterion.AIC

AICD1 = -28.7196

BICD1 = MD1.ModelCriterion.BIC

BICD1 = -23.7410

Поскольку обе модели оценивают одинаковое количество коэффициентов, AIC и BIC в пользу M0, с нижним RMSE.

Мы также можем захотеть сравнить MD1 к лучшей уменьшенной модели, найденной с помощью ступенчатой регрессии, MD1SWA:

AICD1SWA = MD1SWA.ModelCriterion.AIC

AICD1SWA = -29.6239

BICD1SWA = MD1SWA.ModelCriterion.BIC

BICD1SWA = -26.6367

Оба показателя уменьшаются в результате меньшего количества оценок коэффициентов, но модель все еще не компенсирует повышенный RMSE относительно M0, что стало результатом дифференциации для исправления ложной регрессии.

Перекрестная проверка

Другим распространенным методом сравнения моделей является перекрестная проверка. Как и информационные критерии, перекрестная проверка может использоваться для сравнения неестественных моделей и наказания модели за переоборудование. Отличие состоит в том, что перекрестная проверка оценивает модель в контексте производительности прогноза вне выборки, а не в соответствии с выборкой.

При стандартной перекрестной проверке данные разбиваются случайным образом на обучающий набор и тестовый набор. Модельные коэффициенты оцениваются с помощью обучающего набора, затем используются для прогнозирования значений ответа в тестовом наборе. Тренировочные и тестовые наборы тасуются наугад, и процесс осуществляется неоднократно. Небольшие ошибки прогнозирования в среднем по всем наборам тестов указывают на хорошую производительность прогноза для предикторов модели. Нет необходимости корректировать количество коэффициентов, как в информационных критериях, поскольку для подгонки и оценки используются разные данные. Переоборудование становится очевидным при прогнозировании производительности.

Перекрестная проверка - это обобщение методов «разделенной выборки» или «удержания», где для оценки ошибки прогнозирования используется только одно подмножество. Имеются статистические данные о том, что перекрестная проверка является гораздо лучшей процедурой для небольших наборов данных [2]. Асимптотически минимизация ошибки перекрестной проверки линейной модели эквивалентна минимизации AIC или BIC [6], [7].

Для данных временных рядов процедура имеет некоторые сложности. Данные временных рядов обычно не независимы, поэтому случайные обучающие наборы, взятые из любой точки временной базы, могут быть коррелированы со случайными тестовыми наборами. В этой ситуации перекрестная проверка может вести себя нестабильно [3]. Одно решение состоит в том, чтобы проверить L так, чтобы наблюдения в момент $_{времени t1}$ не коррелировали с наблюдениями в момент времени $_{t2}$ для $|_{}_{} t1-t2 |$ > L (см. пример Регрессия временного ряда VI: Остаточная диагностика), затем выбрать обучающие и тестовые наборы с достаточным разделением. Другое решение состоит в том, чтобы использовать достаточно много тестовых наборов, чтобы эффекты корреляции вымывались случайной выборкой. Процедура может быть повторена с использованием тестовых наборов различных размеров, и чувствительность результатов может быть оценена.

Стандартная перекрестная проверка выполняется crossval функция. По умолчанию данные случайным образом разбиваются на 10 подприборов, каждая из которых используется один раз в качестве тестового набора (10-кратная перекрестная проверка). Затем вычисляется среднее значение MSE для всех тестов. Ниже приводится сравнение M0 кому MD1SWA. Поскольку данные содержат ~ 20 наблюдений (еще одно для данных без различий), тестовые наборы по умолчанию имеют размер 2:

yFit = @(XTrain,yTrain,XTest)(XTest*regress(yTrain,XTrain));

cvMSE0 = crossval('MSE',X0,y0,'predfun',yFit);
cvRMSE0 = sqrt(cvMSE0)

cvRMSE0 = 0.0954

cvMSED1SWA = crossval('MSE',D1X0(:,[1 3]),D1y0,'predfun',yFit);
cvRMSED1SWA = sqrt(cvMSED1SWA)

cvRMSED1SWA = 0.1409

RMSE немного выше, чем те, которые были найдены ранее, 0,0763 и 0,108 соответственно, и снова отдают предпочтение полному первоначальному набору предикторов.

Лассо

Наконец, рассмотрим оператор наименьшей абсолютной усадки и выбора, или лассо [4], [8]. Лассо является методикой регуляризации, аналогичной регрессии гребня (обсуждаемой в примере Регрессия временного ряда II: коллинеарность и дисперсия оценщика), но с важным отличием, которое полезно для выбора предиктора. Рассмотрим следующую эквивалентную формулировку оценщика гребня:

${_{}^{}}_{} \underset{βˆridge=minβ}{} (\underset{}{}_{}^{} SSE+k\sumiβi2$ ),

где $SSE$ - ошибочная (остаточная) сумма квадратов для регрессии. По существу, устройство оценки гребня минимизирует $МРЗ$ , одновременно штрафуя за большие коэффициенты $_{βi}$ . По мере увеличения параметра k > 0 гребня штраф уменьшает оценки коэффициента до 0 в попытке уменьшить большие дисперсии, создаваемые почти коллинеарными предикторами.

Оценщик лассо имеет аналогичную формулировку:

${_{}^{}}_{} \underset{βˆlasso=minβ}{} (\underset{}{}_{} SSE+k\sumi'βi|$ ).

Изменение штрафа выглядит незначительным, но оно влияет на оценщика важными способами. Как и оценщик гребня, ${_{}^{}}_{βˆlasso}$ смещен к нулю (отказавшись от «U» в BLUE). В отличие от оценщика гребня, однако, ${_{}^{}}_{βˆlasso}$ не является линейным в значениях отклика $_{yt}$ (отказавшись от «L» в BLUE). Это в корне меняет характер процедуры оценки. Новая геометрия позволяет оценкам коэффициентов уменьшаться до нуля для конечных значений $k$ , эффективно выбирая подмножество предикторов.

Лассо реализуется lasso функция. По умолчанию lasso оценивает регрессию для диапазона параметров $k$ , вычисляя MSE для каждого значения. Мы установили 'CV' до 10, чтобы вычислить MSE с помощью 10-кратной перекрестной проверки. Функция lassoPlot отображает следы оценок коэффициентов:

[lassoBetas,lassoInfo] = lasso(X0,y0,'CV',10);

[hax,hfig] = lassoPlot(lassoBetas,lassoInfo,'PlotType','Lambda');
hax.XGrid = 'on';
hax.YGrid = 'on';
hax.GridLineStyle = '-';
hax.Title.String = '{\bf Lasso Trace}';
hax.XLabel.String = 'Lasso Parameter';
hlplot = hax.Children;
hMSEs = hlplot(5:6);
htraces = hlplot(4:-1:1);
set(hlplot,'LineWidth',2)
set(hMSEs,'Color','m')
legend(htraces,predNames0,'Location','NW')

$Figure contains 2 axes. Axes 1 with title {\bf Lasso Trace} is empty. Axes 2 with title {\bf Lasso Trace} contains 6 objects of type line. These objects represent LambdaMinMSE, Lambda1SE, AGE, BBB, CPF, SPR.$

hfig.HandleVisibility = 'on';

Слева появляются большие значения k, а справа - оценки ОЛС, обращающие направление типичной гребневой трассы. Степени свободы модели (число оценок ненулевых коэффициентов) увеличиваются слева направо вдоль верхней части графика. Пунктирные вертикальные линии показывают значения k с минимальным значением MSE (справа) и минимальным значением MSE плюс одна стандартная ошибка (слева). В этом случае минимум имеет место для оценок OLS, $k =$ 0, точно так же, как для регрессии гребня. Значение одной стандартной ошибки часто используется как руководство для выбора модели меньшего размера с хорошей посадкой [1].

Сюжет подсказывает AGE и CPF как возможное подмножество исходных предикторов. Мы выполняем еще одну пошаговую регрессию с помощью этих предикторов, введенных в модель:

M0SWAC = stepwiselm(X0,y0,'IGD~AGE+CPF',...
                          'Lower','IGD~AGE+CPF',...
                          'Upper','Linear',...
                          'VarNames',[predNames0,respName0])

1. Adding BBB, FStat = 4.9583, pValue = 0.039774

M0SWAC = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.14474     0.078556    -1.8424     0.082921
    AGE             0.013621    0.0090796     1.5001      0.15192
    BBB            0.0056359     0.002531     2.2267     0.039774
    CPF            -0.015299    0.0038825    -3.9405    0.0010548


Number of observations: 21, Error degrees of freedom: 17
Root Mean Squared Error: 0.0781
R-squared: 0.579,  Adjusted R-Squared: 0.504
F-statistic vs. constant model: 7.79, p-value = 0.00174

Регрессия также перемещается BBB в модель, с результирующим значением RMSE ниже значения 0,0808, найденного ранее путем ступенчатой регрессии из пустой начальной модели, M0SW, которая выбрала BBB и CPF в одиночку.

Потому что в том числе BBB увеличивает количество оцененных коэффициентов, мы используем AIC и BIC для сравнения более экономной модели 2-предиктора M0AC найдено по лассо для расширенной модели 3-предиктора M0SWAC:

M0AC = fitlm(DataTable(:,[1 3 5]))

M0AC = 
Linear regression model:
    IGD ~ 1 + AGE + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.056025     0.074779    -0.74921      0.46341
    AGE             0.023221    0.0088255      2.6311     0.016951
    CPF            -0.011699    0.0038988     -3.0008    0.0076727


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0863
R-squared: 0.456,  Adjusted R-Squared: 0.395
F-statistic vs. constant model: 7.54, p-value = 0.00418

AIC0AC = M0AC.ModelCriterion.AIC

AIC0AC = -40.5574

BIC0AC = M0AC.ModelCriterion.BIC

BIC0AC = -37.4238

AIC0SWAC = M0SWAC.ModelCriterion.AIC

AIC0SWAC = -43.9319

BIC0SWAC = M0SWAC.ModelCriterion.BIC

BIC0SWAC = -39.7538

Более низкого RMSE достаточно, чтобы компенсировать дополнительный предиктор, и оба критерия выбирают модель 3-предиктора по сравнению с моделью 2-предиктора.

Сравнение моделей

Описанные здесь процедуры предполагают ряд уменьшенных моделей со статистическими характеристиками, сопоставимыми с моделями с полным набором исходных или разностных предикторов. Подводим итоги:

M0 Модель с исходными предикторами, AGE, BBB, CPF, и SPR.

M0SW Подмодель M0 определяется ступенчатой регрессией, начиная с пустой модели. Он включает в себя BBB и CPF.

M0SWAC Подмодель M0 найдено по ступенчатой регрессии, начиная с модели, которая форсирует AGE и CPF. Предлагается лассо. Он включает в себя AGE, BBB, и CPF.

MD1 Модель с исходным предиктором AGE и разностные предикторы D1BBB, D1CPF, и D1SPR. Предлагается интеграцией и тестированием стационарности в примере Регрессия временного ряда IV: Ложная регрессия.

MD1SW Подмодель MD1 определяется ступенчатой регрессией, начиная с пустой модели. Он включает в себя D1CPF.

MD1SWA Подмодель MD1 найдено по ступенчатой регрессии, начиная с модели, которая форсирует AGE. Подсказано теорией. Он включает в себя AGE и D1CPF.

% Compute missing information:
AIC0SW = M0SW.ModelCriterion.AIC;
BIC0SW = M0SW.ModelCriterion.BIC;

AICD1SW = MD1SW.ModelCriterion.AIC;
BICD1SW = MD1SW.ModelCriterion.BIC;

% Create model comparison table:
RMSE = [M0.RMSE;M0SW.RMSE;M0SWAC.RMSE;MD1.RMSE;MD1SW.RMSE;MD1SWA.RMSE];
AIC = [AIC0;AIC0SW;AIC0SWAC;AICD1;AICD1SW;AICD1SWA];
BIC = [BIC0;BIC0SW;BIC0SWAC;BICD1;BICD1SW;BICD1SWA];

Models = table(RMSE,AIC,BIC,...              
               'RowNames',{'M0','M0SW','M0SWAC','MD1','MD1SW','MD1SWA'})

Models=6×3 table
                RMSE        AIC        BIC  
              ________    _______    _______

    M0        0.076346    -44.159    -38.937
    M0SW      0.080768    -43.321    -40.188
    M0SWAC    0.078101    -43.932    -39.754
    MD1        0.10613     -28.72    -23.741
    MD1SW      0.10921    -29.931    -27.939
    MD1SWA     0.10771    -29.624    -26.637

Модели, включающие исходные, недифференцированные данные, получают, как правило, более высокие оценки (более низкие RMSE и IC), чем модели, использующие разностные данные, но необходимо помнить о возможности ложной регрессии, которая привела к рассмотрению разностных данных в первую очередь. В каждой категории модели результаты смешиваются. Оригинальные модели с наибольшим количеством предикторов (M0, MD1) имеют самые низкие RMSE в своей категории, но есть уменьшенные модели с более низкими AIC (M0SWAC, MD1SW, MD1SWA) и нижние BIC (M0SW, M0SWAC, MD1SW, MD1SWA). Нередки случаи, когда информационные критерии предлагают более мелкие модели или когда разные информационные критерии расходятся (M0SW, M0SWAC). Кроме того, существует много комбинаций исходных и дифференцированных предикторов, которые мы не включили в наш анализ. Практики должны решить, насколько достаточно парсимонии, в контексте более крупных целей моделирования.

Резюме

В этом примере сравнивается ряд методов выбора предиктора в контексте практической модели экономического прогнозирования. Многие такие методы были разработаны для экспериментальных ситуаций, когда сбор данных приводит к огромному количеству потенциальных предикторов, и статистические методы являются единственным практическим методом сортировки. В ситуации с более ограниченными вариантами данных чисто статистические методы могут привести к множеству потенциальных моделей с сопоставимыми показателями благонадежности. Теоретические соображения, как всегда, должны играть решающую роль в отборе экономических моделей, в то время как статистика используется для отбора конкурирующих доверенных лиц по соответствующим экономическим факторам.

Ссылки

[1] Брайман, Л., Дж. Х. Фридман, Р. А. Ольшен и К. Дж. Стоун. Деревья классификации и регрессии. Бока Ратон, Флорида: Чепмен энд Холл/КПР, 1984.

[2] Goutte, C. «Примечание о бесплатных обедах и перекрестной проверке». Нейронные вычисления. Том 9, 1997, стр. 1211-1215.

[3] Олень, J. D. «Оценка регрессии ядра с ошибками временных рядов». Журнал Королевского статистического общества. Серия B, т. 53, 1991, стр. 173-187.

[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения. Нью-Йорк: Спрингер, 2008.

[5] Йонссон, Дж. Г. и М. Фридсон. «Прогнозирование ставок дефолта по высокодоходным облигациям». Журнал фиксированного дохода. т. 6, № 1, 1996, стр. 69-77.

[6] Шао, J. «Асимптотическая теория для выбора линейной модели». Статистика Синика. Том 7, 1997, стр. 221-264.

[7] Стоун, М. «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике». Журнал Королевского статистического общества. Серия B, том 39, 1977, стр. 44-47.

[8] Тибширани, Р. «Регрессионная усадка и отбор через Лассо». Журнал Королевского статистического общества. Том 58, 1996, стр. 267-288.

Документация