Регрессия временных рядов V: Выбор предиктора

Этот пример показывает, как выбрать скупой набор предикторов с высокой статистической значимостью для нескольких линейных регрессионых моделей. Это пятый в серии примеров по регрессии временных рядов, после представления в предыдущих примерах.

Введение

Каковы «лучшие» предикторы для многофакторной линейной регрессии (MLR)? Без теоретического базиса для ответа на этот вопрос модели могут, по крайней мере, первоначально включать смесь «потенциальных» предикторов, которые ухудшают качество оценок OLS и путают идентификацию значительных эффектов.

В идеале набор предикторов будет иметь следующие характеристики:

  • Каждый предиктор способствует изменению отклика (необходимость и парсимония)

  • Никакие дополнительные предикторы не способствуют изменению отклика (достаточности)

  • Никакие дополнительные предикторы не изменяют оценки коэффициентов (стабильность)

Однако реалии экономического моделирования затрудняют поиск такого набора. Во-первых, существует неизбежность опущенных, значимых предикторов, которые приводят к моделям с предвзятыми и неэффективными оценками коэффициентов. Другие примеры в этой серии обсуждают связанные проблемы, такие как корреляция среди предикторов, корреляция между предикторами и опущенными переменными, ограниченные изменения выборки, нетипичные данные и так далее, все из которых ставят проблемы для чисто статистического выбора «лучших» предикторов.

Автоматизированные методы отбора используют статистическую значимость, несмотря на её недостатки, в качестве замены теоретической значимости. Эти методы обычно выбирают «лучший» набор предикторов путем минимизации некоторой меры ошибки прогноза. Ограничения оптимизации используются, чтобы указать требуемые или исключенные предикторы или задать размер конечной модели.

В предыдущем примере Временные Ряды Regression IV: Spurious Regression было высказано предположение, что определенные преобразования предикторов могут быть полезны при создании более точной модели прогнозирования. Выбор предикторов перед преобразованием имеет преимущество сохранения исходных модулей, что может быть важно для идентификации подмножества, которое является как значимым, так и статистически значимым. Как правило, методы выбора и преобразования используются вместе с целью моделирования достижения простой, но все же точной, модели прогноза отклика.

Чтобы изучить методы выбора, мы начнем с загрузки соответствующих данных из предыдущего примера Временные Ряды Regression IV: Spurious Regression:

load Data_TSReg4

Для ссылки мы отображаем модели с полным набором предикторов как на уровнях, так и на различиях:

M0
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253
MD1
MD1 = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.089492      0.10843    -0.82535       0.4221
    AGE             0.015193     0.012574      1.2083      0.24564
    D1BBB          -0.023538     0.020066      -1.173      0.25909
    D1CPF          -0.015707    0.0046294      -3.393    0.0040152
    D1SPR           -0.03663      0.04017    -0.91187      0.37626


Number of observations: 20, Error degrees of freedom: 15
Root Mean Squared Error: 0.106
R-squared: 0.49,  Adjusted R-Squared: 0.354
F-statistic vs. constant model: 3.61, p-value = 0.0298

Ступенчатая регрессия

Многие подходы к выбору предиктора используют t-статистику предполагаемых коэффициентов и F-статистику групп коэффициентов для измерения статистической значимости. При использовании этой статистики необходимо помнить, что опускание предикторов с незначительными индивидуальными вкладами может скрыть значительный совместный вклад. Кроме того, статистика t и F может быть ненадежной при наличии переменных коллинеарности или тренда. Как таковые, проблемы с данными должны решаться до выбора предиктора.

Ступенчатая регрессия является систематической процедурой для добавления и удаления предикторов MLR на основе статистики F. Процедура начинается с начального подмножества потенциальных предикторов, включая любой, считающийся теоретически значимым. На каждом шаге p-значение F-статистики (то есть квадрат t-статистики с идентичным p-значением) вычисляется для сравнения моделей с одним из потенциальных предикторов и без него. Если предиктор в данный момент не находится в модели, нулевая гипотеза состоит в том, что он имел бы нулевой коэффициент, если бы добавлен к модели. Если существует достаточное количество доказательств, чтобы отклонить нулевую гипотезу, предиктор добавляется к модели. И наоборот, если предиктор в настоящее время находится в модели, нулевая гипотеза заключается в том, что он имеет нулевой коэффициент. Если недостаточно доказательств, чтобы отклонить нулевую гипотезу, предиктор удаляется из модели. На любом этапе процедура может удалить предикторы, которые были добавлены или добавить предикторы, которые были удалены.

Ступенчатая регрессия протекает следующим образом:

  1. Подгонка начальной модели.

  2. Если какие-либо предикторы, не входящие в модель, имеют p-значения меньше, чем входной допуск (то есть, если маловероятно, что они имели бы нулевой коэффициент, если бы добавили к модели), добавьте тот с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.

  3. Если какие-либо предикторы в модели имеют p-значения, большие, чем выходной допуск (то есть, если маловероятно, что гипотеза нулевого коэффициента может быть отклонена), удалите тот, с самым большим p-значением и перейдите к шагу 2; в противном случае завершите.

В зависимости от начальной модели и порядка, в котором предикторы перемещаются внутрь и наружу, процедура может создавать различные модели из одного и того же набора потенциальных предикторов. Процедура заканчивается, когда ни один шаг не улучшает модель. Однако нет гарантии, что другая начальная модель и другая последовательность шагов не приведут к лучшей подгонке. В этом смысле ступенчатые модели являются локально оптимальными, но могут не быть глобально оптимальными. Процедура, тем не менее, эффективна во избежание оценки каждого возможного подмножества потенциальных предикторов и часто дает полезные результаты на практике.

Функция stepwiselm (эквивалентно статическому методу LinearModel.stepwise) выполняет ступенчатую регрессию автоматически. По умолчанию он включает константу в модели, начинается с пустого набора предикторов и использует допуски на вход/выход для F-статистических значений p- 0,05/0,10. Применимо следующее stepwiselm к исходному набору потенциальных предикторов, устанавливая верхнюю границу Linear на модели, которая ограничивает процедуру, не включая квадраты или условия взаимодействия при поиске модели с самой низкой среднеквадратичной ошибкой (RMSE):

M0SW = stepwiselm(DataTable,'Upper','Linear')
1. Adding CPF, FStat = 6.22, pValue = 0.022017
2. Adding BBB, FStat = 10.4286, pValue = 0.00465235
M0SW = 
Linear regression model:
    IGD ~ 1 + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    _______    __________

    (Intercept)    -0.087741     0.071106     -1.234       0.23309
    BBB            0.0074389    0.0023035     3.2293     0.0046523
    CPF            -0.016187    0.0039682    -4.0792    0.00070413


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0808
R-squared: 0.523,  Adjusted R-Squared: 0.47
F-statistic vs. constant model: 9.87, p-value = 0.00128

На отображении показаны активные предикторы при завершении. F-тесты выбирают два предиктора с оптимальной совместной значимостью, BBB и CPF. Это не предикторы с самой значительной индивидуальной t-статистикой, AGE и CPF, в полной модели M0. RMSE уменьшенной модели 0,0808 сопоставим с RMSE M0, 0.0763. Незначительное увеличение - цена парсимонии.

Для сравнения применяем процедуру к полному набору дифференцированных предикторов (с AGE без дифференцирования) в MD1:

MD1SW = stepwiselm(D1X0,D1y0,'Upper','Linear','VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 9.7999, pValue = 0.0057805
MD1SW = 
Linear regression model:
    D1IGD ~ 1 + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)    0.0097348     0.024559    0.39638      0.69649
    D1CPF          -0.014783    0.0047222    -3.1305    0.0057805


Number of observations: 20, Error degrees of freedom: 18
Root Mean Squared Error: 0.109
R-squared: 0.353,  Adjusted R-Squared: 0.317
F-statistic vs. constant model: 9.8, p-value = 0.00578

RMSE уменьшенной модели, 0,109, снова сопоставим с RMSE MD1, 0.106. Пошаговая процедура сводит модель к одному предиктору, D1CPF, с его значительно меньшим значением p.

RMSE, конечно, не является гарантией прогнозной эффективности, особенно с небольшими выборками. Поскольку существует теоретический базисный для включения эффекта старения в модели кредитного дефолта [5], мы, возможно, захотим применить AGE в модель. Это делается путем фиксации D1IGD ~ AGE как начальная модель, так и как нижняя граница для всех рассматриваемых моделей:

MD1SWA = stepwiselm(D1X0,D1y0,'D1IGD~AGE',...
                              'Lower','D1IGD~AGE',...
                              'Upper','Linear',...
                              'VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 10.9238, pValue = 0.00418364
MD1SWA = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.11967      0.10834    -1.1047       0.2847
    AGE             0.015463     0.012617     1.2255      0.23708
    D1CPF          -0.015523    0.0046967    -3.3051    0.0041836


Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 0.108
R-squared: 0.405,  Adjusted R-Squared: 0.335
F-statistic vs. constant model: 5.79, p-value = 0.0121

RMSE немного сокращается, подчеркивая локальный характер поиска. По этой причине рекомендуется несколько ступенчатых поисков, двигающихся вперед от пустой начальной модели и назад от полной начальной модели, с исправлением любых теоретически важных предикторов. Сравнение локальных минимумов, в контексте теории, дает наиболее достоверные результаты.

Процедура ступенчатой регрессии может быть рассмотрена более подробно с помощью функции stepwise, что позволяет взаимодействовать на каждом шаге и функции Example_StepwiseTrace, который отображает историю оценок коэффициентов в течение процесса выбора.

Информационные критерии

Ступенчатая регрессия сравнивает вложенные модели, используя F-тесты, которые эквивалентны тестам коэффициента вероятности. Для сравнения моделей, которые не являются расширениями или ограничениями друг друга, часто используются информационные критерии (IC). Существует несколько распространенных разновидностей, но все пытаются сбалансировать меру подгонки в выборке с штрафом за увеличение количества коэффициентов модели. Информационный критерий Акайке (AIC) и информационный критерий Байеса (BIC) вычисляются ModelCriterion метод LinearModel класс. Мы сравниваем меры, используя полный набор предикторов как на уровнях, так и на различиях:

AIC0 = M0.ModelCriterion.AIC
AIC0 = -44.1593
BIC0 = M0.ModelCriterion.BIC
BIC0 = -38.9367
AICD1 = MD1.ModelCriterion.AIC
AICD1 = -28.7196
BICD1 = MD1.ModelCriterion.BIC
BICD1 = -23.7410

Поскольку обе модели оценивают одинаковое количество коэффициентов, AIC и BIC благоприятствуют M0, с более низким RMSE.

Мы также можем захотеть сравнить MD1 к лучшей уменьшенной модели, найденной путем ступенчатой регрессии, MD1SWA:

AICD1SWA = MD1SWA.ModelCriterion.AIC
AICD1SWA = -29.6239
BICD1SWA = MD1SWA.ModelCriterion.BIC
BICD1SWA = -26.6367

Обе меры уменьшаются в результате меньшего количества оценок коэффициентов, но модель все еще не компенсирует увеличенный RMSE относительно M0, что произошло в результате дифференцирования для коррекции ложной регрессии.

Перекрестная валидация

Другой распространенный метод сравнения моделей - перекрестная валидация. Как и информационные критерии, перекрестная валидация может использоваться, чтобы сравнить неотключенные модели и наказать модель за сверхподбор кривой. Различие заключается в том, что перекрестная валидация оценивает модель в контексте выборочной эффективности прогноза, а не подгонки в выборке.

При стандартной перекрестной проверке данные случайным образом разделяются на набор обучающих данных и тестовый набор. Коэффициенты модели оцениваются с помощью набора обучающих данных, затем используются для предсказания значений отклика в тестовом наборе. Обучающие и тестовые наборы тасуются случайным образом, и процесс выполняется неоднократно. Небольшие ошибки предсказания в среднем по всем тестовым наборам указывают на хорошую эффективность прогноза для предикторов модели. Нет необходимости корректировать количество коэффициентов, как в информационных критериях, поскольку для подбора кривой и оценки используются различные данные. Сверхподбор кривой становится очевидной в прогнозируемой эффективности.

Перекрестная валидация является обобщением «разделенной выборки» или «задержки» методов, где только одно подмножество используется для оценки ошибки предсказания. Существуют статистические данные о том, что перекрестная валидация является гораздо лучшей процедурой для небольших наборов данных [2]. Асимптотически, минимизация ошибки перекрестной валидации линейной модели эквивалентна минимизации AIC или BIC [6], [7].

Для данных временных рядов процедура имеет некоторые осложнения. Данные временных рядов обычно не являются независимыми, поэтому случайные наборы обучающих данных, взятые из любого места во временной основе, могут коррелировать со случайными наборами тестов. Перекрестная валидация может повлечь за собой беспорядочное поведение в этой ситуации [3]. Одним из решений является тестирование на L таким образом, что наблюдения в то время t1 являются некоррелированными с наблюдениями в момент времени t2 для |t1-t2|>L (см. пример Регрессия временных рядов VI: Остаточная диагностика), затем выберите обучающие и тестовые наборы с достаточным разделением. Другое решение состоит в том, чтобы использовать достаточно много тестовых наборов, так что эффекты корреляции вымываются случайной выборкой. Процедура может быть повторена с использованием наборов тестов разных размеров, и чувствительность результатов может быть оценена.

Стандартная перекрестная валидация выполняется crossval функция. По умолчанию данные случайным образом разбиваются на 10 подвыборки, каждая из которых используется один раз в качестве тестового набора (10-кратная перекрестная валидация). Затем вычисляется среднее значение MSE по всем тестам. Следующее сравнивает M0 на MD1SWA. Поскольку данные имеют ~ 20 наблюдений (еще один для недифференцированных данных), наборы тестов по умолчанию имеют размер 2:

yFit = @(XTrain,yTrain,XTest)(XTest*regress(yTrain,XTrain));

cvMSE0 = crossval('MSE',X0,y0,'predfun',yFit);
cvRMSE0 = sqrt(cvMSE0)
cvRMSE0 = 0.0954
cvMSED1SWA = crossval('MSE',D1X0(:,[1 3]),D1y0,'predfun',yFit);
cvRMSED1SWA = sqrt(cvMSED1SWA)
cvRMSED1SWA = 0.1409

RMSE немного выше, чем те, что были обнаружены ранее, 0,0763 и 0,108 соответственно, и снова отдают предпочтение полному, исходному набору предикторов.

Лассо

Наконец, мы рассматриваем наименее абсолютный оператор усадки и выбора, или лассо [4], [8]. Lasso является методом регуляризации, подобным регрессии хребта (обсуждается в примере Временные Ряды Regression II: Collinearity and Estimator Variance), но с важным различием, которая полезна для выбора предиктора. Рассмотрим следующую эквивалентную формулировку оценщика гребня:

βˆridge=minβ(SSE+kiβi2),

где SSE - ошибка (остаточная) сумма квадратов для регрессии. По существу, оценка гребня минимизирует SSE с одновременной штрафовкой за большие коэффициенты βi. Как параметр гребня k>0 увеличивается, штраф сокращает оценки коэффициента к 0 в попытке уменьшить большие отклонения, произведенные почти коллинеарными предикторами.

Оценка лассо имеет аналогичную формулировку:

βˆlasso=minβ(SSE+ki|βi|).

Изменение штрафа выглядит незначительным, но влияет на оценщика важными способами. Как и оценка хребта, βˆlasso смещен к нулю (отказ от «U» в BLUE). В отличие от оценщика гребня, βˆlasso не линейно в значениях отклика yt (отказ от «L» в BLUE). Это принципиально меняет характер процедуры оценки. Новая геометрия позволяет оценкам коэффициентов сужаться до нуля для конечных значений k, эффективно выбирая подмножество предикторов.

Lasso реализован в lasso функция. По умолчанию lasso оценивает регрессию для области значений параметров k, вычисление MSE при каждом значении. Задаем 'CV' 10 для вычисления MSE путем 10-кратной перекрестной валидации. Функция lassoPlot отображает трассировки оценок коэффициентов:

[lassoBetas,lassoInfo] = lasso(X0,y0,'CV',10);

[hax,hfig] = lassoPlot(lassoBetas,lassoInfo,'PlotType','Lambda');
hax.XGrid = 'on';
hax.YGrid = 'on';
hax.GridLineStyle = '-';
hax.Title.String = '{\bf Lasso Trace}';
hax.XLabel.String = 'Lasso Parameter';
hlplot = hax.Children;
hMSEs = hlplot(5:6);
htraces = hlplot(4:-1:1);
set(hlplot,'LineWidth',2)
set(hMSEs,'Color','m')
legend(htraces,predNames0,'Location','NW')

Figure contains 2 axes. Axes 1 with title {\bf Lasso Trace} is empty. Axes 2 with title {\bf Lasso Trace} contains 6 objects of type line. These objects represent LambdaMinMSE, Lambda1SE, AGE, BBB, CPF, SPR.

hfig.HandleVisibility = 'on';

Большие значения k появится слева, с оценками OLS справа, противоположным направлению типовой трассировки гребня. Степени свободы для модели (количество оценок ненулевых коэффициентов) увеличиваются слева направо, вдоль верхней части графика. Штриховые вертикальные линии показывают k значения с минимальным MSE (справа) и минимальным MSE плюс одна стандартная ошибка (слева). В этом случае минимум происходит для оценок OLS, k=0, точно как для регрессии хребта. Значение одной стандартной ошибки часто используется в качестве руководства для выбора меньшей модели с хорошей подгонкой [1].

График предполагает AGE и CPF как возможный подмножество исходных предикторов. Мы выполняем еще одну ступенчатую регрессию с этими предикторами, форсированными в модель:

M0SWAC = stepwiselm(X0,y0,'IGD~AGE+CPF',...
                          'Lower','IGD~AGE+CPF',...
                          'Upper','Linear',...
                          'VarNames',[predNames0,respName0])
1. Adding BBB, FStat = 4.9583, pValue = 0.039774
M0SWAC = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.14474     0.078556    -1.8424     0.082921
    AGE             0.013621    0.0090796     1.5001      0.15192
    BBB            0.0056359     0.002531     2.2267     0.039774
    CPF            -0.015299    0.0038825    -3.9405    0.0010548


Number of observations: 21, Error degrees of freedom: 17
Root Mean Squared Error: 0.0781
R-squared: 0.579,  Adjusted R-Squared: 0.504
F-statistic vs. constant model: 7.79, p-value = 0.00174

Регрессия также движется BBB в модель, с полученной RMSE ниже значения 0,0808, найденного ранее путем ступенчатой регрессии от пустой исходной модели, M0SW, который выбрал BBB и CPF в одиночку.

Потому что включая BBB увеличивает количество оцененных коэффициентов, мы используем AIC и BIC, чтобы сравнить более скупую 2-предикторную модель M0AC найденный лассо к расширенной 3-предикторной модели M0SWAC:

M0AC = fitlm(DataTable(:,[1 3 5]))
M0AC = 
Linear regression model:
    IGD ~ 1 + AGE + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.056025     0.074779    -0.74921      0.46341
    AGE             0.023221    0.0088255      2.6311     0.016951
    CPF            -0.011699    0.0038988     -3.0008    0.0076727


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0863
R-squared: 0.456,  Adjusted R-Squared: 0.395
F-statistic vs. constant model: 7.54, p-value = 0.00418
AIC0AC = M0AC.ModelCriterion.AIC
AIC0AC = -40.5574
BIC0AC = M0AC.ModelCriterion.BIC
BIC0AC = -37.4238
AIC0SWAC = M0SWAC.ModelCriterion.AIC
AIC0SWAC = -43.9319
BIC0SWAC = M0SWAC.ModelCriterion.BIC
BIC0SWAC = -39.7538

Более низкого RMSE достаточно, чтобы компенсировать дополнительный предиктор, и оба критерия выбирают модель 3 предиктора над моделью 2 предиктора.

Сравнение моделей

Описанные здесь процедуры предполагают ряд сокращенных моделей со статистическими характеристиками, сопоставимыми с моделями с полным набором исходных, или дифференцированных предикторов. Подводим результаты:

M0 Модель с исходными предикторами, AGE, BBB, CPF, и SPR.

M0SW подмодель M0 найден путем ступенчатой регрессии, начиная с пустой модели. Включает в себя BBB и CPF.

M0SWAC подмодель M0 найденный путем ступенчатой регрессии, начиная с модели, которая усиливает AGE и CPF. Предложен лассо. Включает в себя AGE, BBB, и CPF.

MD1 Модель с исходным предиктором AGE и дифференцированные предикторы D1BBB, D1CPF, и D1SPR. Предложен интегрированием и тестированием стационарности в примере Регрессия временных рядов IV: Ложная регрессия.

MD1SW подмодель MD1 найден путем ступенчатой регрессии, начиная с пустой модели. Включает в себя D1CPF.

MD1SWA подмодель MD1 найденный путем ступенчатой регрессии, начиная с модели, которая усиливает AGE. Предложен теорией. Включает в себя AGE и D1CPF.

% Compute missing information:
AIC0SW = M0SW.ModelCriterion.AIC;
BIC0SW = M0SW.ModelCriterion.BIC;

AICD1SW = MD1SW.ModelCriterion.AIC;
BICD1SW = MD1SW.ModelCriterion.BIC;

% Create model comparison table:
RMSE = [M0.RMSE;M0SW.RMSE;M0SWAC.RMSE;MD1.RMSE;MD1SW.RMSE;MD1SWA.RMSE];
AIC = [AIC0;AIC0SW;AIC0SWAC;AICD1;AICD1SW;AICD1SWA];
BIC = [BIC0;BIC0SW;BIC0SWAC;BICD1;BICD1SW;BICD1SWA];

Models = table(RMSE,AIC,BIC,...              
               'RowNames',{'M0','M0SW','M0SWAC','MD1','MD1SW','MD1SWA'})
Models=6×3 table
                RMSE        AIC        BIC  
              ________    _______    _______

    M0        0.076346    -44.159    -38.937
    M0SW      0.080768    -43.321    -40.188
    M0SWAC    0.078101    -43.932    -39.754
    MD1        0.10613     -28.72    -23.741
    MD1SW      0.10921    -29.931    -27.939
    MD1SWA     0.10771    -29.624    -26.637

Модели с использованием исходных, недифференцированных данных получают в целом более высокие оценки (более низкие RMSE и IC), чем модели, использующие дифференцированные данные, но необходимо помнить о возможности ложной регрессии, которая привела к фактору дифференцированных данных в первую очередь. В каждой категории модели результаты смешиваются. Исходные модели с наибольшим количеством предикторов (M0, MD1) имеют самые низкие RMSE в своей категории, но существуют уменьшенные модели с более низкими AIC (M0SWAC, MD1SW, MD1SWA) и более низкие BIC (M0SW, M0SWAC, MD1SW, MD1SWA). Нет ничего необычного в том, что информационные критерии предлагают меньшие модели, или в том, что различные информационные критерии не согласны (M0SW, M0SWAC). Кроме того, существует много комбинаций исходных и дифференцированных предикторов, которые мы не включили в наш анализ. Практики должны решить, сколько парсимонии достаточно, в контексте больших целей моделирования.

Сводные данные

Этот пример сравнивает ряд методов выбора предиктора в контексте практической модели экономического прогнозирования. Многие такие методы были разработаны для экспериментальных ситуаций, когда набор данных приводит к огромному количеству потенциальных предикторов, и статистические методы являются единственным практическим методом сортировки. В ситуации с более ограниченными опциями данных чисто статистические методы могут привести к массиву потенциальных моделей с сопоставимыми мерами качества подгонки. Теоретические соображения, как всегда, должны играть решающую роль в выборе экономической модели, в то время как статистические данные используются для отбора среди конкурирующих прокси по соответствующим экономическим факторам.

Ссылки

[1] Brieman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone. Деревья классификации и регрессии. Бока Ратон, FL: Chapman & Hall/CRC, 1984.

[2] Goutte, C. «Примечание о бесплатных обедах и кросс-валидации». Нейронные расчеты. Том 9, 1997, стр. 1211-1215.

[3] Харт, Дж. Д. «Оценка регрессии ядра с ошибками временных рядов». Журнал Королевского статистического общества. Серия B, том 53, 1991, стр. 173-187.

[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения. Нью-Йорк: Спрингер, 2008.

[5] Джонссон, Дж. Г. и М. Фридсон. «Прогнозирование дефолтных ставок по облигациям с высоким выражением». Журнал фиксированного дохода. Том 6, № 1, 1996, стр. 69-77.

[6] Shao, J. «An Asymptotic Theory for Linear Model Selection». Статистика Синица. Том 7, 1997, стр. 221-264.

[7] Stone, M. «Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike's Criterion». Журнал Королевского статистического общества. Серия B, том 39, 1977, стр. 44-47.

[8] Tibshirani, R. «Regression Shrinkage and Selection through the Lasso». Журнал Королевского статистического общества. Том 58, 1996, стр. 267-288.