Регрессия временных рядов V: выбор предиктора

В этом примере показано, как выбрать экономный набор предикторов с высоким статистическим значением для моделей многофакторной линейной регрессии. Это является пятым в серии примеров на регрессии временных рядов, после представления в предыдущих примерах.

Введение

Каковы "лучшие" предикторы для модели (MLR) линейной регрессии кратного? Без теоретического базиса для ответа на этот вопрос модели могут, по крайней мере, первоначально, включать соединение "потенциальных" предикторов, которые ухудшают качество оценок OLS и путают идентификацию значительных эффектов.

Идеально, набор предиктора имел бы следующие характеристики:

  • Каждый предиктор способствует изменению ответа (необходимость и бережливость)

  • Никакие дополнительные предикторы не способствуют изменению ответа (достаточность)

  • Никакие дополнительные предикторы значительно не изменяются, коэффициент оценивает (устойчивость)

Факты экономического моделирования, однако, делают его бросающий вызов, чтобы найти такой набор. Во-первых, существует неизбежность не использованных, значительных предикторов, которые приводят к моделям со смещенными и неэффективными содействующими оценками. Другие примеры в этом ряду обсуждают связанные проблемы, такие как корреляция среди предикторов, корреляция между предикторами и не использованными переменными, ограниченным демонстрационным изменением, нетипичными данными, и т.д, все из которых создают проблемы для чисто статистического выбора "лучших" предикторов.

Автоматизированные методы выбора используют статистическое значение, несмотря на его недостатки, вместо теоретического значения. Эти методы обычно выбирают "лучший" набор предикторов путем минимизации некоторой меры ошибки прогноза. Ограничения оптимизации используются, чтобы указать на требуемые или исключенные предикторы или установить размер итоговой модели.

В IV Регрессии Временных рядов предыдущего примера: Побочная Регрессия, было предложено, чтобы определенные преобразования предикторов могли быть выгодными в создании более точной модели прогнозирования. При выборе предикторов, прежде чем преобразование имеет преимущество сохранения исходных модулей, которые могут быть важными в идентификации подмножества, которое является и значимым и статистически значительным. Как правило, выбор и методы преобразования используются вместе с целью моделирования достижения простой, но все еще точной, предсказывающей модели ответа.

Чтобы исследовать методы выбора, мы начинаем путем загрузки соответствующих данных из IV Регрессии Временных рядов предыдущего примера: Побочная Регрессия:

load Data_TSReg4

Для ссылки, мы модели дисплея с полным набором предикторов и на уровнях и на различиях:

M0
M0 = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF + SPR

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.22741     0.098565    -2.3072     0.034747
    AGE             0.016781    0.0091845     1.8271     0.086402
    BBB            0.0042728    0.0026757     1.5969      0.12985
    CPF            -0.014888    0.0038077      -3.91    0.0012473
    SPR             0.045488     0.033996      1.338       0.1996


Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621,  Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253
MD1
MD1 = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.089492      0.10843    -0.82535       0.4221
    AGE             0.015193     0.012574      1.2083      0.24564
    D1BBB          -0.023538     0.020066      -1.173      0.25909
    D1CPF          -0.015707    0.0046294      -3.393    0.0040152
    D1SPR           -0.03663      0.04017    -0.91187      0.37626


Number of observations: 20, Error degrees of freedom: 15
Root Mean Squared Error: 0.106
R-squared: 0.49,  Adjusted R-Squared: 0.354
F-statistic vs. constant model: 3.61, p-value = 0.0298

Ступенчатая регрессия

Много подходов к выбору предиктора используют t-статистику предполагаемых коэффициентов и F-статистику групп коэффициентов, чтобы измерить статистическое значение. При использовании этих статистических данных нужно помнить, что исключение предикторов с незначительными отдельными вкладами может скрыть значительный объединенный вклад. Кроме того, t и статистика F может быть ненадежным в присутствии коллинеарности или отклоняющихся переменных. По сути, проблемы данных должны быть решены до выбора предиктора.

Ступенчатая регрессия является систематической процедурой для добавления и удаления предикторов MLR на основе статистики F. Процедура начинается с начального подмножества потенциальных предикторов, включая любого считал теоретически значительным. На каждом шаге p-значение F-статистической-величины (то есть, квадрат t-статистической-величины с идентичным p-значением) вычисляется, чтобы сравнить модели с и без одного из потенциальных предикторов. Если бы предиктор не находится в настоящее время в модели, нулевая гипотеза - то, что это имело бы нулевой коэффициент, если добавлено к модели. Если существуют достаточные доказательства, чтобы отклонить нулевую гипотезу, предиктор добавляется к модели. С другой стороны, если предиктор находится в настоящее время в модели, нулевая гипотеза - то, что это имеет нулевой коэффициент. Если существуют недостаточные доказательства, чтобы отклонить нулевую гипотезу, предиктор удален из модели. На любом шаге процедура может удалить предикторы, которые были добавлены или добавляют предикторы, которые были удалены.

Ступенчатая регрессия продолжает можно следующим образом:

  1. Подбирайте первоначальную модель.

  2. Если какие-либо предикторы не в модели имеют p-значения меньше, чем допуск входа (то есть, если бы маловероятно, что у них был бы нулевой коэффициент, если добавлено к модели), добавьте тот с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.

  3. Если какие-либо предикторы в модели имеют p-значения, больше, чем выходной допуск (то есть, если маловероятно, что гипотеза нулевого коэффициента может быть отклонена), удалите тот с самым большим p-значением и перейдите к шагу 2; в противном случае, конец.

В зависимости от первоначальной модели и порядка, в котором предикторы перемещены в и, процедура может создать различные модели от того же набора потенциальных предикторов. Процедура завершает работу, когда никакой один шаг не улучшает модель. Нет никакой гарантии, однако, что различная первоначальная модель и различная последовательность шагов не приведут к лучшей подгонке. В этом смысле пошаговые модели локально оптимальны, но не могут быть глобально оптимальными. Процедура, тем не менее, эффективна в предотвращении оценки каждого возможного подмножества потенциальных предикторов, и часто приводит к полезным результатам на практике.

Функциональный stepwiselm (эквивалентный статическому методу LinearModel.stepwise) выполняет ступенчатую регрессию автоматически. По умолчанию это включает константу в модель, начинает с пустого множества предикторов и использует допуски входа/выхода на p-значениях F-статистической-величины 0,05 / 0.10. Следующее применяет stepwiselm к исходному набору потенциальных предикторов, устанавливая верхнюю границу Linear на модели, которая ограничивает процедуру не включая или периоды взаимодействия в квадрате при поиске модели с самой низкой среднеквадратической ошибкой (RMSE):

M0SW = stepwiselm(DataTable,'Upper','Linear')
1. Adding CPF, FStat = 6.22, pValue = 0.022017
2. Adding BBB, FStat = 10.4286, pValue = 0.00465235
M0SW = 
Linear regression model:
    IGD ~ 1 + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    _______    __________

    (Intercept)    -0.087741     0.071106     -1.234       0.23309
    BBB            0.0074389    0.0023035     3.2293     0.0046523
    CPF            -0.016187    0.0039682    -4.0792    0.00070413


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0808
R-squared: 0.523,  Adjusted R-Squared: 0.47
F-statistic vs. constant model: 9.87, p-value = 0.00128

Отображение показывает активные предикторы при завершении. F-тесты выбирают два предиктора с оптимальным объединенным значением, BBB и CPF. Это не предикторы со старшей значащей отдельной t-статистикой, AGE и CPF, в полной модели M0. RMSE упрощенной модели, 0.0808, сопоставим с RMSE M0, 0.0763. Небольшое увеличение является ценой бережливости.

Для сравнения мы применяем процедуру к полному набору differenced предикторов (с AGE undifferenced) в MD1:

MD1SW = stepwiselm(D1X0,D1y0,'Upper','Linear','VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 9.7999, pValue = 0.0057805
MD1SW = 
Linear regression model:
    D1IGD ~ 1 + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)    0.0097348     0.024559    0.39638      0.69649
    D1CPF          -0.014783    0.0047222    -3.1305    0.0057805


Number of observations: 20, Error degrees of freedom: 18
Root Mean Squared Error: 0.109
R-squared: 0.353,  Adjusted R-Squared: 0.317
F-statistic vs. constant model: 9.8, p-value = 0.00578

RMSE упрощенной модели, 0.109, снова сопоставим с тем из MD1, 0.106. Пошаговая процедура срезает модель к одному предиктору, D1CPF, с его значительно меньшим p-значением.

RMSE, конечно, не является никакой гарантией эффективности прогноза, особенно с небольшими выборками. С тех пор существует теоретический базис для включения стареющего эффекта в моделях значения по умолчанию кредита [5], мы можем хотеть обеспечить AGE в модель. В этом выполняют путем фиксации D1IGD ~ AGE и как первоначальная модель и как когда нижняя граница на всех моделях рассмотрела:

MD1SWA = stepwiselm(D1X0,D1y0,'D1IGD~AGE',...
                              'Lower','D1IGD~AGE',...
                              'Upper','Linear',...
                              'VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 10.9238, pValue = 0.00418364
MD1SWA = 
Linear regression model:
    D1IGD ~ 1 + AGE + D1CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.11967      0.10834    -1.1047       0.2847
    AGE             0.015463     0.012617     1.2255      0.23708
    D1CPF          -0.015523    0.0046967    -3.3051    0.0041836


Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 0.108
R-squared: 0.405,  Adjusted R-Squared: 0.335
F-statistic vs. constant model: 5.79, p-value = 0.0121

RMSE немного уменьшается, подсвечивая локальную природу поиска. Поэтому несколько пошаговых поисковых запросов рекомендуются, продвигаясь из пустой первоначальной модели и назад от полной первоначальной модели, при фиксации любых теоретически важных предикторов. Сравнение локальных минимумов, в контексте теории, приводит к самым надежным результатам.

Процедура ступенчатой регрессии может быть исследована более подробно с помощью функционального stepwise, который позволяет взаимодействие на каждом шаге и функциональный Example_StepwiseTrace, который отображает историю содействующих оценок в течение процесса выбора.

Информационные критерии

Ступенчатая регрессия сравнивает вложенные модели, с помощью F-тестов, которые эквивалентны тестам отношения правдоподобия. Чтобы сравнить модели, которые не являются расширениями или ограничениями друг друга, информационные критерии (IC) часто используются. Существует несколько общих вариантов, но вся попытка сбалансировать меру подгонки в выборке со штрафом за увеличение числа коэффициентов модели. Критерий информации о Akaike (AIC) и Байесов информационный критерий (BIC) вычисляются ModelCriterion метод LinearModel класс. Мы сравниваем меры с помощью полного набора предикторов и на уровнях и на различиях:

AIC0 = M0.ModelCriterion.AIC
AIC0 = -44.1593
BIC0 = M0.ModelCriterion.BIC
BIC0 = -38.9367
AICD1 = MD1.ModelCriterion.AIC
AICD1 = -28.7196
BICD1 = MD1.ModelCriterion.BIC
BICD1 = -23.7410

Поскольку обе модели оценивают, что то же количество коэффициентов, AIC и BIC способствует M0, с ниже RMSE.

Мы можем также хотеть сравнить MD1 к лучшей упрощенной модели, найденной ступенчатой регрессией, MD1SWA:

AICD1SWA = MD1SWA.ModelCriterion.AIC
AICD1SWA = -29.6239
BICD1SWA = MD1SWA.ModelCriterion.BIC
BICD1SWA = -26.6367

Обе меры уменьшаются в результате меньшего количества содействующих оценок, но модель все еще не восполняет увеличенный RMSE относительно M0, который следовал из дифференцирования, чтобы откорректировать для побочной регрессии.

Перекрестная проверка

Другой общий метод сравнения модели является перекрестной проверкой. Как информационные критерии, перекрестная проверка может использоваться, чтобы сравнить невложенные модели и оштрафовать модель за сверхподбор кривой. Различие - то, что перекрестная проверка оценивает модель в контексте эффективности прогноза из выборки, а не подгонки в выборке.

В стандартной перекрестной проверке данные разделены наугад в набор обучающих данных и набор тестов. Коэффициенты модели оцениваются с набором обучающих данных, затем раньше предсказывали значения отклика в наборе тестов. Наборы обучающих данных и наборы тестов переставляются наугад, и процесс неоднократно выполняется. Небольшие ошибки предсказания, в среднем, через все наборы тестов, указывают на хорошую эффективность прогноза для предикторов модели. Нет никакой потребности настроить для количества коэффициентов, как в информационных критериях, поскольку различные данные используются для подбора кривой и оценки. Сверхподбор кривой становится очевидным в эффективности прогноза.

Перекрестная проверка является обобщением "выборки разделения", или "протяните" методы, где только одно подмножество используется, чтобы оценить ошибку предсказания. Существуют статистические данные, что перекрестная проверка является намного лучшей процедурой для небольших наборов данных [2]. Асимптотически, минимизация ошибки перекрестной проверки линейной модели эквивалентна минимизации AIC или BIC [6], [7].

Для данных временных рядов процедура имеет некоторые осложнения. Данные временных рядов обычно весьма зависимы, таким образом, случайные наборы обучающих данных, взятые отовсюду в основе времени, могут коррелироваться со случайными наборами тестов. Перекрестная проверка может вести себя беспорядочно в этой ситуации [3]. Одно решение состоит в том, чтобы протестировать на L таким образом, что наблюдения во время t1 являются некоррелироваными с наблюдениями во время t2 для |t1-t2|>L (см. Регрессию Временных рядов в качестве примера VI: Остаточная Диагностика), затем избранные наборы обучающих данных и наборы тестов с достаточным разделением. Другое решение состоит в том, чтобы использовать достаточно много наборов тестов так, чтобы эффекты корреляции были размыты случайной выборкой. Процедура может быть повторена с помощью наборов тестов различных размеров, и чувствительность результатов может быть оценена.

Стандартная перекрестная проверка выполняется crossval функция. По умолчанию данные случайным образом разделены в 10 подвыборок, каждая из которых используется однажды в качестве набора тестов (10-кратная перекрестная проверка). Средний MSE затем вычисляется через тесты. Следующее сравнивает M0 к MD1SWA. Поскольку данные имеют ~20 наблюдений (еще один для undifferenced данных), наборы тестов по умолчанию имеют размер 2:

yFit = @(XTrain,yTrain,XTest)(XTest*regress(yTrain,XTrain));

cvMSE0 = crossval('MSE',X0,y0,'predfun',yFit);
cvRMSE0 = sqrt(cvMSE0)
cvRMSE0 = 0.0954
cvMSED1SWA = crossval('MSE',D1X0(:,[1 3]),D1y0,'predfun',yFit);
cvRMSED1SWA = sqrt(cvMSED1SWA)
cvRMSED1SWA = 0.1409

RMS немного выше, чем найденные ранее, 0.0763 и 0.108, соответственно, и снова способствует полному, исходному набору предикторов.

Лассо

Наконец, мы рассматриваем наименее абсолютный оператор уменьшения и выбора или ловим арканом [4], [8]. Лассо является методом регуляризации, похожим на гребенчатую регрессию (обсужденный в Регрессии Временных рядов в качестве примера II: Коллинеарность и Отклонение Средства оценки), но с важным различием, которое полезно для выбора предиктора. Рассмотрите следующую, эквивалентную формулировку гребенчатого средства оценки:

βˆridge=minβ(SSE+kiβi2),

где SSE ошибка (невязка) сумма квадратов для регрессии. По существу гребенчатое средство оценки минимизирует SSE при наложении штрафа за большие коэффициенты βi. Как гребенчатый параметр k>0 увеличения, штраф уменьшает содействующие оценки к 0 в попытке уменьшать большие отклонения, произведенные почти коллинеарными предикторами.

Средство оценки лассо имеет подобную формулировку:

βˆlasso=minβ(SSE+ki|βi|).

Изменение в штрафе выглядит незначительным, но это влияет на средство оценки важными способами. Как гребенчатое средство оценки, βˆlasso смещается к нулю (отказ от "U" в BLUE). В отличие от гребенчатого средства оценки, однако, βˆlasso не линейно в значениях отклика yt (отказ от "L" в BLUE). Это существенно изменяет природу процедуры оценки. Новая геометрия позволяет содействующим оценкам уменьшаться, чтобы обнулить для конечных значений k, эффективно выбирая подмножество предикторов.

Лассо реализовано lasso функция. По умолчанию, lasso оценивает регрессию для области значений параметров k, вычисление MSE в каждом значении. Мы устанавливаем 'CV' к 10, чтобы вычислить MSEs 10-кратной перекрестной проверкой. Функциональный lassoPlot трассировки отображений содействующих оценок:

[lassoBetas,lassoInfo] = lasso(X0,y0,'CV',10);

[hax,hfig] = lassoPlot(lassoBetas,lassoInfo,'PlotType','Lambda');
hax.XGrid = 'on';
hax.YGrid = 'on';
hax.GridLineStyle = '-';
hax.Title.String = '{\bf Lasso Trace}';
hax.XLabel.String = 'Lasso Parameter';
hlplot = hax.Children;
hMSEs = hlplot(5:6);
htraces = hlplot(4:-1:1);
set(hlplot,'LineWidth',2)
set(hMSEs,'Color','m')
legend(htraces,predNames0,'Location','NW')

Figure contains 2 axes objects. Axes object 1 with title blank L a s s o blank T r a c e is empty. Axes object 2 with title blank L a s s o blank T r a c e contains 6 objects of type line. These objects represent LambdaMinMSE, Lambda1SE, AGE, BBB, CPF, SPR.

hfig.HandleVisibility = 'on';

Большие значения k появитесь слева, с оценками OLS справа, инвертировав направление типичной гребенчатой трассировки. Степени свободы для модели (количество ненулевых содействующих оценок) увеличиваются слева направо вдоль верхней части графика. Пунктирные вертикальные линии показывают k значения с минимальным MSE (справа) и минимальным MSE плюс одна стандартная погрешность (слева). В этом случае минимум происходит для оценок OLS, k=0, точно так же, как для гребенчатой регрессии. Значение с одной стандартной погрешностью часто используется в качестве инструкции для выбора меньшей модели с хорошей подгонкой [1].

График предлагает AGE и CPF как возможное подмножество исходных предикторов. Мы выполняем другую ступенчатую регрессию с этими предикторами, обеспеченными в модель:

M0SWAC = stepwiselm(X0,y0,'IGD~AGE+CPF',...
                          'Lower','IGD~AGE+CPF',...
                          'Upper','Linear',...
                          'VarNames',[predNames0,respName0])
1. Adding BBB, FStat = 4.9583, pValue = 0.039774
M0SWAC = 
Linear regression model:
    IGD ~ 1 + AGE + BBB + CPF

Estimated Coefficients:
                   Estimate        SE         tStat      pValue  
                   _________    _________    _______    _________

    (Intercept)     -0.14474     0.078556    -1.8424     0.082921
    AGE             0.013621    0.0090796     1.5001      0.15192
    BBB            0.0056359     0.002531     2.2267     0.039774
    CPF            -0.015299    0.0038825    -3.9405    0.0010548


Number of observations: 21, Error degrees of freedom: 17
Root Mean Squared Error: 0.0781
R-squared: 0.579,  Adjusted R-Squared: 0.504
F-statistic vs. constant model: 7.79, p-value = 0.00174

Регрессия также перемещает BBB в модель, с получившимся RMSE ниже значения 0,0808 найденных ранее ступенчатой регрессией из пустой первоначальной модели, M0SW, который выбрал BBB и CPF один.

Поскольку включая BBB увеличивает число предполагаемых коэффициентов, мы используем AIC и BIC, чтобы сравнить более экономную модель M0AC с 2 предикторами найденный лассо к расширенной модели M0SWAC с 3 предикторами:

M0AC = fitlm(DataTable(:,[1 3 5]))
M0AC = 
Linear regression model:
    IGD ~ 1 + AGE + CPF

Estimated Coefficients:
                   Estimate        SE         tStat       pValue  
                   _________    _________    ________    _________

    (Intercept)    -0.056025     0.074779    -0.74921      0.46341
    AGE             0.023221    0.0088255      2.6311     0.016951
    CPF            -0.011699    0.0038988     -3.0008    0.0076727


Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0863
R-squared: 0.456,  Adjusted R-Squared: 0.395
F-statistic vs. constant model: 7.54, p-value = 0.00418
AIC0AC = M0AC.ModelCriterion.AIC
AIC0AC = -40.5574
BIC0AC = M0AC.ModelCriterion.BIC
BIC0AC = -37.4238
AIC0SWAC = M0SWAC.ModelCriterion.AIC
AIC0SWAC = -43.9319
BIC0SWAC = M0SWAC.ModelCriterion.BIC
BIC0SWAC = -39.7538

Ниже RMSE достаточно, чтобы компенсировать дополнительный предиктор, и оба критерия предпочитают модель с 3 предикторами модели с 2 предикторами.

Сравнение моделей

Процедуры, описанные здесь, предлагают много упрощенных моделей со статистическими характеристиками, сопоставимыми с моделями с полным набором исходных, или differenced, предикторы. Мы обобщаем результаты:

Модель M0 с исходными предикторами, AGE, BBB, CPF, и SPR.

Подмодель M0SW M0 найденный ступенчатой регрессией, начинающей с пустой модели. Это включает BBB и CPF.

Подмодель M0SWAC M0 найденный ступенчатой регрессией, начинающей с модели, которая обеспечивает в AGE и CPF. Предложенный лассо. Это включает AGE, BBB, и CPF.

Модель MD1 с исходным предиктором AGE и differenced предикторы D1BBB, D1CPF, и D1SPR. Предложенный интегрированием и тестированием стационарности в IV Регрессии Временных рядов в качестве примера: Побочная Регрессия.

Подмодель MD1SW MD1 найденный ступенчатой регрессией, начинающей с пустой модели. Это включает D1CPF.

Подмодель MD1SWA MD1 найденный ступенчатой регрессией, начинающей с модели, которая обеспечивает в AGE. Предложенный теорией. Это включает AGE и D1CPF.

% Compute missing information:
AIC0SW = M0SW.ModelCriterion.AIC;
BIC0SW = M0SW.ModelCriterion.BIC;

AICD1SW = MD1SW.ModelCriterion.AIC;
BICD1SW = MD1SW.ModelCriterion.BIC;

% Create model comparison table:
RMSE = [M0.RMSE;M0SW.RMSE;M0SWAC.RMSE;MD1.RMSE;MD1SW.RMSE;MD1SWA.RMSE];
AIC = [AIC0;AIC0SW;AIC0SWAC;AICD1;AICD1SW;AICD1SWA];
BIC = [BIC0;BIC0SW;BIC0SWAC;BICD1;BICD1SW;BICD1SWA];

Models = table(RMSE,AIC,BIC,...              
               'RowNames',{'M0','M0SW','M0SWAC','MD1','MD1SW','MD1SWA'})
Models=6×3 table
                RMSE        AIC        BIC  
              ________    _______    _______

    M0        0.076346    -44.159    -38.937
    M0SW      0.080768    -43.321    -40.188
    M0SWAC    0.078101    -43.932    -39.754
    MD1        0.10613     -28.72    -23.741
    MD1SW      0.10921    -29.931    -27.939
    MD1SWA     0.10771    -29.624    -26.637

Модели, включающие оригинал, undifferenced данные, добираются, обычно более высокие метки (понизьте RMS и ICS), чем модели с помощью differenced данные, но возможность побочной регрессии, которая привела к фактору differenced данных во-первых, нужно помнить. В каждой категории модели смешаны результаты. Исходные модели с большинством предикторов (M0, MD1) имейте самую низкую RMS в их категории, но существуют упрощенные модели с ниже AICs (M0SWAC, MD1SW, MD1SWA) и понизьте BICs (M0SW, M0SWAC, MD1SW, MD1SWA). Для информационных критериев весьма обычно предложить, чтобы меньшие модели, или для различных информационных критериев не согласились (M0SW, M0SWAC). Кроме того, существует много комбинаций исходных и differenced предикторов, которые мы не включали в наш анализ. Практики должны решить, сколько бережливость достаточно в контексте больших целей моделирования.

Сводные данные

Этот пример сравнивает много методов выбора предиктора в контексте практической экономической модели прогнозирования. Много таких методов были разработаны для экспериментальных ситуаций, куда сбор данных приводит к огромному количеству потенциальных предикторов, и статистические методы являются единственным практическим методом сортировки. В ситуации с опциями более ограниченных данных чисто статистические методы могут привести к массиву потенциальных моделей с сопоставимыми мерами качества подгонки. Теоретические факторы, как всегда, должны играть важную роль в экономическом выборе модели, в то время как статистические данные используются, чтобы выбрать среди конкурирующих прокси для соответствующих экономических факторов.

Ссылки

[1] Бримен, L., Дж. Х. Фридман, Р. А. Олшен и К. Дж. Стоун. Классификация и деревья регрессии. Бока-Ратон, FL: Chapman & Hall/CRC, 1984.

[2] Goutte, C. "Примечание по Свободным Ланчам и Перекрестной проверке". Нейронный Расчет. Издание 9, 1997, стр 1211–1215.

[3] Олень, J. D. "Оценка Регрессии ядра С Ошибками Временных рядов". Журнал Королевского Статистического Общества. Серии B, Издание 53, 1991, стр 173–187.

[4] Hastie, T., Р. Тибширэни и Дж. Фридман. Элементы статистического изучения. Нью-Йорк: Спрингер, 2008.

[5] Джонссон, J. G. и М. Фридсон. "Предсказывая Уровни По умолчанию на Связях Высокой доходности". Журнал Фиксированного дохода. Издание 6, № 1, 1996, стр 69–77.

[6] Шао, J. "Асимптотическая Теория для Линейного Выбора Модели". Statistica Sinica. Издание 7, 1997, стр 221–264.

[7] Камень, M. "Асимптотическая Эквивалентность выбора Модели Перекрестной проверкой и Критерием Акэйка". Журнал Королевского Статистического Общества. Серии B, Издание 39, 1977, стр 44–47.

[8] Tibshirani, R. "Уменьшение регрессии и Выбор через Лассо". Журнал Королевского Статистического Общества. Издание 58, 1996, стр 267–288.