В этом примере показано, как выбрать скудный набор предикторов с высокой статистической значимостью для моделей множественной линейной регрессии. Он является пятым в серии примеров регрессии временных рядов после представления в предыдущих примерах.
Каковы «лучшие» предикторы для модели множественной линейной регрессии (MLR)? Без теоретической основы для ответа на этот вопрос модели могут, по крайней мере первоначально, включать смесь «потенциальных» предикторов, которые ухудшают качество оценок ОЛС и путают идентификацию значимых эффектов.
В идеале набор предикторов будет иметь следующие характеристики:
Каждый предиктор способствует изменению ответа (необходимость и парсимония)
Никакие дополнительные предикторы не способствуют изменению ответа (достаточность)
Никакие дополнительные предикторы существенно не изменяют оценки коэффициента (стабильность)
Реалии экономического моделирования, однако, затрудняют поиск такого набора. Во-первых, существует неизбежность опущенных, значимых предикторов, которые приводят к моделям с смещенными и неэффективными оценками коэффициентов. Другие примеры в этой серии обсуждают связанные проблемы, такие как корреляция между предикторами, корреляция между предикторами и опущенными переменными, ограниченная вариация выборки, нетипичные данные и так далее, все из которых создают проблемы для чисто статистического выбора «лучших» предикторов.
Методы автоматизированного отбора используют статистическую значимость, несмотря на ее недостатки, в качестве замены теоретической значимости. Эти методы обычно выбирают «лучший» набор предикторов, минимизируя некоторую меру ошибки прогноза. Ограничения оптимизации используются для указания требуемых или исключенных предикторов или для задания размера конечной модели.
В предыдущем примере Регрессия временного ряда IV: Ложная регрессия было высказано предположение, что некоторые преобразования предикторов могут быть полезны при создании более точной модели прогнозирования. Выбор предикторов перед преобразованием имеет преимущество сохранения исходных единиц, что может быть важно для идентификации подмножества, которое является как значимым, так и статистически значимым. Обычно методы выбора и преобразования используются вместе, с целью моделирования, заключающейся в достижении простой, но все же точной модели прогнозирования реакции.
Чтобы изучить методы выбора, мы начинаем с загрузки соответствующих данных из предыдущего примера Регрессия временного ряда IV: Ложная регрессия:
load Data_TSReg4Для справки мы отображаем модели с полным набором предикторов как на уровнях, так и на различиях:
M0
M0 =
Linear regression model:
IGD ~ 1 + AGE + BBB + CPF + SPR
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ _________
(Intercept) -0.22741 0.098565 -2.3072 0.034747
AGE 0.016781 0.0091845 1.8271 0.086402
BBB 0.0042728 0.0026757 1.5969 0.12985
CPF -0.014888 0.0038077 -3.91 0.0012473
SPR 0.045488 0.033996 1.338 0.1996
Number of observations: 21, Error degrees of freedom: 16
Root Mean Squared Error: 0.0763
R-squared: 0.621, Adjusted R-Squared: 0.526
F-statistic vs. constant model: 6.56, p-value = 0.00253
MD1
MD1 =
Linear regression model:
D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ ________ _________
(Intercept) -0.089492 0.10843 -0.82535 0.4221
AGE 0.015193 0.012574 1.2083 0.24564
D1BBB -0.023538 0.020066 -1.173 0.25909
D1CPF -0.015707 0.0046294 -3.393 0.0040152
D1SPR -0.03663 0.04017 -0.91187 0.37626
Number of observations: 20, Error degrees of freedom: 15
Root Mean Squared Error: 0.106
R-squared: 0.49, Adjusted R-Squared: 0.354
F-statistic vs. constant model: 3.61, p-value = 0.0298
Многие подходы к выбору предиктора используют t-статистику оцененных коэффициентов и F-статистику групп коэффициентов для измерения статистической значимости. При использовании этой статистики необходимо помнить, что пропуск предикторов с незначительным индивидуальным вкладом может скрыть значительный совместный вклад. Кроме того, статистика t и F может быть ненадежной при наличии коллинеарности или переменных тренда. Таким образом, проблемы с данными должны быть решены до выбора предиктора.
Ступенчатая регрессия - это систематическая процедура добавления и удаления предикторов МЛР на основе статистики F. Процедура начинается с начального подмножества потенциальных предикторов, включая любые, считающиеся теоретически значимыми. На каждом шаге вычисляется p-значение F-статистики (то есть квадрат t-статистики с идентичным p-значением) для сравнения моделей с одним из потенциальных предикторов и без него. Если предсказателя в настоящее время нет в модели, нулевая гипотеза состоит в том, что он будет иметь нулевой коэффициент при добавлении к модели. Если имеется достаточно доказательств для отклонения нулевой гипотезы, предиктор добавляется к модели. И наоборот, если предсказатель в настоящее время находится в модели, нулевая гипотеза состоит в том, что он имеет нулевой коэффициент. Если доказательств для отклонения нулевой гипотезы недостаточно, предиктор удаляется из модели. На любом этапе процедура может удалить предикторы, которые были добавлены, или добавить предикторы, которые были удалены.
Ступенчатая регрессия происходит следующим образом:
Подгоните исходную модель.
Если какие-либо предикторы, отсутствующие в модели, имеют p-значения, меньшие, чем входной допуск (то есть, если маловероятно, что они имели бы нулевой коэффициент при добавлении к модели), добавьте значение с наименьшим p-значением и повторите этот шаг; в противном случае перейдите к шагу 3.
Если какие-либо предикторы в модели имеют p-значения, превышающие допуск выхода (то есть, если маловероятно, что гипотеза нулевого коэффициента может быть отвергнута), удалите значение с наибольшим p-значением и перейдите к шагу 2; в противном случае конец.
В зависимости от начальной модели и порядка, в котором предикторы перемещаются внутрь и наружу, процедура может строить различные модели из одного и того же набора потенциальных предикторов. Процедура завершается, когда ни один шаг не улучшает модель. Однако нет никакой гарантии, что иная начальная модель и другая последовательность шагов не приведут к лучшей подгонке. В этом смысле пошаговые модели являются локально оптимальными, но могут не быть глобально оптимальными. Тем не менее, процедура эффективна во избежание оценки каждого возможного подмножества потенциальных предикторов и часто дает полезные результаты на практике.
Функция stepwiselm (эквивалентно статическому методу LinearModel.stepwise) выполняет пошаговую регрессию автоматически. По умолчанию он включает константу в модель, начинается с пустого набора предикторов и использует допуски входа/выхода для p-значений F-статистики 0,05/0,10. Применяется следующее: stepwiselm к исходному набору потенциальных предикторов, устанавливая верхнюю границу Linear в модели, которая ограничивает процедуру, не включая квадратные или интерактивные термины при поиске модели с самой низкой среднеквадратичной ошибкой (RMSE):
M0SW = stepwiselm(DataTable,'Upper','Linear')
1. Adding CPF, FStat = 6.22, pValue = 0.022017 2. Adding BBB, FStat = 10.4286, pValue = 0.00465235
M0SW =
Linear regression model:
IGD ~ 1 + BBB + CPF
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ __________
(Intercept) -0.087741 0.071106 -1.234 0.23309
BBB 0.0074389 0.0023035 3.2293 0.0046523
CPF -0.016187 0.0039682 -4.0792 0.00070413
Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0808
R-squared: 0.523, Adjusted R-Squared: 0.47
F-statistic vs. constant model: 9.87, p-value = 0.00128
На дисплее отображаются активные предикторы при завершении. F-тесты выбирают два предиктора с оптимальной значимостью в суставах, BBB и CPF. Это не предикторы с наиболее значимой индивидуальной t-статистикой, AGE и CPF, в полной модели M0. RMSE уменьшенной модели, 0,0808, сопоставим с RMSE M0, 0.0763. Незначительное повышение - цена парсимонии.
Для сравнения, мы применяем процедуру к полному набору дифференциальных предикторов (с AGE недифференцированные) в MD1:
MD1SW = stepwiselm(D1X0,D1y0,'Upper','Linear','VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 9.7999, pValue = 0.0057805
MD1SW =
Linear regression model:
D1IGD ~ 1 + D1CPF
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ _________
(Intercept) 0.0097348 0.024559 0.39638 0.69649
D1CPF -0.014783 0.0047222 -3.1305 0.0057805
Number of observations: 20, Error degrees of freedom: 18
Root Mean Squared Error: 0.109
R-squared: 0.353, Adjusted R-Squared: 0.317
F-statistic vs. constant model: 9.8, p-value = 0.00578
RMSE уменьшенной модели, 0,109, снова сопоставим с MD1, 0.106. Пошаговая процедура распределяет модель по одному предиктору, D1CPF, с его значительно меньшим p-значением.
RMSE, конечно, не является гарантией производительности прогноза, особенно с небольшими выборками. Поскольку существует теоретическая основа для включения эффекта старения в модели дефолта по кредиту [5], мы, возможно, захотим форсировать AGE в модель. Это делается путем фиксации D1IGD ~ AGE как исходная модель, так и нижняя граница для всех рассматриваемых моделей:
MD1SWA = stepwiselm(D1X0,D1y0,'D1IGD~AGE',... 'Lower','D1IGD~AGE',... 'Upper','Linear',... 'VarNames',[predNamesD1,respNameD1])
1. Adding D1CPF, FStat = 10.9238, pValue = 0.00418364
MD1SWA =
Linear regression model:
D1IGD ~ 1 + AGE + D1CPF
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ _________
(Intercept) -0.11967 0.10834 -1.1047 0.2847
AGE 0.015463 0.012617 1.2255 0.23708
D1CPF -0.015523 0.0046967 -3.3051 0.0041836
Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 0.108
R-squared: 0.405, Adjusted R-Squared: 0.335
F-statistic vs. constant model: 5.79, p-value = 0.0121
RMSE немного уменьшен, выделяя локальный характер поиска. По этой причине рекомендуется несколько пошаговых поисков, продвигающихся от пустой начальной модели и назад от полной начальной модели, при этом фиксируя любые теоретически важные предикторы. Сравнение локальных минимумов, в контексте теории, дает наиболее достоверные результаты.
Пошаговая процедура регрессии может быть изучена более подробно с помощью функции stepwise, что позволяет взаимодействовать на каждом шаге, и функцию Example_StepwiseTrace, которая отображает историю оценок коэффициентов в течение всего процесса выбора.
Ступенчатая регрессия сравнивает вложенные модели, используя F-тесты, которые эквивалентны тестам отношения правдоподобия. Для сравнения моделей, не являющихся расширениями или ограничениями друг друга, часто используются информационные критерии (IC). Существует несколько общих разновидностей, но все они пытаются сбалансировать меру вписывания в выборку со штрафом за увеличение числа модельных коэффициентов. Информационный критерий Акайке (AIC) и информационный критерий Байеса (BIC) вычисляются посредством ModelCriterion способ LinearModel класс. Мы сравниваем показатели, используя полный набор предикторов как на уровнях, так и на различиях:
AIC0 = M0.ModelCriterion.AIC
AIC0 = -44.1593
BIC0 = M0.ModelCriterion.BIC
BIC0 = -38.9367
AICD1 = MD1.ModelCriterion.AIC
AICD1 = -28.7196
BICD1 = MD1.ModelCriterion.BIC
BICD1 = -23.7410
Поскольку обе модели оценивают одинаковое количество коэффициентов, AIC и BIC в пользу M0, с нижним RMSE.
Мы также можем захотеть сравнить MD1 к лучшей уменьшенной модели, найденной с помощью ступенчатой регрессии, MD1SWA:
AICD1SWA = MD1SWA.ModelCriterion.AIC
AICD1SWA = -29.6239
BICD1SWA = MD1SWA.ModelCriterion.BIC
BICD1SWA = -26.6367
Оба показателя уменьшаются в результате меньшего количества оценок коэффициентов, но модель все еще не компенсирует повышенный RMSE относительно M0, что стало результатом дифференциации для исправления ложной регрессии.
Другим распространенным методом сравнения моделей является перекрестная проверка. Как и информационные критерии, перекрестная проверка может использоваться для сравнения неестественных моделей и наказания модели за переоборудование. Отличие состоит в том, что перекрестная проверка оценивает модель в контексте производительности прогноза вне выборки, а не в соответствии с выборкой.
При стандартной перекрестной проверке данные разбиваются случайным образом на обучающий набор и тестовый набор. Модельные коэффициенты оцениваются с помощью обучающего набора, затем используются для прогнозирования значений ответа в тестовом наборе. Тренировочные и тестовые наборы тасуются наугад, и процесс осуществляется неоднократно. Небольшие ошибки прогнозирования в среднем по всем наборам тестов указывают на хорошую производительность прогноза для предикторов модели. Нет необходимости корректировать количество коэффициентов, как в информационных критериях, поскольку для подгонки и оценки используются разные данные. Переоборудование становится очевидным при прогнозировании производительности.
Перекрестная проверка - это обобщение методов «разделенной выборки» или «удержания», где для оценки ошибки прогнозирования используется только одно подмножество. Имеются статистические данные о том, что перекрестная проверка является гораздо лучшей процедурой для небольших наборов данных [2]. Асимптотически минимизация ошибки перекрестной проверки линейной модели эквивалентна минимизации AIC или BIC [6], [7].
Для данных временных рядов процедура имеет некоторые сложности. Данные временных рядов обычно не независимы, поэтому случайные обучающие наборы, взятые из любой точки временной базы, могут быть коррелированы со случайными тестовыми наборами. В этой ситуации перекрестная проверка может вести себя нестабильно [3]. Одно решение состоит в том, чтобы проверить L так, чтобы наблюдения в момент не коррелировали с наблюдениями в момент времени для > L (см. пример Регрессия временного ряда VI: Остаточная диагностика), затем выбрать обучающие и тестовые наборы с достаточным разделением. Другое решение состоит в том, чтобы использовать достаточно много тестовых наборов, чтобы эффекты корреляции вымывались случайной выборкой. Процедура может быть повторена с использованием тестовых наборов различных размеров, и чувствительность результатов может быть оценена.
Стандартная перекрестная проверка выполняется crossval функция. По умолчанию данные случайным образом разбиваются на 10 подприборов, каждая из которых используется один раз в качестве тестового набора (10-кратная перекрестная проверка). Затем вычисляется среднее значение MSE для всех тестов. Ниже приводится сравнение M0 кому MD1SWA. Поскольку данные содержат ~ 20 наблюдений (еще одно для данных без различий), тестовые наборы по умолчанию имеют размер 2:
yFit = @(XTrain,yTrain,XTest)(XTest*regress(yTrain,XTrain)); cvMSE0 = crossval('MSE',X0,y0,'predfun',yFit); cvRMSE0 = sqrt(cvMSE0)
cvRMSE0 = 0.0954
cvMSED1SWA = crossval('MSE',D1X0(:,[1 3]),D1y0,'predfun',yFit); cvRMSED1SWA = sqrt(cvMSED1SWA)
cvRMSED1SWA = 0.1409
RMSE немного выше, чем те, которые были найдены ранее, 0,0763 и 0,108 соответственно, и снова отдают предпочтение полному первоначальному набору предикторов.
Наконец, рассмотрим оператор наименьшей абсолютной усадки и выбора, или лассо [4], [8]. Лассо является методикой регуляризации, аналогичной регрессии гребня (обсуждаемой в примере Регрессия временного ряда II: коллинеарность и дисперсия оценщика), но с важным отличием, которое полезно для выбора предиктора. Рассмотрим следующую эквивалентную формулировку оценщика гребня:
),
где - ошибочная (остаточная) сумма квадратов для регрессии. По существу, устройство оценки гребня минимизирует , одновременно штрафуя за большие коэффициенты . По мере увеличения параметра k > 0 гребня штраф уменьшает оценки коэффициента до 0 в попытке уменьшить большие дисперсии, создаваемые почти коллинеарными предикторами.
Оценщик лассо имеет аналогичную формулировку:
).
Изменение штрафа выглядит незначительным, но оно влияет на оценщика важными способами. Как и оценщик гребня, смещен к нулю (отказавшись от «U» в BLUE). В отличие от оценщика гребня, однако, не является линейным в значениях отклика (отказавшись от «L» в BLUE). Это в корне меняет характер процедуры оценки. Новая геометрия позволяет оценкам коэффициентов уменьшаться до нуля для конечных значений , эффективно выбирая подмножество предикторов.
Лассо реализуется lasso функция. По умолчанию lasso оценивает регрессию для диапазона параметров , вычисляя MSE для каждого значения. Мы установили 'CV' до 10, чтобы вычислить MSE с помощью 10-кратной перекрестной проверки. Функция lassoPlot отображает следы оценок коэффициентов:
[lassoBetas,lassoInfo] = lasso(X0,y0,'CV',10); [hax,hfig] = lassoPlot(lassoBetas,lassoInfo,'PlotType','Lambda'); hax.XGrid = 'on'; hax.YGrid = 'on'; hax.GridLineStyle = '-'; hax.Title.String = '{\bf Lasso Trace}'; hax.XLabel.String = 'Lasso Parameter'; hlplot = hax.Children; hMSEs = hlplot(5:6); htraces = hlplot(4:-1:1); set(hlplot,'LineWidth',2) set(hMSEs,'Color','m') legend(htraces,predNames0,'Location','NW')

hfig.HandleVisibility = 'on';Слева появляются большие значения k, а справа - оценки ОЛС, обращающие направление типичной гребневой трассы. Степени свободы модели (число оценок ненулевых коэффициентов) увеличиваются слева направо вдоль верхней части графика. Пунктирные вертикальные линии показывают значения k с минимальным значением MSE (справа) и минимальным значением MSE плюс одна стандартная ошибка (слева). В этом случае минимум имеет место для оценок OLS, 0, точно так же, как для регрессии гребня. Значение одной стандартной ошибки часто используется как руководство для выбора модели меньшего размера с хорошей посадкой [1].
Сюжет подсказывает AGE и CPF как возможное подмножество исходных предикторов. Мы выполняем еще одну пошаговую регрессию с помощью этих предикторов, введенных в модель:
M0SWAC = stepwiselm(X0,y0,'IGD~AGE+CPF',... 'Lower','IGD~AGE+CPF',... 'Upper','Linear',... 'VarNames',[predNames0,respName0])
1. Adding BBB, FStat = 4.9583, pValue = 0.039774
M0SWAC =
Linear regression model:
IGD ~ 1 + AGE + BBB + CPF
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ _______ _________
(Intercept) -0.14474 0.078556 -1.8424 0.082921
AGE 0.013621 0.0090796 1.5001 0.15192
BBB 0.0056359 0.002531 2.2267 0.039774
CPF -0.015299 0.0038825 -3.9405 0.0010548
Number of observations: 21, Error degrees of freedom: 17
Root Mean Squared Error: 0.0781
R-squared: 0.579, Adjusted R-Squared: 0.504
F-statistic vs. constant model: 7.79, p-value = 0.00174
Регрессия также перемещается BBB в модель, с результирующим значением RMSE ниже значения 0,0808, найденного ранее путем ступенчатой регрессии из пустой начальной модели, M0SW, которая выбрала BBB и CPF в одиночку.
Потому что в том числе BBB увеличивает количество оцененных коэффициентов, мы используем AIC и BIC для сравнения более экономной модели 2-предиктора M0AC найдено по лассо для расширенной модели 3-предиктора M0SWAC:
M0AC = fitlm(DataTable(:,[1 3 5]))
M0AC =
Linear regression model:
IGD ~ 1 + AGE + CPF
Estimated Coefficients:
Estimate SE tStat pValue
_________ _________ ________ _________
(Intercept) -0.056025 0.074779 -0.74921 0.46341
AGE 0.023221 0.0088255 2.6311 0.016951
CPF -0.011699 0.0038988 -3.0008 0.0076727
Number of observations: 21, Error degrees of freedom: 18
Root Mean Squared Error: 0.0863
R-squared: 0.456, Adjusted R-Squared: 0.395
F-statistic vs. constant model: 7.54, p-value = 0.00418
AIC0AC = M0AC.ModelCriterion.AIC
AIC0AC = -40.5574
BIC0AC = M0AC.ModelCriterion.BIC
BIC0AC = -37.4238
AIC0SWAC = M0SWAC.ModelCriterion.AIC
AIC0SWAC = -43.9319
BIC0SWAC = M0SWAC.ModelCriterion.BIC
BIC0SWAC = -39.7538
Более низкого RMSE достаточно, чтобы компенсировать дополнительный предиктор, и оба критерия выбирают модель 3-предиктора по сравнению с моделью 2-предиктора.
Описанные здесь процедуры предполагают ряд уменьшенных моделей со статистическими характеристиками, сопоставимыми с моделями с полным набором исходных или разностных предикторов. Подводим итоги:
M0 Модель с исходными предикторами, AGE, BBB, CPF, и SPR.
M0SW Подмодель M0 определяется ступенчатой регрессией, начиная с пустой модели. Он включает в себя BBB и CPF.
M0SWAC Подмодель M0 найдено по ступенчатой регрессии, начиная с модели, которая форсирует AGE и CPF. Предлагается лассо. Он включает в себя AGE, BBB, и CPF.
MD1 Модель с исходным предиктором AGE и разностные предикторы D1BBB, D1CPF, и D1SPR. Предлагается интеграцией и тестированием стационарности в примере Регрессия временного ряда IV: Ложная регрессия.
MD1SW Подмодель MD1 определяется ступенчатой регрессией, начиная с пустой модели. Он включает в себя D1CPF.
MD1SWA Подмодель MD1 найдено по ступенчатой регрессии, начиная с модели, которая форсирует AGE. Подсказано теорией. Он включает в себя AGE и D1CPF.
% Compute missing information: AIC0SW = M0SW.ModelCriterion.AIC; BIC0SW = M0SW.ModelCriterion.BIC; AICD1SW = MD1SW.ModelCriterion.AIC; BICD1SW = MD1SW.ModelCriterion.BIC; % Create model comparison table: RMSE = [M0.RMSE;M0SW.RMSE;M0SWAC.RMSE;MD1.RMSE;MD1SW.RMSE;MD1SWA.RMSE]; AIC = [AIC0;AIC0SW;AIC0SWAC;AICD1;AICD1SW;AICD1SWA]; BIC = [BIC0;BIC0SW;BIC0SWAC;BICD1;BICD1SW;BICD1SWA]; Models = table(RMSE,AIC,BIC,... 'RowNames',{'M0','M0SW','M0SWAC','MD1','MD1SW','MD1SWA'})
Models=6×3 table
RMSE AIC BIC
________ _______ _______
M0 0.076346 -44.159 -38.937
M0SW 0.080768 -43.321 -40.188
M0SWAC 0.078101 -43.932 -39.754
MD1 0.10613 -28.72 -23.741
MD1SW 0.10921 -29.931 -27.939
MD1SWA 0.10771 -29.624 -26.637
Модели, включающие исходные, недифференцированные данные, получают, как правило, более высокие оценки (более низкие RMSE и IC), чем модели, использующие разностные данные, но необходимо помнить о возможности ложной регрессии, которая привела к рассмотрению разностных данных в первую очередь. В каждой категории модели результаты смешиваются. Оригинальные модели с наибольшим количеством предикторов (M0, MD1) имеют самые низкие RMSE в своей категории, но есть уменьшенные модели с более низкими AIC (M0SWAC, MD1SW, MD1SWA) и нижние BIC (M0SW, M0SWAC, MD1SW, MD1SWA). Нередки случаи, когда информационные критерии предлагают более мелкие модели или когда разные информационные критерии расходятся (M0SW, M0SWAC). Кроме того, существует много комбинаций исходных и дифференцированных предикторов, которые мы не включили в наш анализ. Практики должны решить, насколько достаточно парсимонии, в контексте более крупных целей моделирования.
В этом примере сравнивается ряд методов выбора предиктора в контексте практической модели экономического прогнозирования. Многие такие методы были разработаны для экспериментальных ситуаций, когда сбор данных приводит к огромному количеству потенциальных предикторов, и статистические методы являются единственным практическим методом сортировки. В ситуации с более ограниченными вариантами данных чисто статистические методы могут привести к множеству потенциальных моделей с сопоставимыми показателями благонадежности. Теоретические соображения, как всегда, должны играть решающую роль в отборе экономических моделей, в то время как статистика используется для отбора конкурирующих доверенных лиц по соответствующим экономическим факторам.
[1] Брайман, Л., Дж. Х. Фридман, Р. А. Ольшен и К. Дж. Стоун. Деревья классификации и регрессии. Бока Ратон, Флорида: Чепмен энд Холл/КПР, 1984.
[2] Goutte, C. «Примечание о бесплатных обедах и перекрестной проверке». Нейронные вычисления. Том 9, 1997, стр. 1211-1215.
[3] Олень, J. D. «Оценка регрессии ядра с ошибками временных рядов». Журнал Королевского статистического общества. Серия B, т. 53, 1991, стр. 173-187.
[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения. Нью-Йорк: Спрингер, 2008.
[5] Йонссон, Дж. Г. и М. Фридсон. «Прогнозирование ставок дефолта по высокодоходным облигациям». Журнал фиксированного дохода. т. 6, № 1, 1996, стр. 69-77.
[6] Шао, J. «Асимптотическая теория для выбора линейной модели». Статистика Синика. Том 7, 1997, стр. 221-264.
[7] Стоун, М. «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике». Журнал Королевского статистического общества. Серия B, том 39, 1977, стр. 44-47.
[8] Тибширани, Р. «Регрессионная усадка и отбор через Лассо». Журнал Королевского статистического общества. Том 58, 1996, стр. 267-288.