В этом примере показано, как обнаружить корреляцию среди предикторов и вместить проблемы большого отклонения средства оценки. Это является вторым в серии примеров на регрессии временных рядов, после представления в предыдущем примере.
Экономические модели всегда underspecified относительно истинного генерирующего данные процесса (DGP). Предикторы модели никогда полностью представляют все количество причинных факторов, производящих экономический ответ. Не использованные переменные, однако, продолжают оказывать свое влияние посредством инновационного процесса, обеспечивая коэффициенты модели с учетом изменений ответа, который они действительно не объясняют. Содействующие оценки, которые являются слишком большими (ошибки типа I) или слишком небольшими (ошибки типа II) искажают крайний вклад каждого предиктора. В некоторых случаях коэффициенты даже заканчиваются с неправильным знаком.
Экономические модели могут также быть чрезмерно определены включением слепого теорией соединения предикторов с надеждой на получение некоторой значительной части DGP. Часто, "общий-к-специфичному" (GETS) методы оценки применяются с неуместным доверием, что стандартная диагностическая статистика разберется в хороших предикторах. Однако самое присутствие причинно незначительных предикторов имеет тенденцию увеличивать отклонение средства оценки, указывая на возможность, что стандартные выводы будут ненадежны.
Действительность работы с misspecified моделями обращена в этом и последующая, примеры в этом ряду. Модели Underspecified часто вводят корреляцию между предикторами и не использованными переменными в инновационном процессе. Чрезмерно определенные модели часто вводят корреляцию среди предикторов. Каждый представляет его собственные проблемы для оценки модели. В этом примере мы смотрим в частности на проблемы, являющиеся результатом коррелированых предикторов. Несколько более сложные проблемы, связанные с корреляцией между предикторами и инновациями (exogeneity нарушения), решаются в Регрессии Временных рядов в качестве примера VIII: Изолированные Переменные и Смещение Средства оценки.
Мы начинаем путем загрузки соответствующих данных из Регрессии Временных рядов предыдущего примера I: Линейные Модели, и продолжают анализ модели значения по умолчанию кредита, представленной там:
load Data_TSReg1
Как первый шаг к спецификации модели, полезно идентифицировать любые возможные зависимости среди предикторов. Корреляционная матрица является стандартной мерой силы попарных линейных соотношений:
R0 = corrcoef(X0)
R0 = 4×4
1.0000 0.4578 0.0566 -0.0686
0.4578 1.0000 0.3955 0.3082
0.0566 0.3955 1.0000 0.0874
-0.0686 0.3082 0.0874 1.0000
Служебная функция corrplot
помогает визуализировать результаты в корреляционной матрице путем графического вывода матрицы попарных рассеяний. Наклоны отображенных линий наименьших квадратов равны отображенным коэффициентам корреляции. Удобно работать с табличной версией массивов данных, X0Tbl
, который содержит имена предиктора для графиков:
figure corrplot(X0Tbl,'testR','on')
Коэффициенты корреляции, подсвеченные в красном, имеют значительное - статистическая величина. Предиктор BBB
снова отличается ее относительно высокими корреляциями с другими предикторами, хотя сила отношений является умеренной. Здесь визуализация особенно полезна как BBB
отображения справедливо дезорганизовали рассеяния с возможностью многих маленьких, потенциально влиятельных подмножеств данных. Графики являются напоминанием ограничений коэффициента линейной корреляции как итоговая статистическая величина.
И шкала и корреляции BBB
имейте потенциал, чтобы раздуть число обусловленности из . Число обусловленности часто используется, чтобы охарактеризовать полную чувствительность оценок OLS к изменениям в данных. Для модели MLR с прерыванием:
kappa0I = cond(X0I)
kappa0I = 205.8085
Число обусловленности много больше "хорошо подготовленного" сравнительного теста 1, который достигается когда имеет ортонормированные столбцы. Как показывает опыт, 1%-я относительная погрешность данных может произвести до a % относительная погрешность содействующих оценок [4]:
Как показано в Регрессии Временных рядов предыдущего примера I: Линейные Модели, содействующие оценки для этих данных находятся на порядке , так a на порядке приводит к абсолютным ошибкам расчета это аппроксимировано относительными погрешностями данных.
Корреляции и числа обусловленности широко используются, чтобы отметить потенциальные проблемы данных, но их диагностическое значение ограничивается. Корреляции рассматривают только попарные зависимости между предикторами, в то время как числа обусловленности рассматривают только в агрегате. Отношения среди произвольных подмножеств предиктора (мультиколлинеарности) могут упасть где-нибудь промежуточные. Предположения CLM запрещают точные отношения, но идентификация силы и источника любых близких отношений и их определенного эффекта на содействующей оценке, является основной частью анализа спецификации.
Много методов для обнаружения около коллинеарностей фокусируются на содействующих оценках в , вместо данных в . Каждое следующее было предложено в качестве контрольного знака зависимостей от предиктора:
Статистически незначительные коэффициенты на теоретически важных предикторах
Коэффициенты со знаками или величинами, которые не имеют теоретического смысла
Экстремальная чувствительность коэффициента к вставке или удалению других предикторов
Качественная природа этих критериев очевидна, и к сожалению ни один из них не необходим или достаточен для обнаружения коллинеарности.
Чтобы проиллюстрировать, мы снова отображаем статистику подгонки OLS модели значения по умолчанию кредита:
M0
M0 = Linear regression model: IGD ~ 1 + AGE + BBB + CPF + SPR Estimated Coefficients: Estimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996 Number of observations: 21, Error degrees of freedom: 16 Root Mean Squared Error: 0.0763 R-squared: 0.621, Adjusted R-Squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253
Знаки содействующих оценок сопоставимы с теоретическими ожиданиями: AGE
, BBB
, и SPR
добавьте риск; CPF
уменьшает его. T-статистические-данные, которые масштабируют содействующие оценки их стандартных погрешностей (вычисленный под предположением о нормальных инновациях), показывают, что все предикторы существенно отличаются от 0 на 20%-м уровне. CPF
кажется особенно значительным здесь. Значение предиктора, однако, относительно других предикторов в модели.
Нет ничего в стандартных результатах регрессии поставить существенный вопрос о коллинеарности. Чтобы поместить результаты в перспективу, однако, необходимо рассмотреть другие источники отклонения средства оценки. Под предположениями CLM, отклонением компонент , , может анализироваться можно следующим образом [6]:
где отклонение инновационного процесса (принял постоянный), общее демонстрационное изменение предиктора , и коэффициент детерминации от регрессии предиктора на остающихся предикторах (и прерывание, если существующий).
Термин
называется фактором инфляции отклонения (VIF) и другая общая диагностика коллинеарности. Когда изменение предиктора в основном объяснен линейной комбинацией других предикторов, близко к , и VIF для того предиктора является соответственно большим. Инфляция измеряется относительно из 0 (никакая коллинеарность), и VIF 1.
VIFs являются также диагональными элементами инверсии корреляционной матрицы [1], удобный результат, который избавляет от необходимости настраивать различные регрессии:
VIF = diag(inv(R0))'
VIF = 1×4
1.3870 1.7901 1.2216 1.1850
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Насколько большой VIF является поводом для беспокойства? Как с уровнями значения для стандартных тестов гипотезы, опыт с определенными типами данных может показать полезные допуски. Общие оперативные значения, в области значений 5 - 10, мало полезны в целом. В этом случае, BBB
имеет самый высокий VIF, но он не выскакивает от остальной части предикторов.
Что еще более важно, VIF, только один включает разложение отклонения, данное выше. Большой VIF может быть сбалансирован любым небольшое инновационное отклонение (хорошая подгонка модели) или изменение большой выборки (достаточные данные). По сути, Голдбергер [2] иронически сравнивает "проблему" мультиколлинеарности, просматриваемой в изоляции, к проблеме данных "micronumerosity". Оценка совместного воздействия других источников отклонения средства оценки требует более широкого представления.
Эконометрики разработали много эмпирических правил для решения, когда волноваться о коллинеарности. Возможно, наиболее распространенное говорит, что приемлемо проигнорировать доказательство коллинеарности, если получившиеся t-статистические-данные все больше, чем 2 в абсолютном значении. Это гарантирует, что 0 находится вне аппроксимированного 95%-го доверительного интервала каждой оценки (принимающий нормальные инновации или большую выборку). Поскольку t-статистические-данные уже настроены для отклонения средства оценки, предположение - то, что они соответственно составляют коллинеарность в контексте другого, балансируя эффекты. Регрессия заканчивается выше показа что три из потенциальных предикторов в X0
провалите этот тест.
Другое эмпирическое правило основано на оценке [5]:
где объем выборки, количество предикторов, предполагаемое отклонение , предполагаемое отклонение предиктора , коэффициент детерминации для регрессии on , и как выше. В правиле говорится, что опасения по поводу коллинеарности могут быть проигнорированы если превышает для каждого предиктора, поскольку каждый VIF будет сбалансирован . Все потенциальные предикторы в X0
пройдите этот тест:
RSquared = M0.Rsquared
RSquared = struct with fields:
Ordinary: 0.6211
Adjusted: 0.5264
RSquared_i = 1-(1./VIF)
RSquared_i = 1×4
0.2790 0.4414 0.1814 0.1561
predNames0
predNames0 = 1x4 cell
{'AGE'} {'BBB'} {'CPF'} {'SPR'}
Эти правила пытаются идентифицировать последствия коллинеарности, как описано в результатах регрессии. Как мы видели, они могут дать конфликтный совет на том, когда, и сколько, чтобы волноваться о целостности коэффициента оценивает. Они не обеспечивают учета природы нескольких зависимостей в данных, и при этом они не обеспечивают надежной меры степени, до которой эти зависимости ухудшают регрессию.
Более подробный аналитический подход обеспечивается в [1]. Нестабильность оценок OLS может быть прослежена до маленьких собственных значений в матрице векторного произведения появление в нормальных уравнениях для :
Белсли переформулирует eigensystem в терминах сингулярных значений матрицы , который может затем анализироваться непосредственно с большей числовой точностью. Если сингулярные значения , где количество предикторов, затем число обусловленности . Белсли задает спектр индексов условия для каждого , и показывает, что высокие индексы указывают на отдельные близкие зависимости в данных.
Белсли идет далее путем описания метода для идентификации определенных предикторов, вовлеченных в каждую близкую зависимость, и обеспечивает меру того, насколько важный те зависимости находятся во влиянии на содействующие оценки. Это достигается с еще одним разложением , на этот раз в терминах сингулярных значений. Если имеет сингулярное разложение , с то:
где инновационное отклонение. Пропорции разложения отклонения заданы:
дайте пропорцию сопоставленный с сингулярным значением .
Индексы и пропорции интерпретированы можно следующим образом:
Количество высоких индексов условия идентифицирует количество близких зависимостей.
Размер индексов условия идентифицирует плотность каждой зависимости.
Местоположение высоких процентов в высокой строке индекса идентифицирует зависимые предикторы.
Размер пропорций идентифицирует степень ухудшения к оценкам регрессии.
Снова, допуск к "высокому" должен быть определен. Эксперименты симуляции Белсли предлагают, чтобы индексы условия в области значений 5 - 10 отразили слабые зависимости, и те в области значений 30 - 100 отражаются умеренный к высоким зависимостям. Он предлагает допуск 0,5 для пропорций разложения отклонения, идентифицирующих отдельные предикторы. Эксперименты симуляции, однако, обязательно основаны на определенных моделях взаимной зависимости, таким образом, допуски должны быть переоценены в каждой эмпирической установке.
Функциональный collintest
процедура Белсли реализаций. Выводы отображены в табличной форме:
collintest(X0ITbl);
Variance Decomposition sValue condIdx Const AGE BBB CPF SPR --------------------------------------------------------- 2.0605 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.1585 0.0173 0.6170
Если мы понижаем допуск индекса к 10 и обеспечиваем допуск пропорции 0,5, анализ идентифицирует одну слабую зависимость между AGE
и SPR
в итоговой строке. Это может визуализироваться путем установки 'tolIdx'
и 'tolProp'
параметры в collintest
и включение 'plot'
флаг:
figure collintest(X0ITbl,'tolIdx',10,'tolProp',0.5,'display','off','plot','on');
График показывает критические строки в таблице разложения отклонения выше допуска индекса. Строка, сопоставленная с индексом 12 условия, имеет только один предиктор, BBB
, с пропорцией выше допуска не эти два или больше предиктора требуются для зависимости. Строка, сопоставленная с индексом 15.3 условия, показывает слабую зависимость, включающую AGE
, SPR
, и прерывание. Это отношение не было очевидно в первоначальном графике корреляционной матрицы.
Таким образом, результаты различной диагностики коллинеарности сопоставимы с данными, в которых никакое ухудшение около отношений существуют. Действительно, анализ экономического значения потенциальных предикторов (легко потерянный в чисто статистическом анализе) не предлагает теоретической причины прочных отношений. Независимо от слабых зависимостей оценки OLS остаются BLUE, и стандартные погрешности в результатах регрессии показывают точность, которая, вероятно, приемлема в большинстве целей моделирования.
В заключение, мы кратко исследуем метод гребенчатой регрессии, которая часто предлагается в качестве средства от отклонения средства оценки в моделях MLR данных с определенной степенью коллинеарности. Метод может также использоваться в качестве диагностики коллинеарности.
Решить проблему близкой сингулярности в , гребенчатые оценки регрессии использование регуляризации нормальных уравнений:
где положительный гребенчатый параметр и единичная матрица. Возмущение к диагонали предназначается, чтобы улучшить создание условий задачи о собственных значениях и уменьшать отклонение содействующих оценок. Как увеличения, гребенчатые оценки становятся смещенными к нулю, но уменьшаемое отклонение может привести к меньшей среднеквадратической ошибке (MSE) относительно сопоставимых оценок OLS, особенно в присутствии коллинеарности.
Гребенчатая регрессия выполняется функциональным ridge
. Исследовать результаты на область значений гребенчатых параметров , производится гребенчатая трассировка [3]:
Mu0I = mean(diag(X0I'*X0I)); % Scale of cross-product diagonal k = 0:Mu0I/10; % Range of ridge parameters ridgeBetas = ridge(y0,X0,k,0); % Coefficients for MLR model with intercept figure plot(k,ridgeBetas(2:end,:),'LineWidth',2) xlim([0 Mu0I/10]) legend(predNames0) xlabel('Ridge Parameter') ylabel('Ridge Coefficient Estimate') title('{\bf Ridge Trace}') axis tight grid on
Оценки OLS, с , появитесь слева. Важный вопрос - уменьшает ли какая-либо из гребенчатых оценок MSE:
[numRidgeParams,numRidgeBetas] = size(ridgeBetas); y0Hat = X0I*ridgeBetas; RidgeRes = repmat(y0,1,numRidgeBetas)-y0Hat; RidgeSSE = RidgeRes'*RidgeRes; RidgeDFE = T0-numRidgeParams; RidgeMSE = diag(RidgeSSE/RidgeDFE); figure plot(k,RidgeMSE,'m','LineWidth',2) xlim([0 Mu0I/10]) xlabel('Ridge Parameter') ylabel('MSE') title('{\bf Ridge MSE}') axis tight grid on
График показывает точно противоположность того, на что можно было бы надеяться при применении гребенчатой регрессии. MSE на самом деле увеличивается в целой области значений гребенчатых параметров, предполагая снова, что нет никакой значительной коллинеарности в данных для гребенчатой регрессии, чтобы откорректировать.
Метод, связанный с гребенчатой регрессией, лассо, описан в Регрессии Временных рядов в качестве примера V: Выбор Предиктора.
Этот пример фокусировался на свойствах данных о предикторе, которые могут привести к высокому отклонению средства оценки OLS, и так ненадежные содействующие оценки. Методы Белсли полезны для идентификации определенных отношений данных, которые способствуют проблеме, и для оценки степени эффектов на оценке. Один метод для размещающего отклонения средства оценки является гребенчатой регрессией. Методы для того, чтобы выборочно удалить проблематичные предикторы обращены в Регрессии Временных рядов в качестве примера III: Влиятельные Наблюдения и Регрессия Временных рядов V: Выбор Предиктора.
[1] Белсли, D. A. Э. Кух и Р. Э. Уэлш. Диагностика регрессии. Нью-Йорк, Нью-Йорк: John Wiley & Sons, Inc., 1980.
[2] Голдбергер, A. T. Курс в эконометрике. Кембридж, MA: Издательство Гарвардского университета, 1991.
[3] Hoerl, A. E. и Р. В. Кеннард. "Гребенчатая Регрессия: Приложения к Неортогональным проблемам". Технометрики. Издание 12, № 1, 1970, стр 69–82.
[4] Moler, C. Числовое вычисление с MATLAB. Филадельфия, PA: общество промышленной и прикладной математики, 2004.
[5] Камень, R. "Анализ Рыночного спроса". Журнал Королевского Статистического Общества. Издание 108, 1945, стр 1–98.
[6] Вулдридж, J. M. Вводная эконометрика. Цинциннати, OH: юго-западный, 2009.