Лассо и эластичная сетка

Что такое лассо и эластичная сетка?

Лассо - это метод регуляризации. Использовать lasso кому:

Уменьшите число предикторов в регрессионной модели.
Определите важные предикторы.
Выберите один из избыточных предикторов.
Производить оценки усадки с потенциально более низкими прогностическими ошибками, чем обычные наименьшие квадраты.

Эластичная сетка является родственной техникой. Используйте эластичную сетку, если у вас есть несколько сильно коррелированных переменных. lasso обеспечивает эластичную регуляризацию сетки при установке Alpha пара имя-значение к числу строго между 0 и 1.

См. раздел Сведения о лассо и упругой сетке.

Регуляризацию лассо регрессионных ансамблей см. в разделе regularize.

Детали лассо и эластичной сетки

Обзор лассо и эластичной сетки

Лассо - это метод регуляризации для выполнения линейной регрессии. Lasso включает штрафной термин, который ограничивает размер оцененных коэффициентов. Поэтому она напоминает хребтовую регрессию. Лассо является оценщиком усадки: он генерирует оценки коэффициентов, которые смещены, чтобы быть маленькими. Тем не менее, оценщик лассо может иметь меньшую среднеквадратичную ошибку, чем обычный оценщик наименьших квадратов при применении его к новым данным.

В отличие от риджевой регрессии, по мере увеличения штрафного члена, лассо устанавливает больше коэффициентов в ноль. Это означает, что оценщик лассо является меньшей моделью с меньшим количеством предикторов. По существу, лассо является альтернативой ступенчатой регрессии и другим способам выбора модели и уменьшения размерности.

Эластичная сетка является родственной техникой. Эластичная сетка является гибридом регрессии гребня и регуляризации лассо. Подобно лассо, эластичная сетка может генерировать уменьшенные модели путем генерации нулевых коэффициентов. Эмпирические исследования показали, что метод упругой сетки может превосходить лассо по данным с сильно коррелированными предикторами.

Определение Лассо

Метод лассо решает эту проблему регуляризации. Для заданного значения λ неотрицательный параметр, lasso решает проблему

$\underset{_{minβ0},}{} β \frac{}{(}_{}^{} {{12N∑i=1N}_{} (_{yi} -_{}^{} β0}^{−}_{xiTβ)}^{}_{}$ 2+λ∑j=1p'βj|).

N - количество наблюдений.
_yi является ответом при наблюдении i.
_xi - данные, вектор значений p при наблюдении i.
λ - положительный параметр регуляризации, соответствующий одному значению Lambda.
Параметры β0 и β являются скалярными и p-векторами соответственно.

По мере увеличения λ количество ненулевых компонентов β уменьшается.

Проблема лассо включает в себя L1 норму β, что контрастирует с алгоритмом упругой сетки.

Определение упругой сетки

Метод упругой сетки решает эту проблему регуляризации. Для α строго между 0 и 1 и неотрицательной λ упругая сетка решает проблему

$\underset{_{minβ0},}{} β \frac{}{(}_{}^{} {{12N∑i=1N}_{} (_{yi} -_{}^{} β0}^{−}_{} xiTβ) 2$ + λ Pα (β)),

где

$_{Pα} (β) \frac{= (1}{} {- α}_{)}^{}_{}_{}^{} \frac{2‖β‖22+α‖β‖1=\sumj=1p}{} (_{(}^{1} - α_{)}$ 2βj2 + α 'βj |).

Эластичная сетка такая же, как у лассо, когда α = 1. Когда α сжимается к 0, эластичная сетка приближается ridge регрессия. Для других значений α штрафной член _Pα (β) интерполируется между ^L1 нормой β и квадратной ^L2 нормой β.

Ссылки

[1] Тибширани, Р. «Регрессионная усадка и отбор через лассо». Журнал Королевского статистического общества, серия B, том 58, № 1, стр. 267 - 288, 1996.

[2] Зоу, Х. и Т. Хасти. «Регуляризация и выбор переменных через эластичную сетку». Журнал Королевского статистического общества, серия В, том 67, № 2, стр. 301 - 320, 2005.

[3] Фридман, Дж., Р. Тибширани и Т. Хасти. «Пути регуляризации для обобщенных линейных моделей через спуск по координатам». Журнал статистического программного обеспечения, том 33, № 1, 2010. https://www.jstatsoft.org/v33/i01

[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения, 2-е издание. Спрингер, Нью-Йорк, 2008.

См. также

fitrlinear | lasso | lassoglm | lassoPlot | ridge

Документация