Лассо и эластичная сеть

Что такое лассо и эластичная сеть?

Лассо - метод регуляризации. Использовать lasso кому:

  • Уменьшите количество предикторов в регрессионной модели.

  • Идентифицируйте важные предикторы.

  • Выберите среди избыточных предикторов.

  • Получите оценки усадки с потенциально более низкими прогнозирующими ошибками, чем обычные наименьшие квадраты.

Эластичная сетка является связанным методом. Используйте эластичную сеть, когда у вас есть несколько сильно коррелированных переменных. lasso обеспечивает упругую сетевую регуляризацию, когда вы устанавливаете Alpha Пара "имя-значение" на число, строго лежащее между 0 и 1.

См. «Детали лассо и эластичной сети».

Для lasso регуляризации регрессионых ансамблей, смотрите regularize.

Детали лассо и эластичной сети

Обзор лассо и эластичной сети

Лассо - метод регуляризации для выполнения линейной регрессии. Лассо включает штрафной термин, который ограничивает размер предполагаемых коэффициентов. Поэтому он напоминает регрессию хребта. Лассо является shrinkage estimator: он генерирует оценки коэффициентов, которые смещены, чтобы быть маленькими. Тем не менее, оценка lasso может иметь меньшую среднюю квадратичную невязку, чем обычная оценка методом наименьших квадратов, когда вы применяете его к новым данным.

В отличие от регрессии гребня, когда срок штрафа увеличивается, лассо устанавливает больше коэффициентов в нуль. Это означает, что оценка lasso является меньшей моделью с меньшим количеством предикторов. Таким образом, лассо является альтернативой ступенчатой регрессии и другим методам выбора модели и уменьшения размерности.

Эластичная сетка является связанным методом. Эластичная сеть является гибридом регрессии хребта и регуляризации лассо. Как и лассо, эластичная сеть может генерировать уменьшенные модели путем генерации нулевых коэффициентов. Эмпирические исследования показали, что метод упругой сети может превзойти лассо на данных с высоко коррелированными предикторами.

Определение Лассо

Метод lasso решает эту задачу регуляризации. Для заданного значения λ, неотрицательного параметра, lasso решает задачу

minβ0,β(12Ni=1N(yiβ0xiTβ)2+λj=1p|βj|).

  • N - количество наблюдений.

  • yi - это реакция на i наблюдения.

  • xi является данными, вектором p значений в i наблюдений.

  • λ является положительным параметром регуляризации, соответствующим одному значению Lambda.

  • Параметры β 0 и β скалярны и p - вектор соответственно.

Когда λ увеличивается, количество ненулевых компонентов β уменьшается.

Задача lasso включает в себя L1 норма β, противопоставленная алгоритму упругой сети.

Определение упругой сети

Метод elastic net решает эту задачу регуляризации. Для α, строго лежащей между 0 и 1, и неотрицательной λ, упругая сеть решает задачу

minβ0,β(12Ni=1N(yiβ0xiTβ)2+λPα(β)),

где

Pα(β)=(1α)2β22+αβ1=j=1p((1α)2βj2+α|βj|).

Эластичная сеть такая же, как и лассо, когда α = 1. Когда α сжимается к 0, эластичная сеть приближается ridge регрессия. Для других значений α срок штрафа (β) интерполируется между L1 норма β и квадратов L2 норма β.

Ссылки

[1] Tibshirani, R. «Regression shrinkage and selection through lasso». Журнал Королевского статистического общества, серия B, том 58, № 1, стр. 267-288, 1996.

[2] Цзоу, Х. и Т. Хасти. «Регуляризация и выбор переменных через эластичную сетку». Журнал Королевского статистического общества, серия B, том 67, № 2, стр. 301-320, 2005.

[3] Фридман, Дж., Р. Тибширани и Т. Хасти. Пути регуляризации для обобщенных линейных моделей через координатный спуск. Журнал статистического программного обеспечения, том 33, № 1, 2010. https://www.jstatsoft.org/v33/i01

[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения, 2-е издание. Спрингер, Нью-Йорк, 2008.

См. также

| | | |

Похожие темы