exponenta event banner

Лассо и эластичная сетка

Что такое лассо и эластичная сетка?

Лассо - это метод регуляризации. Использовать lasso кому:

  • Уменьшите число предикторов в регрессионной модели.

  • Определите важные предикторы.

  • Выберите один из избыточных предикторов.

  • Производить оценки усадки с потенциально более низкими прогностическими ошибками, чем обычные наименьшие квадраты.

Эластичная сетка является родственной техникой. Используйте эластичную сетку, если у вас есть несколько сильно коррелированных переменных. lasso обеспечивает эластичную регуляризацию сетки при установке Alpha пара имя-значение к числу строго между 0 и 1.

См. раздел Сведения о лассо и упругой сетке.

Регуляризацию лассо регрессионных ансамблей см. в разделе regularize.

Детали лассо и эластичной сетки

Обзор лассо и эластичной сетки

Лассо - это метод регуляризации для выполнения линейной регрессии. Lasso включает штрафной термин, который ограничивает размер оцененных коэффициентов. Поэтому она напоминает хребтовую регрессию. Лассо является оценщиком усадки: он генерирует оценки коэффициентов, которые смещены, чтобы быть маленькими. Тем не менее, оценщик лассо может иметь меньшую среднеквадратичную ошибку, чем обычный оценщик наименьших квадратов при применении его к новым данным.

В отличие от риджевой регрессии, по мере увеличения штрафного члена, лассо устанавливает больше коэффициентов в ноль. Это означает, что оценщик лассо является меньшей моделью с меньшим количеством предикторов. По существу, лассо является альтернативой ступенчатой регрессии и другим способам выбора модели и уменьшения размерности.

Эластичная сетка является родственной техникой. Эластичная сетка является гибридом регрессии гребня и регуляризации лассо. Подобно лассо, эластичная сетка может генерировать уменьшенные модели путем генерации нулевых коэффициентов. Эмпирические исследования показали, что метод упругой сетки может превосходить лассо по данным с сильно коррелированными предикторами.

Определение Лассо

Метод лассо решает эту проблему регуляризации. Для заданного значения λ неотрицательный параметр, lasso решает проблему

minβ0, β (12N∑i=1N (yi β0 xiTβ) 2+λ∑j=1p'βj|).

  • N - количество наблюдений.

  • yi является ответом при наблюдении i.

  • xi - данные, вектор значений p при наблюдении i.

  • λ - положительный параметр регуляризации, соответствующий одному значению Lambda.

  • Параметры β0 и β являются скалярными и p-векторами соответственно.

По мере увеличения λ количество ненулевых компонентов β уменьшается.

Проблема лассо включает в себя L1 норму β, что контрастирует с алгоритмом упругой сетки.

Определение упругой сетки

Метод упругой сетки решает эту проблему регуляризации. Для α строго между 0 и 1 и неотрицательной λ упругая сетка решает проблему

minβ0, β (12N∑i=1N (yi β0 xiTβ) 2 + λ Pα (β)),

где

(β) = (1 α) 2‖β‖22+α‖β‖1=∑j=1p ((1 α) 2βj2 + α 'βj |).

Эластичная сетка такая же, как у лассо, когда α = 1. Когда α сжимается к 0, эластичная сетка приближается ridge регрессия. Для других значений α штрафной член (β) интерполируется между L1 нормой β и квадратной L2 нормой β.

Ссылки

[1] Тибширани, Р. «Регрессионная усадка и отбор через лассо». Журнал Королевского статистического общества, серия B, том 58, № 1, стр. 267 - 288, 1996.

[2] Зоу, Х. и Т. Хасти. «Регуляризация и выбор переменных через эластичную сетку». Журнал Королевского статистического общества, серия В, том 67, № 2, стр. 301 - 320, 2005.

[3] Фридман, Дж., Р. Тибширани и Т. Хасти. «Пути регуляризации для обобщенных линейных моделей через спуск по координатам». Журнал статистического программного обеспечения, том 33, № 1, 2010. https://www.jstatsoft.org/v33/i01

[4] Хасти, Т., Р. Тибширани и Дж. Фридман. Элементы статистического обучения, 2-е издание. Спрингер, Нью-Йорк, 2008.

См. также

| | | |

Связанные темы