Регуляризация - это процесс нахождения небольшого набора предикторов, которые дают эффективную прогнозирующую модель. Для линейного дискриминантного анализа существует два параметра, γ и δ, которые управляют регуляризацией следующим образом. cvshrink
помогает вам выбрать соответствующие значения параметров.
Позвольте Σ представлять ковариационную матрицу данных X и позволить быть центрированными данными (данные X минус среднее значение по классам). Определить
Регуляризованная ковариационная матрица является
Всякий раз, когда γ ≥ MinGamma
, является несингулярным.
Пусть μk является средним вектором для тех элементов X в классе k, и пусть μ 0 является глобальным средним вектором (средним значением для строк X). Позвольте C быть корреляционной матрицей X данных, и пусть быть регуляризованной корреляционной матрицей:
где I - матрица тождеств.
Линейный термин в регуляризованном классификаторе дискриминантного анализа для x точек данных является
Параметр δ входит в это уравнение как порог на конечном члене в квадратных скобках. Каждый компонент вектора равен нулю, если он меньше по величине, чем пороговое δ. Поэтому для k класса, если j компонента порога к нулю, j компонента x не входит в оценку апостериорной вероятности.
The DeltaPredictor
свойство является вектором, связанным с этим порогом. Когда δ ≥ DeltaPredictor(i)
, все классы, которые k имеете
Поэтому, когда δ ≥ DeltaPredictor(i)
Регуляризованный классификатор не использует предиктор i
.