В этом примере показано, как упорядочить модель со значительно большим количеством предикторов, чем наблюдения. Широкие данные являются данными с большим количеством предикторов, чем наблюдения. Как правило, с широкими данными вы хотите идентифицировать важные предикторы. Используйте lassoglm
как исследовательский или экранирующий инструмент, чтобы выбрать меньший набор переменных, чтобы приоритизировать ваше моделирование и исследование. Используйте параллельные вычисления, чтобы ускорить перекрестную проверку.
Загрузите ovariancancer
данные. Эти данные имеют 216 наблюдений и 4 000 предикторов в obs
переменная рабочей области. Ответы являются двоичным файлом, любым 'Cancer'
или 'Normal'
, в grp
переменная рабочей области. Преобразуйте ответы на двоичный файл для использования в lassoglm
.
load ovariancancer y = strcmp(grp,'Cancer');
Установите опции использовать параллельные вычисления. Подготовьтесь вычислять в параллели с помощью parpool
.
opt = statset('UseParallel',true);
parpool()
Starting parallel pool (parpool) using the 'local' profile ... Connected to the parallel pool (number of workers: 6). ans = ProcessPool with properties: Connected: true NumWorkers: 6 Cluster: local AttachedFiles: {} AutoAddClientPath: true IdleTimeout: 30 minutes (30 minutes remaining) SpmdEnabled: true
Соответствуйте перекрестному подтвержденному набору упорядоченных моделей. Используйте Alpha
параметр, чтобы способствовать сдерживающим группам очень коррелированых предикторов, в противоположность устранению всех кроме одного члена группы. Обычно вы используете относительно большое значение Alpha
.
rng('default') % For reproducibility tic [B,S] = lassoglm(obs,y,'binomial','NumLambda',100, ... 'Alpha',0.9,'LambdaRatio',1e-4,'CV',10,'Options',opt); toc
Elapsed time is 90.892114 seconds.
Исследуйте график перекрестной проверки.
lassoPlot(B,S,'PlotType','CV'); legend('show') % Show legend
Исследуйте график трассировки.
lassoPlot(B,S,'PlotType','Lambda','XScale','log')
Правильная (зеленая) вертикальная пунктирная линия представляет Lambda
обеспечение самого маленького перекрестного подтвержденного отклонения. Левая (синяя) пунктирная линия имеет минимальное отклонение плюс не больше, чем одно стандартное отклонение. Эта синяя линия имеет много меньше предикторов:
[S.DF(S.Index1SE) S.DF(S.IndexMinDeviance)]
ans = 1×2
50 89
Вы спросили lassoglm
соответствовать использованию 100 различных Lambda
значения. Сколько это использовало?
size(B)
ans = 1×2
4000 84
lassoglm
остановленный после 84 значений, потому что отклонение слишком было мало для маленького Lambda
значения. Постараться не сверхсоответствовать, lassoglm
остановы, когда отклонение подобранной модели слишком мало по сравнению с отклонением в бинарных ответах, игнорируя переменные предикторы.
Можно обеспечить lassoglm
включать больше терминов при помощи 'Lambda'
аргумент пары "имя-значение". Например, задайте набор Lambda
значения, который дополнительно включает три значения, меньшие, чем значения в S.Lambda
.
minLambda = min(S.Lambda); explicitLambda = [minLambda*[.1 .01 .001] S.Lambda];
Задайте 'Lambda',explicitLambda
когда вы вызываете lassoglm
функция. lassoglm
остановы, когда отклонение подобранной модели слишком мало, даже при том, что вы явным образом обеспечиваете набор Lambda
значения.
Чтобы сэкономить время, можно использовать:
Меньше Lambda
, значение меньшего количества подгонок
Меньше сгибов перекрестной проверки
Большее значение для LambdaRatio
Используйте последовательный расчет и все три из этих экономящих время методов:
tic [Bquick,Squick] = lassoglm(obs,y,'binomial','NumLambda',25,... 'LambdaRatio',1e-2,'CV',5); toc
Elapsed time is 16.517331 seconds.
Графически сравните новые результаты с первыми результатами.
lassoPlot(Bquick,Squick,'PlotType','CV'); legend('show') % Show legend
lassoPlot(Bquick,Squick,'PlotType','Lambda','XScale','log')
Количество ненулевых коэффициентов в самом низком плюс одна модель стандартного отклонения - приблизительно 50, похожие на первый расчет.