LPBoost и TotalBoost для малых ансамблей

Этот пример показывает, как получить преимущества LPBoost и TotalBoost алгоритмы. Эти алгоритмы имеют две выгодные характеристики:

  • Они прекращаются самостоятельно, что означает, что вы не должны понимать, сколько представителей включать.

  • Они производят ансамбли с очень маленькими весами, что позволяет безопасно удалять представителей ансамбля.

Загрузите данные

Загрузите ionosphere набор данных.

load ionosphere

Создайте классификационные ансамбли

Создайте ансамбли для классификации ionosphere данные с использованием LPBoost, TotalBoost, и, для сравнения, AdaBoostM1 алгоритмы. Трудно узнать, сколько представителей включить в ансамбль. Для LPBoost и TotalBoost, попробуйте использовать 500. Для сравнения также используйте 500 для AdaBoostM1.

Слабыми учениками по умолчанию для методов бустинга являются деревья решений с MaxNumSplits значение свойства установлено в 10. Эти деревья, как правило, помещаются лучше, чем древовидные пни (с 1 максимальное разделение) и может перегружать больше. Поэтому, чтобы предотвратить сверхподбор кривой, используйте древовидные пни как слабые учащиеся для ансамблей.

rng('default') % For reproducibility
T = 500;
treeStump = templateTree('MaxNumSplits',1);
adaStump = fitcensemble(X,Y,'Method','AdaBoostM1','NumLearningCycles',T,'Learners',treeStump);
totalStump = fitcensemble(X,Y,'Method','TotalBoost','NumLearningCycles',T,'Learners',treeStump);
lpStump = fitcensemble(X,Y,'Method','LPBoost','NumLearningCycles',T,'Learners',treeStump);

figure
plot(resubLoss(adaStump,'Mode','Cumulative'));
hold on
plot(resubLoss(totalStump,'Mode','Cumulative'),'r');
plot(resubLoss(lpStump,'Mode','Cumulative'),'g');
hold off
xlabel('Number of stumps');
ylabel('Training error');
legend('AdaBoost','TotalBoost','LPBoost','Location','NE');

Figure contains an axes. The axes contains 3 objects of type line. These objects represent AdaBoost, TotalBoost, LPBoost.

Все три алгоритма достигают идеального предсказания на обучающих данных через некоторое время.

Исследуйте количество представителей во всех трех ансамблях.

[adaStump.NTrained totalStump.NTrained lpStump.NTrained]
ans = 1×3

   500    52    79

AdaBoostM1 обучил всех 500 представителей. Два других алгоритма остановили обучение раньше.

Перекрестная проверка ансамблей

Cross валидация ансамблей, чтобы лучше определить точность ансамбля.

cvlp = crossval(lpStump,'KFold',5);
cvtotal = crossval(totalStump,'KFold',5);
cvada = crossval(adaStump,'KFold',5);

figure
plot(kfoldLoss(cvada,'Mode','Cumulative'));
hold on
plot(kfoldLoss(cvtotal,'Mode','Cumulative'),'r');
plot(kfoldLoss(cvlp,'Mode','Cumulative'),'g');
hold off
xlabel('Ensemble size');
ylabel('Cross-validated error');
legend('AdaBoost','TotalBoost','LPBoost','Location','NE');

Figure contains an axes. The axes contains 3 objects of type line. These objects represent AdaBoost, TotalBoost, LPBoost.

Результаты показывают, что каждый алгоритм повышения достигает потери 10% или ниже с 50 представителями ансамбля.

Компактные и удаленные представители ансамбля

Чтобы уменьшить размеры ансамбля, уплотните их, а затем используйте removeLearners. Вопрос в том, сколько учащихся вы должны удалить? Перекрестные проверенные кривые потерь дают вам одну меру. Для другого исследуйте веса учащихся на LPBoost и TotalBoost после уплотнения.

cada = compact(adaStump);
clp = compact(lpStump);
ctotal = compact(totalStump);

figure
subplot(2,1,1)
plot(clp.TrainedWeights)
title('LPBoost weights')
subplot(2,1,2)
plot(ctotal.TrainedWeights)
title('TotalBoost weights')

Figure contains 2 axes. Axes 1 with title LPBoost weights contains an object of type line. Axes 2 with title TotalBoost weights contains an object of type line.

Оба LPBoost и TotalBoost показать ясные точки, где веса представителей ансамбля становятся незначительными.

Убрать неважные представителей ансамбля.

cada = removeLearners(cada,150:cada.NTrained);
clp = removeLearners(clp,60:clp.NTrained);
ctotal = removeLearners(ctotal,40:ctotal.NTrained);

Проверяйте, что удаление этих учащихся не влияет на точность ансамбля в обучающих данных.

[loss(cada,X,Y) loss(clp,X,Y) loss(ctotal,X,Y)]
ans = 1×3

     0     0     0

Проверьте получившиеся компактные размеры ансамбля.

s(1) = whos('cada');
s(2) = whos('clp');
s(3) = whos('ctotal');
s.bytes
ans = 590844
ans = 236030
ans = 157190

Размеры компактных ансамблей примерно пропорциональны количеству представителей в каждом.

См. также

| | | | | |

Похожие темы