Классификация случайных подпространств

Открыть сценарий в реальном времени

В этом примере показано, как использовать случайный ансамбль подпространства для повышения точности классификации. В нем также показано, как использовать перекрестную проверку для определения хороших параметров как для слабого шаблона ученика, так и для ансамбля.

Загрузить данные

Загрузить ionosphere данные. Эти данные имеют 351 двоичный ответ на 34 предиктора.

load ionosphere;
[N,D] = size(X)

N = 351

D = 34

resp = unique(Y)

resp = 2x1 cell
    {'b'}
    {'g'}

Выберите число ближайших соседей

Найдите хороший выбор для kколичество ближайших соседей в классификаторе путем перекрестной проверки. Выберите число соседей, примерно равномерно разнесенных по логарифмической шкале.

rng(8000,'twister') % for reproducibility
K = round(logspace(0,log10(N),10)); % number of neighbors 
cvloss = zeros(numel(K),1);
for k=1:numel(K)
    knn = fitcknn(X,Y,...
        'NumNeighbors',K(k),'CrossVal','On');
    cvloss(k) = kfoldLoss(knn);
end
figure; % Plot the accuracy versus k
semilogx(K,cvloss);
xlabel('Number of nearest neighbors');
ylabel('10 fold classification error');
title('k-NN classification');

Figure contains an axes. The axes with title k-NN classification contains an object of type line.

Наименьшая ошибка перекрестной проверки для k = 2.

Создание ансамблей

Создание ансамблей для 2- ближайшая соседняя классификация с различным количеством измерений и проверка перекрестно проверенных потерь результирующих ансамблей.

Этот шаг занимает много времени. Чтобы отслеживать ход выполнения, распечатайте сообщение по мере завершения каждого измерения.

NPredToSample = round(linspace(1,D,10)); % linear spacing of dimensions
cvloss = zeros(numel(NPredToSample),1);
learner = templateKNN('NumNeighbors',2);
for npred=1:numel(NPredToSample)
   subspace = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ...
       'NPredToSample',NPredToSample(npred),'CrossVal','On');
   cvloss(npred) = kfoldLoss(subspace);
   fprintf('Random Subspace %i done.\n',npred);
end

Random Subspace 1 done.
Random Subspace 2 done.
Random Subspace 3 done.
Random Subspace 4 done.
Random Subspace 5 done.
Random Subspace 6 done.
Random Subspace 7 done.
Random Subspace 8 done.
Random Subspace 9 done.
Random Subspace 10 done.

figure; % plot the accuracy versus dimension
plot(NPredToSample,cvloss);
xlabel('Number of predictors selected at random');
ylabel('10 fold classification error');
title('k-NN classification with Random Subspace');

Figure contains an axes. The axes with title k-NN classification with Random Subspace contains an object of type line.

Ансамбли, которые используют пять и восемь предикторов на учащегося, имеют наименьшую перекрестно подтвержденную ошибку. Частота ошибок для этих ансамблей составляет приблизительно 0,06, в то время как другие ансамбли имеют перекрестно проверенные частоты ошибок, которые составляют приблизительно 0,1 или более.

Найти хороший размер ансамбля

Найдите наименьшее число учеников в ансамбле, которые все еще дают хорошую классификацию.

ens = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ...
       'NPredToSample',5,'CrossVal','on');
figure; % Plot the accuracy versus number in ensemble
plot(kfoldLoss(ens,'Mode','Cumulative'))
xlabel('Number of learners in ensemble');
ylabel('10 fold classification error');
title('k-NN classification with Random Subspace');

Figure contains an axes. The axes with title k-NN classification with Random Subspace contains an object of type line.

Похоже, нет никакого преимущества в ансамбле с более чем 50 учениками. Возможно, что 25 учеников дают хорошие прогнозы.

Создание финального ансамбля

Построить финальный ансамбль с 50 учениками. Скомпонуйте ансамбль и посмотрите, экономит ли компактная версия значительный объем памяти.

ens = fitcensemble(X,Y,'Method','Subspace','NumLearningCycles',50,...
    'Learners',learner,'NPredToSample',5);
cens = compact(ens);
s1 = whos('ens');
s2 = whos('cens');
[s1.bytes s2.bytes] % si.bytes = size in bytes

ans = 1×2

     1748467     1518820

Компактный ансамбль примерно на 10% меньше полного ансамбля. Оба дают одинаковые прогнозы.

См. также

compact | fitcensemble | fitcknn | kfoldLoss | templateKNN

Документация