В этом примере показано, как использовать случайный ансамбль подпространства для повышения точности классификации. В нем также показано, как использовать перекрестную проверку для определения хороших параметров как для слабого шаблона ученика, так и для ансамбля.
Загрузить ionosphere данные. Эти данные имеют 351 двоичный ответ на 34 предиктора.
load ionosphere;
[N,D] = size(X)N = 351
D = 34
resp = unique(Y)
resp = 2x1 cell
{'b'}
{'g'}
Найдите хороший выбор для kколичество ближайших соседей в классификаторе путем перекрестной проверки. Выберите число соседей, примерно равномерно разнесенных по логарифмической шкале.
rng(8000,'twister') % for reproducibility K = round(logspace(0,log10(N),10)); % number of neighbors cvloss = zeros(numel(K),1); for k=1:numel(K) knn = fitcknn(X,Y,... 'NumNeighbors',K(k),'CrossVal','On'); cvloss(k) = kfoldLoss(knn); end figure; % Plot the accuracy versus k semilogx(K,cvloss); xlabel('Number of nearest neighbors'); ylabel('10 fold classification error'); title('k-NN classification');

Наименьшая ошибка перекрестной проверки для k = 2.
Создание ансамблей для 2- ближайшая соседняя классификация с различным количеством измерений и проверка перекрестно проверенных потерь результирующих ансамблей.
Этот шаг занимает много времени. Чтобы отслеживать ход выполнения, распечатайте сообщение по мере завершения каждого измерения.
NPredToSample = round(linspace(1,D,10)); % linear spacing of dimensions cvloss = zeros(numel(NPredToSample),1); learner = templateKNN('NumNeighbors',2); for npred=1:numel(NPredToSample) subspace = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ... 'NPredToSample',NPredToSample(npred),'CrossVal','On'); cvloss(npred) = kfoldLoss(subspace); fprintf('Random Subspace %i done.\n',npred); end
Random Subspace 1 done. Random Subspace 2 done. Random Subspace 3 done. Random Subspace 4 done. Random Subspace 5 done. Random Subspace 6 done. Random Subspace 7 done. Random Subspace 8 done. Random Subspace 9 done. Random Subspace 10 done.
figure; % plot the accuracy versus dimension plot(NPredToSample,cvloss); xlabel('Number of predictors selected at random'); ylabel('10 fold classification error'); title('k-NN classification with Random Subspace');

Ансамбли, которые используют пять и восемь предикторов на учащегося, имеют наименьшую перекрестно подтвержденную ошибку. Частота ошибок для этих ансамблей составляет приблизительно 0,06, в то время как другие ансамбли имеют перекрестно проверенные частоты ошибок, которые составляют приблизительно 0,1 или более.
Найдите наименьшее число учеников в ансамбле, которые все еще дают хорошую классификацию.
ens = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ... 'NPredToSample',5,'CrossVal','on'); figure; % Plot the accuracy versus number in ensemble plot(kfoldLoss(ens,'Mode','Cumulative')) xlabel('Number of learners in ensemble'); ylabel('10 fold classification error'); title('k-NN classification with Random Subspace');

Похоже, нет никакого преимущества в ансамбле с более чем 50 учениками. Возможно, что 25 учеников дают хорошие прогнозы.
Построить финальный ансамбль с 50 учениками. Скомпонуйте ансамбль и посмотрите, экономит ли компактная версия значительный объем памяти.
ens = fitcensemble(X,Y,'Method','Subspace','NumLearningCycles',50,... 'Learners',learner,'NPredToSample',5); cens = compact(ens); s1 = whos('ens'); s2 = whos('cens'); [s1.bytes s2.bytes] % si.bytes = size in bytes
ans = 1×2
1748467 1518820
Компактный ансамбль примерно на 10% меньше полного ансамбля. Оба дают одинаковые прогнозы.
compact | fitcensemble | fitcknn | kfoldLoss | templateKNN