В этом примере показано, как создать несколько моделей классификации для данного обучающего набора данных, оптимизируйте их гиперпараметры с помощью Байесовой оптимизации и выберите модель, которая выполняет лучшее на наборе тестовых данных.
Обучение несколько моделей и настройки их гиперпараметров может часто занимать дни или недели. Создание скрипта, чтобы разработать и сравнить многоуровневые модели автоматически может быть намного быстрее. Можно также использовать Байесовую оптимизацию, чтобы ускорить процесс. Вместо обучения каждая модель с различными наборами гиперпараметров вы выбираете несколько различных моделей и настраиваете их гиперпараметры по умолчанию с помощью Байесовой оптимизации. Байесова оптимизация находит оптимальный набор гиперпараметров для данной модели путем минимизации целевой функции модели. Этот алгоритм оптимизации стратегически выбирает новые гиперпараметры в каждой итерации и обычно прибывает в оптимальный набор гиперпараметров более быстро, чем простой поиск сетки. Можно использовать скрипт в этом примере, чтобы обучить несколько моделей классификации с помощью Байесовой оптимизации для данного обучающего набора данных и идентифицировать модель, которая выполняет лучше всего на наборе тестовых данных.
В качестве альтернативы, чтобы выбрать модель классификации автоматически через выбор типов классификатора и гиперзначений параметров, используйте fitcauto
. Для примера смотрите Автоматизированный Выбор Классификатора с Байесовой Оптимизацией.
Этот пример использует 1 994 данных о переписи, хранимых в census1994.mat
. Набор данных состоит из демографических данных Бюро переписи США, чтобы предсказать, передает ли индивидуум 50 000$ в год. Задача классификации состоит в том, чтобы подобрать модель, которая предсказывает категорию зарплаты людей, учитывая их возраст, рабочий класс, образовательный уровень, семейное положение, гонку, и так далее.
Загрузите выборочные данные census1994
и отобразите переменные в наборе данных.
load census1994
whos
Name Size Bytes Class Attributes Description 20x74 2960 char adultdata 32561x15 1872567 table adulttest 16281x15 944467 table
census1994
содержит обучающий набор данных adultdata
и тестовые данные устанавливают adulttest
. В данном примере уменьшать время выполнения, поддемонстрационные 5 000 обучения и тестовых наблюдений каждый, из исходных таблиц adultdata
и adulttest
, при помощи datasample
функция. (Можно пропустить этот шаг, если вы хотите использовать наборы полных данных.)
NumSamples = 5000; s = RandStream('mlfg6331_64'); % For reproducibility adultdata = datasample(s,adultdata,NumSamples,'Replace',false); adulttest = datasample(s,adulttest,NumSamples,'Replace',false);
Предварительно просмотрите первые несколько строк обучающего набора данных.
head(adultdata)
ans=8×15 table
age workClass fnlwgt education education_num marital_status occupation relationship race sex capital_gain capital_loss hours_per_week native_country salary
___ ___________ __________ ____________ _____________ __________________ _________________ ______________ _____ ______ ____________ ____________ ______________ ______________ ______
39 Private 4.91e+05 Bachelors 13 Never-married Exec-managerial Other-relative Black Male 0 0 45 United-States <=50K
25 Private 2.2022e+05 11th 7 Never-married Handlers-cleaners Own-child White Male 0 0 45 United-States <=50K
24 Private 2.2761e+05 10th 6 Divorced Handlers-cleaners Unmarried White Female 0 0 58 United-States <=50K
51 Private 1.7329e+05 HS-grad 9 Divorced Other-service Not-in-family White Female 0 0 40 United-States <=50K
54 Private 2.8029e+05 Some-college 10 Married-civ-spouse Sales Husband White Male 0 0 32 United-States <=50K
53 Federal-gov 39643 HS-grad 9 Widowed Exec-managerial Not-in-family White Female 0 0 58 United-States <=50K
52 Private 81859 HS-grad 9 Married-civ-spouse Machine-op-inspct Husband White Male 0 0 48 United-States >50K
37 Private 1.2429e+05 Some-college 10 Married-civ-spouse Adm-clerical Husband White Male 0 0 50 United-States <=50K
Каждая строка представляет атрибуты одного взрослого, такие как возраст, образование и размещение. Последний столбец salary
показывает, есть ли у человека зарплата, меньше чем или равная 50 000$ в год или больше, чем 50 000$ в год.
Statistics and Machine Learning Toolbox™ предоставляет несколько возможностей для классификации, включая деревья классификации, дискриминантный анализ, наивного Бейеса, самых близких соседей, машины опорных векторов (SVMs) и ансамбли классификации. Для полного списка алгоритмов смотрите Классификацию.
Прежде, чем выбрать алгоритмы, чтобы использовать для вашей проблемы, смотрите свой набор данных. Данные о переписи имеют несколько примечательных характеристик:
Данные являются табличными и содержат и числовые и категориальные переменные.
Данные содержат отсутствующие значения.
Переменная отклика (salary
) имеет два класса (бинарная классификация).
Не делая предположений или с помощью предварительных знаний алгоритмов, что вы ожидаете работать хорошо над своими данными, вы просто обучаете все алгоритмы, которые поддерживают табличные данные и бинарную классификацию. Модели выходных кодов с коррекцией ошибок (ECOC) используются для данных больше чем с двумя классами. Дискриминантный анализ и самые близкие соседние алгоритмы не анализируют данные, которые содержат и числовые и категориальные переменные. Поэтому алгоритмы, подходящие для этого примера, являются SVMs, деревом решений, ансамблем деревьев решений и наивной моделью Bayes.
Чтобы ускорить процесс, настройте опции гипероптимизации параметров управления. Задайте 'ShowPlots'
как false
и 'Verbose'
как 0, чтобы отключить график и индикаторы сообщения, соответственно. Кроме того, задайте 'UseParallel'
как true
запускать Байесовую оптимизацию параллельно, которая требует Parallel Computing Toolbox™. Из-за невоспроизводимости синхронизации параллели, параллельная Байесова оптимизация не обязательно приводит к восстанавливаемым результатам.
hypopts = struct('ShowPlots',false,'Verbose',0,'UseParallel',true);
Запустите параллельный пул.
poolobj = gcp;
Можно соответствовать обучающему набору данных и настройкам параметров легко путем вызывания каждой подходящей функции и установки ее 'OptimizeHyperparameters'
аргумент пары "имя-значение" 'auto'
. Создайте модели классификации.
% SVMs: SVM with polynomial kernel & SVM with Gaussian kernel mdls{1} = fitcsvm(adultdata,'salary','KernelFunction','polynomial','Standardize','on', ... 'OptimizeHyperparameters','auto','HyperparameterOptimizationOptions', hypopts); mdls{2} = fitcsvm(adultdata,'salary','KernelFunction','gaussian','Standardize','on', ... 'OptimizeHyperparameters','auto','HyperparameterOptimizationOptions', hypopts); % Decision tree mdls{3} = fitctree(adultdata,'salary', ... 'OptimizeHyperparameters','auto','HyperparameterOptimizationOptions', hypopts); % Ensemble of Decision trees mdls{4} = fitcensemble(adultdata,'salary','Learners','tree', ... 'OptimizeHyperparameters','auto','HyperparameterOptimizationOptions', hypopts); % Naive Bayes mdls{5} = fitcnb(adultdata,'salary', ... 'OptimizeHyperparameters','auto','HyperparameterOptimizationOptions', hypopts);
Warning: It is recommended that you first standardize all numeric predictors when optimizing the Naive Bayes 'Width' parameter. Ignore this warning if you have done that.
Извлеките Байесовы результаты оптимизации из каждой модели и постройте минимальную наблюдаемую величину целевой функции для каждой модели по каждой итерации гипероптимизации параметров управления. Значение целевой функции соответствует misclassification уровню, измеренному пятикратной перекрестной проверкой с помощью обучающего набора данных. График сравнивает эффективность каждой модели.
figure hold on N = length(mdls); for i = 1:N mdl = mdls{i}; results = mdls{i}.HyperparameterOptimizationResults; plot(results.ObjectiveMinimumTrace,'Marker','o','MarkerSize',5); end names = {'SVM-Polynomial','SVM-Gaussian','Decision Tree','Ensemble-Trees','Naive Bayes'}; legend(names,'Location','northeast') title('Bayesian Optimization') xlabel('Number of Iterations') ylabel('Minimum Objective Value')
Используя Байесовую оптимизацию, чтобы найти лучшие гипернаборы параметров улучшает производительность моделей по нескольким итерациям. В этом случае график показывает, что у ансамбля деревьев решений есть лучшая точность предсказания для данных. Эта модель выполняет хорошо последовательно по нескольким итерациям и различным наборам Байесовых гиперпараметров оптимизации.
Проверяйте эффективность классификатора с набором тестовых данных при помощи матрицы беспорядка и кривой рабочей характеристики приемника (ROC).
Найдите предсказанные метки и значения баллов набора тестовых данных.
label = cell(N,1); score = cell(N,1); for i = 1:N [label{i},score{i}] = predict(mdls{i},adulttest); end
Получите наиболее вероятный класс для каждого тестового наблюдения при помощи predict
функция каждой модели. Затем вычислите матрицу беспорядка с предсказанными классами и известными (TRUE) классами набора тестовых данных при помощи confusionchart
функция.
figure c = cell(N,1); for i = 1:N subplot(2,3,i) c{i} = confusionchart(adulttest.salary,label{i}); title(names{i}) end
Диагональные элементы указывают на количество правильно классифицированных экземпляров данного класса. Недиагональными элементами являются экземпляры неправильно классифицированных наблюдений.
Смотрите эффективность классификатора более тесно путем графического вывода кривой ROC для каждого классификатора. Используйте perfcurve
функция, чтобы получить X
и Y
координаты ROC изгибаются и область под кривой (AUC) значение для вычисленного X
и Y
.
Построить кривые ROC для значений баллов, соответствующих метке '<=50K'
, проверяйте порядка следования столбцов значений баллов, возвращенных в predict
функция. Порядок следования столбцов совпадает с порядком категории переменной отклика в обучающем наборе данных. Отобразите порядок категории.
c = categories(adultdata.salary)
c = 2×1 cell
{'<=50K'}
{'>50K' }
Постройте кривые ROC.
figure hold on AUC = zeros(1,N); for i = 1:N [X,Y,~,AUC(i)] = perfcurve(adulttest.salary,score{i}(:,1),'<=50K'); plot(X,Y) end title('ROC Curves') xlabel('False Positive Rate') ylabel('True Positive Rate') legend(names,'Location','southeast')
Кривая ROC показывает истинный положительный уровень по сравнению с ложным положительным уровнем (или, чувствительность по сравнению с 1 спецификой) для различных порогов классификатора выход.
Теперь постройте значения AUC с помощью столбчатого графика. Для совершенного классификатора, истинный положительный уровень которого всегда 1 независимо от порогов, AUC = 1. Для классификатора, который случайным образом присваивает наблюдения классам, AUC = 0.5. Большие значения AUC указывают на лучшую эффективность классификатора.
figure bar(AUC) title('Area Under the Curve') xlabel('Model') ylabel('AUC') xticklabels(names) xtickangle(30) ylim([0.85,0.925])
На основе матрицы беспорядка и столбчатого графика AUC, ансамбль деревьев решений и моделей SVM достигает лучшей точности, чем дерево решений и наивные модели Bayes.
Выполнение Байесовой оптимизации на всех моделях для дальнейших итераций может быть в вычислительном отношении дорогим. Вместо этого выберите подмножество моделей, которые выполнили хорошо до сих пор и продолжают оптимизацию для еще 30 итераций при помощи resume
функция. Постройте минимальные наблюдаемые величины целевой функции для каждой итерации Байесовой оптимизации.
figure hold on selectedMdls = mdls([1,2,4]); newresults = cell(1,length(selectedMdls)); for i = 1:length(selectedMdls) newresults{i} = resume(selectedMdls{i}.HyperparameterOptimizationResults,'MaxObjectiveEvaluations',30); plot(newresults{i}.ObjectiveMinimumTrace,'Marker','o','MarkerSize',5) end title('Bayesian Optimization with resume') xlabel('Number of Iterations') ylabel('Minimum Objective Value') legend({'SVM-Polynomial','SVM-Gaussian','Ensemble-Trees'},'Location','northeast')
Первые 30 итераций соответствуют первому раунду Байесовой оптимизации. Следующие 30 итераций соответствуют результатам resume
функция. Возобновление оптимизации полезно, потому что потеря продолжает уменьшать далее после первых 30 итераций.
BayesianOptimization
| confusionchart
| perfcurve
| resume