templateTree

Создайте шаблон дерева решений

Описание

пример

t = templateTree возвращает шаблон ученика дерева решений по умолчанию, подходящий для обучения ансамбль (ускоренные и упакованные деревья решений) или модель мультикласса выходного кода с коррекцией ошибок (ECOC). Задайте t как ученик, использующий:

  • fitcensemble для ансамблей классификации

  • fitrensemble для ансамблей регрессии

  • fitcecoc для классификации моделей ECOC

Если вы задаете шаблон дерева решений по умолчанию, то программное обеспечение использует значения по умолчанию для всех входных параметров во время обучения. Это - хорошая практика, чтобы задать тип дерева решений, например, для шаблона дерева классификации, задать 'Type','classification'. Если вы задаете тип дерева решений и отображаете t в Командном окне, затем все опции кроме Type кажитесь пустыми ([]).

пример

t = templateTree(Name,Value) создает шаблон с дополнительными опциями, заданными одним или несколькими аргументами пары "имя-значение".

Например, можно указать, что алгоритм раньше находил лучшее разделение на категориальном предикторе, критерии разделения или количестве предикторов выбранным для каждого разделения.

Если вы отображаете t в Командном окне затем все опции кажутся пустыми ([]), кроме тех, которые вы задаете аргументы пары "имя-значение" использования. Во время обучения программное обеспечение использует значения по умолчанию для пустых опций.

Примеры

свернуть все

Создайте шаблон дерева решений с суррогатными разделениями и используйте шаблон, чтобы обучить ансамбль, использующий выборочные данные.

Загрузите ирисовый набор данных Фишера.

load fisheriris

Создайте шаблон дерева решений пней с суррогатными разделениями.

t = templateTree('Surrogate','on','MaxNumSplits',1)
t = 
Fit template for Tree.
       Surrogate: 'on'
    MaxNumSplits: 1

Опции для объекта шаблона пусты за исключением Surrogate и MaxNumSplits. Когда вы передаете t к учебной функции программное обеспечение заполняет пустые опции с их соответствующими значениями по умолчанию.

Задайте t как слабый ученик для ансамбля классификации.

Mdl = fitcensemble(meas,species,'Method','AdaBoostM2','Learners',t)
Mdl = 
  ClassificationEnsemble
             ResponseName: 'Y'
    CategoricalPredictors: []
               ClassNames: {'setosa'  'versicolor'  'virginica'}
           ScoreTransform: 'none'
          NumObservations: 150
               NumTrained: 100
                   Method: 'AdaBoostM2'
             LearnerNames: {'Tree'}
     ReasonForTermination: 'Terminated normally after completing the requested number of training cycles.'
                  FitInfo: [100x1 double]
       FitInfoDescription: {2x1 cell}


  Properties, Methods

Отобразите в выборке (перезамена) misclassification ошибка.

L = resubLoss(Mdl)
L = 0.0333

Один способ создать ансамбль повышенных деревьев регрессии, который имеет удовлетворительную прогнозирующую эффективность, состоит в том, чтобы настроить уровень сложности дерева решений с помощью перекрестной проверки. При поиске оптимального уровня сложности настройте скорость обучения, чтобы минимизировать количество изучения циклов также.

Этот пример вручную находит оптимальные параметры при помощи опции перекрестной проверки ('KFold' аргумент пары "имя-значение") и kfoldLoss функция. В качестве альтернативы можно использовать 'OptimizeHyperparameters' аргумент пары "имя-значение", чтобы оптимизировать гиперпараметры автоматически. Смотрите Оптимизируют Ансамбль Регрессии.

Загрузите carsmall набор данных. Выберите количество цилиндров, объем, перемещенный цилиндрами, лошадиной силой и весом как предикторы экономии топлива.

load carsmall
Tbl = table(Cylinders,Displacement,Horsepower,Weight,MPG);

Значения по умолчанию древовидных контроллеров глубины для повышения деревьев регрессии:

  • 10 для MaxNumSplits.

  • 5 для MinLeafSize

  • 10 для MinParentSize

Искать оптимальный уровень древовидной сложности:

  1. Перекрестный подтвердите набор ансамблей. Экспоненциально увеличьте уровень древовидной сложности для последующих ансамблей от пня решения (одно разделение) к в большей части n - 1 разделение. n является объемом выборки. Кроме того, варьируйтесь скорость обучения для каждого ансамбля между 0,1 к 1.

  2. Оцените перекрестную подтвержденную среднеквадратическую ошибку (MSE) для каждого ансамбля.

  3. Для уровня древовидной сложности j, j=1...J, сравните совокупный, перекрестный подтвержденный MSE ансамблей путем графического вывода их против количества изучения циклов. Постройте отдельные кривые для каждой скорости обучения на той же фигуре.

  4. Выберите кривую, которая достигает минимального MSE, и отметьте соответствующий цикл изучения и скорость обучения.

Перекрестный подтвердите глубокое дерево регрессии и пень. Поскольку данные содержат отсутствующие значения, используйте суррогатные разделения. Эти деревья регрессии служат сравнительными тестами.

rng(1) % For reproducibility
MdlDeep = fitrtree(Tbl,'MPG','CrossVal','on','MergeLeaves','off', ...
    'MinParentSize',1,'Surrogate','on');
MdlStump = fitrtree(Tbl,'MPG','MaxNumSplits',1,'CrossVal','on', ...
    'Surrogate','on');

Перекрестный подтвердите ансамбль 150 повышенных деревьев регрессии с помощью 5-кратной перекрестной проверки. Используя древовидный шаблон:

  • Варьируйтесь максимальное количество разделений с помощью значений в последовательности {20,21,...,2m}. m таков что 2m не больше, чем n - 1.

  • Включите суррогатные разделения.

Для каждого варианта настройте скорость обучения с помощью каждого значения в наборе {0.1, 0.25, 0.5, 1}.

n = size(Tbl,1);
m = floor(log2(n - 1));
learnRate = [0.1 0.25 0.5 1];
numLR = numel(learnRate);
maxNumSplits = 2.^(0:m);
numMNS = numel(maxNumSplits);
numTrees = 150;
Mdl = cell(numMNS,numLR);

for k = 1:numLR
    for j = 1:numMNS
        t = templateTree('MaxNumSplits',maxNumSplits(j),'Surrogate','on');
        Mdl{j,k} = fitrensemble(Tbl,'MPG','NumLearningCycles',numTrees, ...
            'Learners',t,'KFold',5,'LearnRate',learnRate(k));
    end
end

Оцените совокупный, перекрестный подтвержденный MSE каждого ансамбля.

kflAll = @(x)kfoldLoss(x,'Mode','cumulative');
errorCell = cellfun(kflAll,Mdl,'Uniform',false);
error = reshape(cell2mat(errorCell),[numTrees numel(maxNumSplits) numel(learnRate)]);
errorDeep = kfoldLoss(MdlDeep);
errorStump = kfoldLoss(MdlStump);

Постройте, как перекрестный подтвержденный MSE ведет себя как количество деревьев в увеличениях ансамбля. Постройте кривые относительно скорости обучения на том же графике и постройте отдельные графики для различных уровней древовидной сложности. Выберите подмножество древовидных уровней сложности, чтобы построить.

mnsPlot = [1 round(numel(maxNumSplits)/2) numel(maxNumSplits)];
figure;
for k = 1:3
    subplot(2,2,k)
    plot(squeeze(error(:,mnsPlot(k),:)),'LineWidth',2)
    axis tight
    hold on
    h = gca;
    plot(h.XLim,[errorDeep errorDeep],'-.b','LineWidth',2)
    plot(h.XLim,[errorStump errorStump],'-.r','LineWidth',2)
    plot(h.XLim,min(min(error(:,mnsPlot(k),:))).*[1 1],'--k')
    h.YLim = [10 50];    
    xlabel('Number of trees')
    ylabel('Cross-validated MSE')
    title(sprintf('MaxNumSplits = %0.3g', maxNumSplits(mnsPlot(k))))
    hold off
end
hL = legend([cellstr(num2str(learnRate','Learning Rate = %0.2f')); ...
        'Deep Tree';'Stump';'Min. MSE']);
hL.Position(1) = 0.6;

Figure contains 3 axes objects. Axes object 1 with title MaxNumSplits = 1 contains 7 objects of type line. Axes object 2 with title MaxNumSplits = 8 contains 7 objects of type line. Axes object 3 with title MaxNumSplits = 64 contains 7 objects of type line. These objects represent Learning Rate = 0.10, Learning Rate = 0.25, Learning Rate = 0.50, Learning Rate = 1.00, Deep Tree, Stump, Min. MSE.

Каждая кривая содержит минимум перекрестный подтвержденный MSE, происходящий в оптимальном количестве деревьев в ансамбле.

Идентифицируйте максимальное количество разделений, количество деревьев и скорость обучения, которая дает к самому низкому MSE в целом.

[minErr,minErrIdxLin] = min(error(:));
[idxNumTrees,idxMNS,idxLR] = ind2sub(size(error),minErrIdxLin);
fprintf('\nMin. MSE = %0.5f',minErr)
Min. MSE = 16.77593
fprintf('\nOptimal Parameter Values:\nNum. Trees = %d',idxNumTrees);
Optimal Parameter Values:
Num. Trees = 78
fprintf('\nMaxNumSplits = %d\nLearning Rate = %0.2f\n',...
    maxNumSplits(idxMNS),learnRate(idxLR))
MaxNumSplits = 1
Learning Rate = 0.25

Создайте прогнозирующий ансамбль на основе оптимальных гиперпараметров и целого набора обучающих данных.

tFinal = templateTree('MaxNumSplits',maxNumSplits(idxMNS),'Surrogate','on');
MdlFinal = fitrensemble(Tbl,'MPG','NumLearningCycles',idxNumTrees, ...
    'Learners',tFinal,'LearnRate',learnRate(idxLR))
MdlFinal = 
  RegressionEnsemble
           PredictorNames: {1x4 cell}
             ResponseName: 'MPG'
    CategoricalPredictors: []
        ResponseTransform: 'none'
          NumObservations: 94
               NumTrained: 78
                   Method: 'LSBoost'
             LearnerNames: {'Tree'}
     ReasonForTermination: 'Terminated normally after completing the requested number of training cycles.'
                  FitInfo: [78x1 double]
       FitInfoDescription: {2x1 cell}
           Regularization: []


  Properties, Methods

MdlFinal RegressionEnsemble. Чтобы предсказать экономию топлива автомобиля, учитывая его количество цилиндров, объем, перемещенный цилиндрами, лошадиной силой и весом, можно передать данные о предикторе и MdlFinal к predict.

Вместо того, чтобы искать оптимальные значения вручную при помощи опции перекрестной проверки ('KFold') и kfoldLoss функция, можно использовать 'OptimizeHyperparameters' аргумент пары "имя-значение". Когда вы задаете 'OptimizeHyperparameters', программное обеспечение находит оптимальные параметры автоматически с помощью Байесовой оптимизации. Оптимальные значения получены при помощи 'OptimizeHyperparameters' может отличаться от тех полученный поиск руководства использования.

t = templateTree('Surrogate','on');
mdl = fitrensemble(Tbl,'MPG','Learners',t, ...
    'OptimizeHyperparameters',{'NumLearningCycles','LearnRate','MaxNumSplits'})
|====================================================================================================================|
| Iter | Eval   | Objective:  | Objective   | BestSoFar   | BestSoFar   | NumLearningC-|    LearnRate | MaxNumSplits |
|      | result | log(1+loss) | runtime     | (observed)  | (estim.)    | ycles        |              |              |
|====================================================================================================================|
|    1 | Best   |      3.3955 |      1.2264 |      3.3955 |      3.3955 |           26 |     0.072054 |            3 |
|    2 | Accept |      6.0976 |      6.0375 |      3.3955 |      3.5549 |          170 |    0.0010295 |           70 |
|    3 | Best   |      3.2914 |      9.4872 |      3.2914 |      3.2917 |          273 |      0.61026 |            6 |
|    4 | Accept |      6.1839 |      2.9098 |      3.2914 |      3.2915 |           80 |    0.0016871 |            1 |
|    5 | Best   |      3.0379 |     0.83247 |      3.0379 |      3.0384 |           18 |      0.21288 |           31 |
|    6 | Accept |      3.3628 |      0.4622 |      3.0379 |      3.1888 |           10 |      0.17826 |            5 |
|    7 | Best   |      3.0192 |     0.48199 |      3.0192 |      3.0146 |           10 |      0.27711 |           59 |
|    8 | Accept |      4.3171 |     0.47274 |      3.0192 |      3.0194 |           10 |      0.10878 |           97 |
|    9 | Accept |      3.0291 |     0.45342 |      3.0192 |      3.0189 |           10 |      0.64806 |            1 |
|   10 | Accept |      5.7111 |     0.46345 |      3.0192 |      3.0076 |           10 |     0.037859 |            1 |
|   11 | Best   |      2.9323 |      1.6842 |      2.9323 |      2.9272 |           49 |      0.17618 |            1 |
|   12 | Accept |      2.9623 |      0.6281 |      2.9323 |      2.9322 |           15 |      0.42954 |            2 |
|   13 | Best   |      2.8991 |     0.46049 |      2.8991 |      2.8994 |           10 |      0.37123 |            1 |
|   14 | Accept |      2.9228 |      2.0394 |      2.8991 |      2.8992 |           58 |     0.079645 |            1 |
|   15 | Accept |      3.1547 |      1.6303 |      2.8991 |      2.8994 |           46 |      0.98493 |            2 |
|   16 | Accept |      2.9173 |      1.5015 |      2.8991 |      2.8992 |           42 |      0.11747 |            1 |
|   17 | Accept |      2.9391 |     0.53856 |      2.8991 |      2.9008 |           13 |      0.30735 |            1 |
|   18 | Accept |      2.9169 |      1.3937 |      2.8991 |      2.9006 |           41 |      0.38464 |            1 |
|   19 | Accept |      2.9314 |      1.0662 |      2.8991 |      2.9008 |           30 |      0.26653 |            1 |
|   20 | Accept |      2.9107 |       2.574 |      2.8991 |      2.9008 |           74 |       0.4603 |            1 |
|====================================================================================================================|
| Iter | Eval   | Objective:  | Objective   | BestSoFar   | BestSoFar   | NumLearningC-|    LearnRate | MaxNumSplits |
|      | result | log(1+loss) | runtime     | (observed)  | (estim.)    | ycles        |              |              |
|====================================================================================================================|
|   21 | Accept |       3.177 |      16.941 |      2.8991 |      2.9007 |          486 |     0.075726 |           91 |
|   22 | Accept |      2.9119 |      4.1443 |      2.8991 |      2.9007 |          123 |      0.13144 |            1 |
|   23 | Accept |      2.9256 |      4.2553 |      2.8991 |      2.9006 |          130 |     0.056279 |            1 |
|   24 | Accept |      2.9156 |      4.1008 |      2.8991 |      2.9005 |          123 |     0.085232 |            1 |
|   25 | Accept |      3.2233 |      1.8002 |      2.8991 |       2.901 |           46 |      0.42036 |           96 |
|   26 | Accept |      3.0629 |     0.48814 |      2.8991 |      2.9008 |           10 |      0.48771 |           98 |
|   27 | Accept |      3.0637 |      2.7094 |      2.8991 |      2.9009 |           74 |     0.078567 |           88 |
|   28 | Accept |       2.902 |      4.5334 |      2.8991 |      2.9009 |          117 |      0.27895 |            1 |
|   29 | Accept |      2.9975 |      0.5331 |      2.8991 |      2.9135 |           10 |      0.37423 |            3 |
|   30 | Accept |      2.9287 |     0.86351 |      2.8991 |      2.9217 |           17 |      0.28241 |            1 |

Figure contains an axes object. The axes object with title Min objective vs. Number of function evaluations contains 2 objects of type line. These objects represent Min observed objective, Estimated min objective.

__________________________________________________________
Optimization completed.
MaxObjectiveEvaluations of 30 reached.
Total function evaluations: 30
Total elapsed time: 92.7244 seconds
Total objective function evaluation time: 76.7133

Best observed feasible point:
    NumLearningCycles    LearnRate    MaxNumSplits
    _________________    _________    ____________

           10             0.37123          1      

Observed objective function value = 2.8991
Estimated objective function value = 2.934
Function evaluation time = 0.46049

Best estimated feasible point (according to models):
    NumLearningCycles    LearnRate    MaxNumSplits
    _________________    _________    ____________

           13             0.30735          1      

Estimated objective function value = 2.9217
Estimated function evaluation time = 0.58143
mdl = 
  RegressionEnsemble
                       PredictorNames: {1x4 cell}
                         ResponseName: 'MPG'
                CategoricalPredictors: []
                    ResponseTransform: 'none'
                      NumObservations: 94
    HyperparameterOptimizationResults: [1x1 BayesianOptimization]
                           NumTrained: 13
                               Method: 'LSBoost'
                         LearnerNames: {'Tree'}
                 ReasonForTermination: 'Terminated normally after completing the requested number of training cycles.'
                              FitInfo: [13x1 double]
                   FitInfoDescription: {2x1 cell}
                       Regularization: []


  Properties, Methods

Загрузите carsmall набор данных. Рассмотрите модель, которая предсказывает среднюю экономию топлива автомобиля, учитывая его ускорение, количество цилиндров, объема двигателя, лошадиной силы, производителя, модельный год и вес. Рассмотрите Cylinders, Mfg, и Model_Year как категориальные переменные.

load carsmall
Cylinders = categorical(Cylinders);
Mfg = categorical(cellstr(Mfg));
Model_Year = categorical(Model_Year);
X = table(Acceleration,Cylinders,Displacement,Horsepower,Mfg,...
    Model_Year,Weight,MPG);

Отобразите количество категорий, представленных в категориальных переменных.

numCylinders = numel(categories(Cylinders))
numCylinders = 3
numMfg = numel(categories(Mfg))
numMfg = 28
numModelYear = numel(categories(Model_Year))
numModelYear = 3

Поскольку существует 3 категории только в Cylinders и Model_Year, стандартный CART, разделяющий предиктор алгоритм предпочитает разделять непрерывный предиктор по этим двум переменным.

Обучите случайный лес 500 деревьев регрессии с помощью целого набора данных. Чтобы вырастить несмещенные деревья, задайте использование теста искривления для разделения предикторов. Поскольку существуют отсутствующие значения в данных, задают использование суррогатных разделений. Чтобы воспроизвести случайные выборы предиктора, установите seed генератора случайных чисел при помощи rng и задайте 'Reproducible',true.

rng('default'); % For reproducibility
t = templateTree('PredictorSelection','curvature','Surrogate','on', ...
    'Reproducible',true); % For reproducibility of random predictor selections
Mdl = fitrensemble(X,'MPG','Method','bag','NumLearningCycles',500, ...
    'Learners',t);

Оцените меры по важности предиктора путем перестановки наблюдений из сумки. Выполните вычисления параллельно.

options = statset('UseParallel',true);
imp = oobPermutedPredictorImportance(Mdl,'Options',options);
Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 6).

Сравните оценки с помощью столбчатого графика.

figure;
bar(imp);
title('Out-of-Bag Permuted Predictor Importance Estimates');
ylabel('Estimates');
xlabel('Predictors');
h = gca;
h.XTickLabel = Mdl.PredictorNames;
h.XTickLabelRotation = 45;
h.TickLabelInterpreter = 'none';

В этом случае, Model_Year самый важный предиктор, сопровождаемый Cylinders. Сравните эти результаты с результатами в Оценочной Важности Предикторов.

Создайте шаблон ансамбля для использования в fitcecoc.

Загрузите набор данных аритмии.

load arrhythmia
tabulate(categorical(Y));
  Value    Count   Percent
      1      245     54.20%
      2       44      9.73%
      3       15      3.32%
      4       15      3.32%
      5       13      2.88%
      6       25      5.53%
      7        3      0.66%
      8        2      0.44%
      9        9      1.99%
     10       50     11.06%
     14        4      0.88%
     15        5      1.11%
     16       22      4.87%
rng(1); % For reproducibility

Некоторые классы имеют маленькие относительные частоты в данных.

Создайте шаблон для ансамбля AdaBoostM1 деревьев классификации и задайте, чтобы использовать 100 учеников и уменьшение 0,1. По умолчанию повышение выращивает пни (i.e., один узел, имеющий набор листов). С тех пор существуют классы с маленькими частотами, деревья должны быть достаточно покрытыми листвой, чтобы быть чувствительными к классам меньшинства. Задайте минимальное количество наблюдений вершины к 3.

tTree = templateTree('MinLeafSize',20);
t = templateEnsemble('AdaBoostM1',100,tTree,'LearnRate',0.1);

Все свойства объектов шаблона пусты за исключением Method и Type, и соответствующие свойства значений аргумента пары "имя-значение" в вызовах функции. Когда вы передаете t к учебной функции программное обеспечение заполняет пустые свойства с их соответствующими значениями по умолчанию.

Задайте t как бинарный ученик для модели мультикласса ECOC. Обучите использование значения по умолчанию, один по сравнению с одним кодирующего проект.

Mdl = fitcecoc(X,Y,'Learners',t);
  • Mdl ClassificationECOC модель мультикласса.

  • Mdl.BinaryLearners 78 1 массив ячеек CompactClassificationEnsemble модели.

  • Mdl.BinaryLearners{j}.Trained 100 1 массив ячеек CompactClassificationTree модели, для j = 1,...,78.

Можно проверить, что один из бинарных учеников содержит слабого ученика, который не является пнем при помощи view.

view(Mdl.BinaryLearners{1}.Trained{1},'Mode','graph')

Figure Classification tree viewer contains an axes object and other objects of type uimenu, uicontrol. The axes object contains 21 objects of type line, text.

Отобразите в выборке (перезамена) misclassification ошибка.

L = resubLoss(Mdl,'LossFun','classiferror')
L = 0.0819

Входные параметры

свернуть все

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Surrogate','on','NumVariablesToSample','all' задает шаблон с суррогатными разделениями и использует все доступные предикторы в каждом разделении.
Для деревьев классификации и деревьев регрессии

свернуть все

Максимальное количество разделений решения (или узлы ветви) на дерево в виде разделенной запятой пары, состоящей из 'MaxNumSplits' и положительное целое число. templateTree разделения MaxNumSplits или меньше узлов ветви. Для получения дополнительной информации о разделяющем поведении см. Алгоритмы.

Для сложенных в мешок деревьев решений и двоичных учеников дерева решений в моделях ECOC, значением по умолчанию является n – 1, где n является количеством наблюдений в обучающей выборке. Для повышенных деревьев решений значением по умолчанию является 10.

Пример: 'MaxNumSplits',5

Типы данных: single | double

Листовое слияние отмечает в виде разделенной запятой пары, состоящей из 'MergeLeaves' и любой 'on' или 'off'.

Когда 'on', дерево решений объединяет листы, которые происходят из того же родительского узла, и которые предоставляют сумму значений риска, больше или равных риску, сопоставленному с родительским узлом. Когда 'off', дерево решений не объединяет листы.

Для ускоренных и упакованных деревьев решений значениями по умолчанию является 'off'. Для двоичных учеников дерева решений в моделях ECOC значением по умолчанию является 'on'.

Пример: 'MergeLeaves','on'

Минимальные наблюдения на лист в виде разделенной запятой пары, состоящей из 'MinLeafSize' и положительное целочисленное значение. Каждый лист имеет, по крайней мере, MinLeafSize наблюдения на древовидный лист. Если вы предоставляете оба MinParentSize и MinLeafSize, дерево решений использует установку, которая дает большие листы: MinParentSize = max(MinParentSize,2*MinLeafSize).

Для ускоренных и упакованных деревьев решений значениями по умолчанию является 1 для классификации и 5 для регрессии. Для двоичных учеников дерева решений в моделях ECOC значением по умолчанию является 1.

Пример: 'MinLeafSize',2

Минимальные наблюдения на узел ветви в виде разделенной запятой пары, состоящей из 'MinParentSize' и положительное целочисленное значение. Каждый узел ветви в дереве имеет, по крайней мере, MinParentSize наблюдения. Если вы предоставляете оба MinParentSize и MinLeafSize, дерево решений использует установку, которая дает большие листы: MinParentSize = max(MinParentSize,2*MinLeafSize).

  • Если вы задаете MinLeafSize, затем значение по умолчанию для 'MinParentSize' 10.

  • Если вы не задаете MinLeafSize, затем значение по умолчанию изменяется в зависимости от учебной модели. Для ускоренных и упакованных деревьев решений значением по умолчанию является 2 для классификации и 10 для регрессии. Для двоичных учеников дерева решений в моделях ECOC значением по умолчанию является 10.

Пример: 'MinParentSize',4

Количество предикторов, чтобы выбрать наугад для каждого разделения в виде разделенной запятой пары, состоящей из 'NumVariablesToSample' и положительное целочисленное значение. В качестве альтернативы можно задать 'all' использовать все доступные предикторы.

Если обучающие данные включают много предикторов, и вы хотите анализировать важность предиктора, затем задать 'NumVariablesToSample' как 'all'. В противном случае программное обеспечение не может выбрать некоторые предикторы, недооценив их важность.

Чтобы воспроизвести случайные выборы, необходимо установить seed генератора случайных чисел при помощи rng и задайте 'Reproducible',true.

Для повышенных деревьев решений и двоичных учеников дерева решений в моделях ECOC, значением по умолчанию является 'all'. Значением по умолчанию для сложенных в мешок деревьев решений является квадратный корень из количества предикторов для классификации или одной трети количества предикторов для регрессии.

Пример: 'NumVariablesToSample',3

Типы данных: single | double | char | string

Алгоритм раньше выбирал лучший предиктор разделения в каждом узле в виде разделенной запятой пары, состоящей из 'PredictorSelection' и значение в этой таблице.

ЗначениеОписание
'allsplits'

Стандартный CART — Выбирает предиктор разделения, который максимизирует усиление критерия разделения по всем возможным разделениям всех предикторов [1].

'curvature'Тест искривления — Выбирает предиктор разделения, который минимизирует p - значение тестов хи-квадрата независимости между каждым предиктором и ответом [3][4]. Учебная скорость похожа на стандартный CART.
'interaction-curvature'Тест взаимодействия — Выбирает предиктор разделения, который минимизирует p - значение тестов хи-квадрата независимости между каждым предиктором и ответом, и это минимизирует p - значение теста хи-квадрата независимости между каждой парой предикторов и ответом [3]. Учебная скорость может быть медленнее, чем стандартный CART.

Для 'curvature' и 'interaction-curvature', если все тесты дают к p - значения, больше, чем 0,05, то MATLAB® остановки, разделяющие узлы.

Совет

  • Искривление и тесты взаимодействия не рекомендуются для повышения деревьев решений. Чтобы обучить ансамбль повышенных деревьев, который имеет большую точность, используйте стандартный CART вместо этого.

  • Стандартный CART имеет тенденцию выбирать предикторы разделения, содержащие много отличных значений, e.g., непрерывные переменные, по тем, которые содержат немного отличных значений, e.g., категориальные переменные [4]. Если набор данных предиктора неоднороден, или если существуют предикторы, которые имеют относительно меньше отличных значений, чем другие переменные, то рассматривают определение тест взаимодействия или искривление.

    • Если существуют предикторы, которые имеют относительно меньше отличных значений, чем другие предикторы, например, если набор данных предиктора неоднороден.

    • Если анализ важности предиктора является вашей целью. Для больше на оценке важности предиктора, смотрите oobPermutedPredictorImportance для проблем классификации, oobPermutedPredictorImportance для проблем регрессии и Введения в Выбор признаков.

  • Деревья, выращенные с помощью стандартного CART, не чувствительны к взаимодействиям переменного предиктора. Кроме того, такие деревья, менее вероятно, идентифицируют важные переменные в присутствии многих несоответствующих предикторов, чем приложение теста взаимодействия. Поэтому с учетом взаимодействий предиктора и идентифицируют переменные важности в присутствии многих несоответствующих переменных, задают тест взаимодействия [3].

  • Скорость предсказания незатронута значением 'PredictorSelection'.

Для получения дополнительной информации, на как templateTree выбирает предикторы разделения, см. Правила Расщепления узлов (классификация), Правила Расщепления узлов (регрессия), и Выберите Split Predictor Selection Technique.

Пример: 'PredictorSelection','curvature'

Отметьте, чтобы оценить оптимальную последовательность сокращенных поддеревьев в виде разделенной запятой пары, состоящей из 'Prune' и 'on' или 'off'.

Если Prune 'on', затем программное обеспечение обучает учеников дерева классификации, не сокращая их, но оценивает оптимальную последовательность сокращенных поддеревьев для каждого ученика в ансамбле или двоичного ученика дерева решений в моделях ECOC. В противном случае программное обеспечение обучает учеников дерева классификации, не оценивая оптимальную последовательность сокращенных поддеревьев.

Для ускоренных и упакованных деревьев решений значением по умолчанию является 'off'.

Для двоичных учеников дерева решений в моделях ECOC значением по умолчанию является 'on'.

Пример: 'Prune','on'

Сокращение критерия в виде разделенной запятой пары, состоящей из 'PruneCriterion' и критерий сокращения, допустимый для древовидного типа.

  • Для деревьев классификации можно задать 'error' (значение по умолчанию) или 'impurity'. Если вы задаете 'impurity'то templateTree использует примесную меру, заданную 'SplitCriterion' аргумент пары "имя-значение".

  • Для деревьев регрессии можно задать только 'mse'(значение по умолчанию).

Пример: 'PruneCriterion','impurity'

Отметьте, чтобы осуществить воспроизводимость по повторным запускам обучения модель в виде разделенной запятой пары, состоящей из 'Reproducible' и любой false или true.

Если 'NumVariablesToSample' не 'all', затем программное обеспечение выбирает предикторы наугад для каждого разделения. Чтобы воспроизвести случайные выборы, необходимо задать 'Reproducible',true и набор seed генератора случайных чисел при помощи rng. Обратите внимание на то, что установка 'Reproducible' к true может замедлить обучение.

Пример: 'Reproducible',true

Типы данных: логический

Разделите критерий в виде разделенной запятой пары, состоящей из 'SplitCriterion' и критерий разделения, допустимый для древовидного типа.

  • Для деревьев классификации:

    • 'gdi' для индекса разнообразия Джини (значение по умолчанию)

    • 'twoing' для правила twoing

    • 'deviance' для максимального сокращения отклонения (также известный как перекрестную энтропию)

  • Для деревьев регрессии:

    • 'mse' для среднеквадратической ошибки (значение по умолчанию)

Пример: 'SplitCriterion','deviance'

Суррогатное решение разделяет флаг в виде разделенной запятой пары, состоящей из 'Surrogate' и один из 'off'onвсе, или положительное целочисленное значение.

  • Когда 'off', дерево решений не находит суррогатные разделения в узлах ветви.

  • Когда 'on', дерево решений находит самое большее 10 суррогатных разделений в каждом узле ветви.

  • Когда установлено в 'all', дерево решений находит все суррогатные разделения в каждом узле ветви. 'all' установка может использовать продолжительное время и память.

  • Когда установлено в положительное целочисленное значение, дерево решений находит самое большее конкретное количество суррогатных разделений в каждом узле ветви.

Используйте суррогатные разделения, чтобы улучшить точность предсказаний для данных с отсутствующими значениями. Эта установка также позволяет вам вычислить меры прогнозирующей ассоциации между предикторами.

Пример: 'Surrogate','on'

Типы данных: single | double | char | string

Тип дерева решений в виде значения в таблице

ЗначениеОписание
'classification'Вырастите учеников дерева классификации. Подходящие функции fitcensemble и fitcecoc установите это значение, когда вы передадите t им.
'regression'Вырастите учеников дерева регрессии. Подходящая функция fitrensemble устанавливает это значение, когда вы передаете t к нему.

Совет

Несмотря на то, что t выводит Type от подходящей функции, до которой это предоставляется, происходит следующее, когда вы устанавливаете Type:

  • Отображение t показывает все варианты. Каждая незаданная опция является пустым массивом [].

  • templateTree проверяет технические требования на наличие ошибок.

Пример: 'Type','classification'

Типы данных: char | string

Для деревьев классификации только

свернуть все

Алгоритм, чтобы найти лучшее разделение на категориальном предикторе для данных с категориями C для данных и K ≥ 3 классами в виде разделенной запятой пары, состоящей из 'AlgorithmForCategorical' и одно из следующих.

ЗначениеОписание
'Exact'Рассмотрите все 2C–1 – 1 комбинация.
'PullLeft'Начните со всех категорий C на правильной ветви. Рассмотрите перемещение каждой категории к левой ветви, когда это достигает минимальной примеси для классов K среди остающихся категорий. От этой последовательности выберите разделение, которое имеет самую низкую примесь.
'PCA'Вычислите счет к каждой категории с помощью скалярного произведения между первым основным компонентом взвешенной ковариационной матрицы (матрицы вероятности класса в центре) и вектором из вероятностей класса для той категории. Сортировка баллов в порядке возрастания, и рассматривает весь C — 1 разделение.
'OVAbyClass'Начните со всех категорий C на правильной ветви. Для каждого класса закажите категории на основе их вероятности для того класса. Для первого класса рассмотрите перемещение каждой категории к левой ветви в порядке, записав примесный критерий при каждом перемещении. Повторитесь для остающихся классов. От этой последовательности выберите разделение, которое имеет минимальную примесь.

Программное обеспечение выбирает оптимальное подмножество алгоритмов для каждого разделения с помощью известного количества классов и уровней категориального предиктора. Для двух классов это всегда выполняет точный поиск. Используйте 'AlgorithmForCategorical' аргумент пары "имя-значение", чтобы задать конкретный алгоритм.

Для получения дополнительной информации смотрите Разделяющие Категориальные Предикторы в Деревьях Классификации.

Пример: 'AlgorithmForCategorical','PCA'

Максимальные уровни категории в узле разделения в виде разделенной запятой пары, состоящей из 'MaxNumCategories' и неотрицательное скалярное значение. Дерево классификации разделяет категориальный предиктор с помощью точного алгоритма поиска, если предиктор имеет в большей части MaxNumCategories уровни в узле разделения. В противном случае это находит лучшее категориальное разделение с помощью одного из неточных алгоритмов. Обратите внимание на то, что передача маленького значения может увеличить перегрузка памяти и время вычисления.

Пример: 'MaxNumCategories',8

Для деревьев регрессии только

свернуть все

Квадратичный ошибочный допуск на узел в виде разделенной запятой пары, состоящей из 'QuadraticErrorTolerance' и значение положительной скалярной величины. Дерево регрессии прекращает разделять узлы, когда квадратичная невязка взвешенного среднего на узел опускается ниже QuadraticErrorTolerance*ε, где ε квадратичная невязка взвешенного среднего всех ответов n, вычисленных прежде, чем вырастить дерево решений.

ε=i=1nwi(yiy¯)2.

wi является весом наблюдения i, учитывая, что веса всех наблюдений суммируют к одному (i=1nwi=1), и

y¯=i=1nwiyi

взвешенное среднее всех ответов.

Пример: 'QuadraticErrorTolerance',1e-4

Выходные аргументы

свернуть все

Шаблон дерева решений для классификации или регрессии, подходящей для обучения ансамбль (ускоренные и упакованные деревья решений) или модель мультикласса выходного кода с коррекцией ошибок (ECOC), возвращенная как объект шаблона. Передайте t к fitcensemble, или fitrensemble, или fitcecoc задавать, как создать дерево решений для ансамбля классификации, ансамбля регрессии или модели ECOC, соответственно.

Если вы отображаете t в Командном окне затем все незаданные опции кажутся пустыми ([]). Однако программное обеспечение заменяет пустые опции на их соответствующие значения по умолчанию во время обучения.

Алгоритмы

  • Вмещать MaxNumSplits, программное обеспечение разделяет все узлы в текущем layer, и затем считает количество узлов ветви. Слой является набором узлов, которые являются равноотстоящими от корневого узла. Если количество узлов ветви превышает MaxNumSplits, затем программное обеспечение выполняет эту процедуру.

    1. Определите, сколько узлов ветви в текущем слое должно быть не разделено так, чтобы было бы в большей части MaxNumSplits узлы ветви.

    2. Сортировка узлов ветви их примесными усилениями.

    3. Неразделенный желаемое количество наименее успешных ветвей.

    4. Возвратите дерево решений, выращенное до сих пор.

    Эта процедура стремится производить максимально сбалансированные деревья.

  • Слой узлов ветви разделений программного обеспечения слоем до по крайней мере одного из этих событий происходит.

    • Существует MaxNumSplits + 1 узел ветви.

    • Предложенное разделение заставляет количество наблюдений по крайней мере в одном узле ветви быть меньше, чем MinParentSize.

    • Предложенное разделение заставляет количество наблюдений по крайней мере в одной вершине быть меньше, чем MinLeafSize.

    • Алгоритм не может найти хорошее разделение на слое (т.е. критерий сокращения (см. PruneCriterion), не улучшается для всех предложенных разделений в слое). Особый случай этого события - когда все узлы чисты (i.e., все наблюдения в узле имеют тот же класс).

    • Для значений 'curvature' или 'interaction-curvature' из PredictorSelection, все тесты дают к p - значения, больше, чем 0,05.

    MaxNumSplits и MinLeafSize не влияйте на разделение в их значениях по умолчанию. Поэтому, если вы устанавливаете 'MaxNumSplits', затем разделение может остановиться из-за значения MinParentSize перед MaxNumSplits разделения происходят.

  • Для получения дополнительной информации при выборе предикторов разделения и алгоритмов расщепления узлов при росте деревьев решений, см. Алгоритмы для деревьев классификации и Алгоритмы для деревьев регрессии.

Ссылки

[1] Бреимен, L., Дж. Фридман, Р. Олшен и К. Стоун. Классификация и деревья регрессии. Бока-Ратон, FL: нажатие CRC, 1984.

[2] Котельщик, Д., С. Цз. Хун и Дж. Р. М. Хоскинг. “Деля Номинальные Атрибуты в Деревьях решений”. Анализ данных и Открытие Знаний, Издание 3, 1999, стр 197–217.

[3] Loh, W.Y. “Деревья регрессии с Несмещенным Обнаружением Выбора переменной и Взаимодействия”. Statistica Sinica, Издание 12, 2002, стр 361–386.

[4] Loh, В.И. и И.С. Ши. “Разделите Методы выбора для Деревьев Классификации”. Statistica Sinica, Издание 7, 1997, стр 815–840.

Введенный в R2014a