oobPermutedPredictorImportance

Оценки важности предиктора путем сочетания наблюдений предиктора вне мешка для случайного леса деревьев регрессии

Синтаксис

Imp = oobPermutedPredictorImportance(Mdl)

Imp = oobPermutedPredictorImportance(Mdl,Name,Value)

Описание

Imp = oobPermutedPredictorImportance(Mdl) возвращает вектор out-of-bag, предикторных оценок важности путем сочетания с помощью случайного леса деревьев регрессии Mdl. Mdl должен быть RegressionBaggedEnsemble объект модели.

пример

Imp = oobPermutedPredictorImportance(Mdl,Name,Value) использует дополнительные опции, заданные одним или несколькими Name,Value аргументы в виде пар. Например, можно ускорить расчет с помощью параллельных вычислений или указать, какие деревья использовать в оценке важности предиктора.

Входные параметры

расширить все

`Mdl` - Случайный лес регрессионных деревьев
`RegressionBaggedEnsemble` объект модели

Случайный лес регрессионных деревьев, заданный как RegressionBaggedEnsemble объект модели, созданный fitrensemble.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

`'Learners'` - Индексы учащихся для использования в оценке предикторной важности
`1:Mdl.NumTrained` (по умолчанию) | числовой вектор положительных целых чисел

Индексы учащихся для использования в оценке важности предиктора, заданные как разделенная разделенными запятой парами, состоящая из 'Learners' и числовой вектор положительных целых чисел. Значения должны быть не более Mdl.NumTrained. Когда oobPermutedPredictorImportance оценивает важность предиктора, он включает учащихся в Mdl.Trained (learners) только, где learners - значение 'Learners'.

Пример: 'Learners',[1:2:Mdl.NumTrained]

`'Options'` - Опции параллельных вычислений
`[]` (по умолчанию) | массив структур, возвращенный `statset`

Опции параллельных вычислений, заданные как разделенная разделенными запятой парами, состоящая из 'Options' и массив структур, возвращенный statset. 'Options' требуется лицензия Parallel Computing Toolbox™.

oobPermutedPredictorImportance использует 'UseParallel' только поле. statset('UseParallel',true) вызывает пул рабочих.

Пример: 'Options',statset('UseParallel',true)

Выходные аргументы

расширить все

`Imp` - Вне мешка, предикторные оценки важности путем сочетания
числовой вектор

Out-of-bag, предиктор важности оценивает путем сочетания, возвращается как 1-байтовый p числовой вектор. p - количество переменных предиктора в обучающих данных (size(Mdl.X,2)). Имп (j) - предикторная важность предиктора Mdl.PredictorNames (j).

Примеры

расширить все

Оценка важности предикторов

Открыть Live Script

Загрузите carsmall набор данных. Рассмотрим модель, которая предсказывает среднюю экономию топлива автомобиля, учитывая его ускорение, количество цилиндров, объем двигателя, мощность, производитель, год модели и вес. Рассмотрим Cylinders, Mfg, и Model_Year как категориальные переменные.

load carsmall
Cylinders = categorical(Cylinders);
Mfg = categorical(cellstr(Mfg));
Model_Year = categorical(Model_Year);
X = table(Acceleration,Cylinders,Displacement,Horsepower,Mfg,...
    Model_Year,Weight,MPG);

Вы можете обучить случайный лес из 500 регрессионых деревьев, используя весь набор данных.

Mdl = fitrensemble(X,'MPG','Method','Bag','NumLearningCycles',500);

fitrensemble использует древовидный объект шаблона по умолчанию templateTree() как слабый ученик, когда 'Method' является 'Bag'. В этом примере для воспроизводимости задайте 'Reproducible',true когда вы создаете объект шаблона дерева, а затем используете объект как слабого ученика.

rng('default') % For reproducibility
t = templateTree('Reproducible',true); % For reproducibiliy of random predictor selections
Mdl = fitrensemble(X,'MPG','Method','Bag','NumLearningCycles',500,'Learners',t);

Mdl является RegressionBaggedEnsemble модель.

Оцените измерения важности предиктора путем перестановки наблюдений вне мешка. Сравните оценки с помощью гистограммы.

imp = oobPermutedPredictorImportance(Mdl);

figure;
bar(imp);
title('Out-of-Bag Permuted Predictor Importance Estimates');
ylabel('Estimates');
xlabel('Predictors');
h = gca;
h.XTickLabel = Mdl.PredictorNames;
h.XTickLabelRotation = 45;
h.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title Out-of-Bag Permuted Predictor Importance Estimates contains an object of type bar.

imp является вектором 1 на 7 оценок важности предиктора. Большие значения указывают предикторы, которые оказывают большее влияние на предсказания. В этом случае Weight является наиболее важным предиктором, за которым следуют Model_Year.

Объективные оценки важности предиктора с помощью параллельных вычислений

Этот пример использует:

Открыть Live Script

load carsmall
Cylinders = categorical(Cylinders);
Mfg = categorical(cellstr(Mfg));
Model_Year = categorical(Model_Year);
X = table(Acceleration,Cylinders,Displacement,Horsepower,Mfg,...
    Model_Year,Weight,MPG);

Отображение количества категорий, представленных в категориальных переменных.

numCylinders = numel(categories(Cylinders))

numCylinders = 3

numMfg = numel(categories(Mfg))

numMfg = 28

numModelYear = numel(categories(Model_Year))

numModelYear = 3

Потому что существует 3 категории только в Cylinders и Model_Yearстандартный алгоритм разделения предикторов ТЕЛЕЖКА предпочитает разделение непрерывного предиктора над этими двумя переменными.

Обучите случайный лес из 500 регрессионых деревьев, используя весь набор данных. Чтобы вырастить объективные деревья, задайте использование теста кривизны для разделения предикторов. Поскольку в данных отсутствуют значения, задайте использование суррогатных разделений. Чтобы воспроизвести случайные выборки предиктора, установите seed генератора случайных чисел при помощи rng и задайте 'Reproducible',true.

rng('default'); % For reproducibility
t = templateTree('PredictorSelection','curvature','Surrogate','on', ...
    'Reproducible',true); % For reproducibility of random predictor selections
Mdl = fitrensemble(X,'MPG','Method','bag','NumLearningCycles',500, ...
    'Learners',t);

Оцените измерения важности предиктора путем перестановки наблюдений вне мешка. Выполняйте вычисления параллельно.

options = statset('UseParallel',true);
imp = oobPermutedPredictorImportance(Mdl,'Options',options);

Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 6).

Сравните оценки с помощью гистограммы.

figure;
bar(imp);
title('Out-of-Bag Permuted Predictor Importance Estimates');
ylabel('Estimates');
xlabel('Predictors');
h = gca;
h.XTickLabel = Mdl.PredictorNames;
h.XTickLabelRotation = 45;
h.TickLabelInterpreter = 'none';

В этом случае Model_Year является наиболее важным предиктором, за которым следуют Cylinders. Сравните эти результаты с результатами в оценке важности предикторов.

Подробнее о

расширить все

Out-of-Bag, Оценки важности предиктора путем сочетания

Out-of-bag, predictor importance estimates by permutation измерьте, насколько влиятельны переменные предиктора в модели при прогнозировании отклика. Влияние предиктора увеличивается со значением этой меры.

Если предиктор влияет на предсказание, то перестановка его значений должна повлиять на ошибку модели. Если предиктор не является влиятельным, то перестановка его значений должна практически не эффект на ошибку модели.

Следующий процесс описывает оценку значений важности предиктора вне мешка путем сочетания. Предположим, что R является случайным лесом из T учащихся, а p является количеством предикторов в обучающих данных.

Для древовидных t t = 1,..., T:
1. Идентифицируйте внешние наблюдения и индексы переменных предиктора, которые были разделены для роста древовидных t, _st ⊆ {1,..., p}.
2. Оцените _εt ошибки вне сумки.
3. Для каждого _xj переменной предиктора j ∊ _st:
  1. Случайным образом переставьте наблюдения _xj.
  2. Оцените ошибку модели, _εtj, используя несовпадающие наблюдения, содержащие перестановочные значения _xj.
  3. Примите различие _dtj = _εtj - _εt. Переменным предиктора, не разделенным при выращивании древовидных t, приписывается различие 0.
Для каждой переменной предиктора в обучающих данных вычислите среднее значение, ${\bar{d}}_{j}$ и стандартное отклонение, _σj, различий по ученикам, j = 1,..., p.
Предиктор вне мешка важен путем сочетания для _xj, ${\bar{d}}_{j} / σ_{j}$ .

Совет

При выращивании случайного леса используя fitrensemble:

Стандартная ТЕЛЕЖКА имеет тенденцию выбирать разделенные предикторы, содержащие много различных значений, например, непрерывных переменных, по сравнению с теми, которые содержат несколько различных значений, например, категориальные переменные [3]. Если набор данных предиктора неоднороден, или если существуют предикторы, которые имеют относительно меньше различных значений, чем другие переменные, то рассмотрите установку кривизны или теста взаимодействия.
Деревья, выращенные с использованием стандартной ТЕЛЕЖКА, не чувствительны к взаимодействиям переменных предиктора. Кроме того, такие деревья с меньшей вероятностью идентифицируют важные переменные в присутствии многих нерелевантных предикторов, чем применение теста взаимодействия. Поэтому, чтобы принять во внимание взаимодействия предикторов и идентифицировать переменные важности в присутствии многих нерелевантных переменных, задайте тест взаимодействия [2].
Если обучающие данные включают много предикторов, и вы хотите проанализировать важность предиктора, задайте 'NumVariablesToSample' templateTree функционировать как 'all' для древовидных учеников ансамбля. В противном случае программное обеспечение может не выбрать некоторые предикторы, недооценив их важность.

Для получения дополнительной информации см. templateTree и выберите Split Predictor Selection Technique.

Ссылки

[1] Breiman, L., J. Friedman, R. Olshen, and C. Stone. Деревья классификации и регрессии. Бока Ратон, FL: CRC Press, 1984.

[2] Loh, W.Y. «Regression Trees with Unbiased Variable Selection and Interaction Detection». Statistica Sinica, Vol. 12, 2002, pp. 361-386.

[3] Loh, W.Y. and Y.S. Shih. «Разделение методов выбора для деревьев классификации». Statistica Sinica, Vol. 7, 1997, pp. 815-840.

Расширенные возможности

Автоматическая параллельная поддержка
Ускорите код путем автоматического выполнения расчетов параллельно с помощью Parallel Computing Toolbox™.

Чтобы выполнять параллельно, задайте 'Options' аргумент имя-значение в вызове этой функции и установите 'UseParallel' поле структуры опций для true использование statset.

Для примера: 'Options',statset('UseParallel',true)

Для получения дополнительной информации о параллельных вычислениях смотрите Запуск функций MATLAB с автоматической поддержкой параллельных вычислений (Parallel Computing Toolbox).

См. также

fitrensemble | plotPartialDependence | predictorImportance | RegressionBaggedEnsemble

Темы

Введенный в R2016b

Документация

oobPermutedPredictorImportance

Синтаксис

Описание

Входные параметры

`Mdl` - Случайный лес регрессионных деревьев
`RegressionBaggedEnsemble` объект модели

Аргументы в виде пар имя-значение

`'Learners'` - Индексы учащихся для использования в оценке предикторной важности
`1:Mdl.NumTrained` (по умолчанию) | числовой вектор положительных целых чисел

`'Options'` - Опции параллельных вычислений
`[]` (по умолчанию) | массив структур, возвращенный `statset`

Выходные аргументы

`Imp` - Вне мешка, предикторные оценки важности путем сочетания
числовой вектор

Примеры

Оценка важности предикторов

Объективные оценки важности предиктора с помощью параллельных вычислений

Подробнее о

Out-of-Bag, Оценки важности предиктора путем сочетания

Совет

Ссылки

Расширенные возможности

Автоматическая параллельная поддержка
Ускорите код путем автоматического выполнения расчетов параллельно с помощью Parallel Computing Toolbox™.

См. также

Темы

Statistics and Machine Learning Toolbox документация

Поддержка

Документация

oobPermutedPredictorImportance

Синтаксис

Описание

Входные параметры

Mdl - Случайный лес регрессионных деревьев RegressionBaggedEnsemble объект модели

Аргументы в виде пар имя-значение

'Learners' - Индексы учащихся для использования в оценке предикторной важности 1:Mdl.NumTrained (по умолчанию) | числовой вектор положительных целых чисел

'Options' - Опции параллельных вычислений [] (по умолчанию) | массив структур, возвращенный statset

Выходные аргументы

Imp - Вне мешка, предикторные оценки важности путем сочетания числовой вектор

Примеры

Оценка важности предикторов

Объективные оценки важности предиктора с помощью параллельных вычислений

Подробнее о

Out-of-Bag, Оценки важности предиктора путем сочетания

Совет

Ссылки

Расширенные возможности

Автоматическая параллельная поддержка Ускорите код путем автоматического выполнения расчетов параллельно с помощью Parallel Computing Toolbox™.

См. также

Темы

Statistics and Machine Learning Toolbox документация

Поддержка

`Mdl` - Случайный лес регрессионных деревьев
`RegressionBaggedEnsemble` объект модели

`'Learners'` - Индексы учащихся для использования в оценке предикторной важности
`1:Mdl.NumTrained` (по умолчанию) | числовой вектор положительных целых чисел

`'Options'` - Опции параллельных вычислений
`[]` (по умолчанию) | массив структур, возвращенный `statset`

`Imp` - Вне мешка, предикторные оценки важности путем сочетания
числовой вектор

Автоматическая параллельная поддержка
Ускорите код путем автоматического выполнения расчетов параллельно с помощью Parallel Computing Toolbox™.