predictorImportance

Оценки предикторной важности для регрессионого ансамбля

Синтаксис

imp = predictorImportance(ens)
[imp,ma] = predictorImportance(ens)

Описание

imp = predictorImportance(ens) вычисляет оценки предикторной важности для ens путем суммирования этих оценок по всем слабым ученикам ансамбля. imp имеет один элемент для каждого входного предиктора в данных, используемых для обучения этого ансамбля. Высокое значение указывает, что этот предиктор важен для ens.

[imp,ma] = predictorImportance(ens) возвращает P-by- P матрица с прогнозирующими показателями ассоциации для P предикторы.

Входные параметры

ens

Регрессионный ансамбль, созданный fitrensemble, или по compact способ.

Выходные аргументы

imp

A вектора-строки с таким же количеством элементов, как и количество предикторов (столбцов) в ens.X. Записи являются оценками предикторной важности с 0 представляющих наименьшую возможную важность.

ma

A P-by- P матрица прогнозирующих мер ассоциации для P предикторы. Элементный ma(I,J) - прогнозирующая мера ассоциации, усредненная по суррогатным расщеплениям на предикторе J для какого предиктора I является оптимальным предиктором разделения. predictorImportance усредняет эту прогнозирующую меру ассоциации по всем деревьям ансамбля.

Примеры

расширить все

Оцените важность предиктора для всех переменных предиктора в данных.

Загрузите carsmall набор данных.

load carsmall

Вырастите ансамбль из 100 регрессионых деревьев для MPG использование Acceleration, Cylinders, Displacement, Horsepower, Model_Year, и Weight как предикторы. Задайте древовидные пни как слабые ученики.

X = [Acceleration Cylinders Displacement Horsepower Model_Year Weight];
t = templateTree('MaxNumSplits',1);
ens = fitrensemble(X,MPG,'Method','LSBoost','Learners',t);

Оцените важность предиктора для всех переменных предиктора.

imp = predictorImportance(ens)
imp = 1×6

    0.0150         0    0.0066    0.1111    0.0437    0.5181

Weight, последний предиктор, оказывает наибольшее влияние на пробег. Второй предиктор имеет важность 0, что означает, что количество цилиндров не влияет на предсказания, сделанные с ens.

Оцените важность предиктора для всех переменных в данных и там, где ансамбль регрессионого дерева содержит суррогатные расщепления.

Загрузите carsmall набор данных.

load carsmall

Вырастите ансамбль из 100 регрессионых деревьев для MPG использование Acceleration, Cylinders, Displacement, Horsepower, Model_Year, и Weight как предикторы. Задайте древовидные пни как слабые ученики, а также идентифицируйте суррогатные расщепления.

X = [Acceleration Cylinders Displacement Horsepower Model_Year Weight];
t = templateTree('MaxNumSplits',1,'Surrogate','on');
ens = fitrensemble(X,MPG,'Method','LSBoost','Learners',t);

Оцените важность предиктора и прогнозирующие меры ассоциации для всех переменных предиктора.

[imp,ma] = predictorImportance(ens)
imp = 1×6

    0.2141    0.3798    0.4369    0.6498    0.3728    0.5700

ma = 6×6

    1.0000    0.0098    0.0102    0.0098    0.0033    0.0067
         0    1.0000         0         0         0         0
    0.0056    0.0084    1.0000    0.0078    0.0022    0.0084
    0.3537    0.4769    0.5834    1.0000    0.1612    0.5827
    0.0061    0.0070    0.0063    0.0064    1.0000    0.0056
    0.0154    0.0296    0.0533    0.0447    0.0070    1.0000

Сравнение imp к результатам оценки значения предиктора, Horsepower оказывает наибольшее влияние на пробег, с Weight оказывая второе наибольшее влияние.

Подробнее о

расширить все

Алгоритмы

Элементный ma(i,j) - прогнозирующая мера ассоциации, усредненная по суррогатным расщеплениям на предикторе j для какого предиктора i является оптимальным предиктором разделения. Это среднее значение вычисляется путем суммирования положительных значений прогнозирующей меры ассоциации над оптимальными делениями на предикторе i и суррогатные разделения на предикторы j и деление на общее количество оптимальных разбиений на предикторы i, включая разделения, для которых прогнозирующая мера ассоциации между предикторами i и j отрицательно.