predictorImportance
вычисляет значения предикторов в дереве путем суммирования изменений в риске узла из-за разбиения на каждый предиктор, а затем деления суммы на общее количество узлов ветви. Изменение риска узла является различием между риском для родительского узла и общим риском для двух дочерних элементов. Для примера, если дерево разделяет родительский узел (для примера, узел 1) на два дочерних узла (для примера, узлов 2 и 3), то predictorImportance
увеличивает важность разделения предиктора на
(R1 - R2 - R3 )/ N ветвь,
где Ri - риск узла i, а N ветвь - общее количество узлов филиала. node risk определяется как ошибка узла, взвешенная вероятностью узла:
Ri = <reservedrangesplaceholder1> <reservedrangesplaceholder0>,
где Pi - вероятность узла для i, а Ei - средняя квадратичная невязка узла i.
Оценки предикторной важности зависят от того, используете ли вы суррогатные расщепления для обучения.
Если вы используете суррогатные расщепления, predictorImportance
суммирует изменения риска узла по всем разделениям в каждом узле ветви, включая суррогатные разделения. Если вы не используете суррогатные разделения, то функция принимает сумму над лучшими разделениями, найденными в каждом узле ветви.
Оценки предикторной важности не зависят от порядка предикторов, если вы используете суррогатные расщепления, но зависят от порядка, если вы не используете суррогатные расщепления.
Если вы используете суррогатные расщепления, predictorImportance
вычисляет оценки до уменьшения дерева путем обрезки (или слияния листьев). Если вы не используете суррогатные расщепления, predictorImportance
вычисляет оценки после уменьшения дерева путем обрезки. Поэтому обрезка влияет на предикторную важность для дерева, выращенного без суррогатных расщеплений, и не влияет на предикторную важность для дерева, выращенного с суррогатными расщеплениями.