predictorImportance вычисляет показатели важности предикторов в дереве путем суммирования изменений в узловом риске из-за расщеплений на каждом предикторе, а затем деления суммы на общее количество узлов ветвления. Изменение риска узла представляет собой разницу между риском для родительского узла и общим риском для двух нижестоящих элементов. Например, если дерево разбивает родительский узел (например, узел 1) на два дочерних узла (например, узлы 2 и 3), то predictorImportance повышает важность расщепленного предиктора на
где Ri - риск узла i, а Nbranch - общее число узлов ветви. Риск узла определяется как ошибка узла, взвешенная по вероятности узла:
где Pi - вероятность узла для узла i, а Ei - среднеквадратичная ошибка узла i.
Оценки важности предиктора зависят от того, используете ли вы суррогатные расщепления для обучения.
Если вы используете суррогатные разделения, predictorImportance суммирует изменения в риске узла по всем разделениям в каждом узле ветви, включая суррогатные разделения. Если суррогатные разделения не используются, то функция принимает сумму над лучшими разделениями, найденными в каждом узле ветви.
Оценки важности предиктора не зависят от порядка предикторов, если вы используете суррогатные расщепления, но зависят от порядка, если вы не используете суррогатные расщепления.
Если вы используете суррогатные разделения, predictorImportance вычисляет оценки до сокращения дерева путем обрезки (или слияния листьев). Если суррогатное разделение не используется, predictorImportance вычисляет оценки после уменьшения дерева путем обрезки. Поэтому обрезка влияет на важность предиктора для дерева, выращенного без суррогатных расщеплений, и не влияет на важность предиктора для дерева, выращенного с суррогатными расщеплениями.