predictorImportance
вычисляет меры по важности предикторов в дереве путем подведения итогов изменений в риске узла из-за разделений на каждом предикторе и затем деления суммы общим количеством узлов ветви. Изменение в риске узла является различием между риском для родительского узла и общим риском для двух дочерних элементов. Например, если дерево разделяет родительский узел (например, узел 1) в два дочерних узла (например, узлы 2 и 3), то predictorImportance
увеличивает важность предиктора разделения
где Ri является риском узла узла i, и ветвь N является общим количеством узлов ветви. node risk задан как ошибка узла, взвешенная вероятностью узла:
где Pi является вероятностью узла узла i, и Ei является среднеквадратической ошибкой узла i.
Оценки важности предиктора зависят от того, используете ли вы суррогатные разделения для обучения.
Если вы используете суррогатные разделения, predictorImportance
суммирует изменения в риске узла по всем разделениям в каждом узле ветви, включая суррогатные разделения. Если вы не используете суррогатные разделения, то функция берет сумму по лучшим разделениям, найденным в каждом узле ветви.
Оценки важности предиктора не зависят от порядка предикторов, если вы используете суррогатные разделения, но действительно зависите от порядка, если вы не используете суррогатные разделения.
Если вы используете суррогатные разделения, predictorImportance
вычисляет оценки, прежде чем дерево будет уменьшаться путем сокращения (или слияния листов). Если вы не используете суррогатные разделения, predictorImportance
вычисляет оценки после того, как дерево будет уменьшаться путем сокращения. Поэтому сокращение влияет на важность предиктора для дерева, выращенного без суррогатных разделений, и не влияет на важность предиктора для дерева, выращенного с суррогатными разделениями.