Для деревьев score классификации узла листа является апостериорной вероятностью классификации в этом узле. Апостериорная вероятность классификации в узле - это количество обучающих последовательностей, которые ведут к этому узлу с классификацией, разделенной на количество обучающих последовательностей, которые ведут к этому узлу.
Например, рассмотрите классификацию предиктора X
как true
когда X
< 0.15
или X
> 0.95
, и X
в противном случае ложь.
Сгенерируйте 100 случайных точек и классифицируйте их:
Обрезать дерево:
Обрезанное дерево правильно классифицирует наблюдения, которые меньше 0,15, как true
. Он также правильно классифицирует наблюдения от .15 до .94 как false
. Однако он неправильно классифицирует наблюдения, которые больше 94, как false
. Поэтому счет для наблюдений, которые больше 15, должны быть около .05/.85 = .06 для true
и примерно .8/.85 = .94 для false
.
Вычислите счета предсказания для первых 10 строк X
:
ans = 10×3
0.9059 0.0941 0.8147
0.9059 0.0941 0.9058
0 1.0000 0.1270
0.9059 0.0941 0.9134
0.9059 0.0941 0.6324
0 1.0000 0.0975
0.9059 0.0941 0.2785
0.9059 0.0941 0.5469
0.9059 0.0941 0.9575
0.9059 0.0941 0.9649
Действительно, каждое значение X
(самый правый столбец), который меньше 0,15 имеет связанные счета (левый и центральный столбцы) 0
и 1
, в то время как другие значения X
имеют сопоставленные счета 0.91
и 0.09
. The различия (счет 0.09
вместо ожидаемого .06
) обусловлено статистическим колебанием: существуют 8
наблюдения в X
в области значений (.95,1)
вместо ожидаемого 5
наблюдения.