Для деревьев score классификации узла листа является апостериорной вероятностью классификации в этом узле. Апостериорная вероятность классификации в узле - это количество обучающих последовательностей, которые ведут к этому узлу с классификацией, разделенной на количество обучающих последовательностей, которые ведут к этому узлу.
Например, рассмотрите классификацию предиктора X как true когда X < 0.15 или X > 0.95, и X в противном случае ложь.
Сгенерируйте 100 случайных точек и классифицируйте их:
Обрезать дерево:
Обрезанное дерево правильно классифицирует наблюдения, которые меньше 0,15, как true. Он также правильно классифицирует наблюдения от .15 до .94 как false. Однако он неправильно классифицирует наблюдения, которые больше 94, как false. Поэтому счет для наблюдений, которые больше 15, должны быть около .05/.85 = .06 для trueи примерно .8/.85 = .94 для false.
Вычислите счета предсказания для первых 10 строк X:
ans = 10×3
0.9059 0.0941 0.8147
0.9059 0.0941 0.9058
0 1.0000 0.1270
0.9059 0.0941 0.9134
0.9059 0.0941 0.6324
0 1.0000 0.0975
0.9059 0.0941 0.2785
0.9059 0.0941 0.5469
0.9059 0.0941 0.9575
0.9059 0.0941 0.9649
Действительно, каждое значение X (самый правый столбец), который меньше 0,15 имеет связанные счета (левый и центральный столбцы) 0 и 1, в то время как другие значения X имеют сопоставленные счета 0.91 и 0.09. The различия (счет 0.09 вместо ожидаемого .06) обусловлено статистическим колебанием: существуют 8 наблюдения в X в области значений (.95,1) вместо ожидаемого 5 наблюдения.