Для деревьев оценка классификации листового узла является апостериорной вероятностью классификации в этом узле. Апостериорная вероятность классификации в узле - это число обучающих последовательностей, которые приводят к этому узлу с классификацией, деленное на число обучающих последовательностей, которые приводят к этому узлу.
Например, рассмотрите возможность классификации предиктора X как true когда X < 0.15 или X > 0.95, и X в противном случае имеет значение false.
Создайте 100 случайных точек и классифицируйте их:
Обрезать дерево:
Обрезанное дерево правильно классифицирует наблюдения, которые меньше 0,15 true. Он также правильно классифицирует наблюдения с .15 по .94 как false. Однако он неправильно классифицирует наблюдения, которые превышают 0,94, как false. Поэтому оценка для наблюдений, которые превышают 0,15, должна быть около 0,05/.85 = 0,06 дляtrueи около 0,8/.85 = 0,94 дляfalse.
Вычислите оценки прогнозирования для первых 10 строк X:
ans = 10×3
0.9059 0.0941 0.8147
0.9059 0.0941 0.9058
0 1.0000 0.1270
0.9059 0.0941 0.9134
0.9059 0.0941 0.6324
0 1.0000 0.0975
0.9059 0.0941 0.2785
0.9059 0.0941 0.5469
0.9059 0.0941 0.9575
0.9059 0.0941 0.9649
Действительно, каждая ценность X (самый правый столбец), который меньше 0,15, имеет связанные оценки (левый и центральный столбцы) 0 и 1, в то время как другие значения X имеют связанные баллы 0.91 и 0.09. Разница (балл 0.09 вместо ожидаемого .06) из-за статистической флуктуации: есть 8 наблюдения в X в диапазоне (.95,1) вместо ожидаемого 5 наблюдения.