Кластерный анализ организует данные в группы на основе сходства между точками данных. Иногда данные содержат естественные деления, которые указывают на соответствующее количество кластеров. В других случаях данные не содержат естественных делений или природные деления неизвестны. В таком случае вы определяете оптимальное количество кластеров для группировки данных.
Чтобы определить, насколько хорошо данные вписываются в определенное количество кластеров, вычислите значения индексов с помощью различных критериев оценки, таких как погрешность или силуэт. Визуализируйте кластеры путем создания графика дендрограммы для отображения иерархического двоичного дерева кластеров. Оптимизируйте порядок листьев, чтобы максимизировать сумму сходства между соседними листьями. Для сгруппированных данных с несколькими измерениями для каждой группы создайте график дендрограммы на основе средств группы, вычисленных с помощью многомерного дисперсионного анализа (MANOVA).
CalinskiHarabaszEvaluation | Объект оценки кластеризации критерия Калински-Харабаша |
DaviesBouldinEvaluation | Объект оценки кластеризации критерия Дэвиса-Буддина |
GapEvaluation | Объект оценки кластеризации критерия погрешности |
SilhouetteEvaluation | Объект оценки кластеризации критерия силуэта |
В этом примере показано, как идентифицировать кластеры при помощи evalclusters
.