Кластерный анализ объединяет данные в группы на основе сходства точек данных. Иногда данные содержат естественные деления, которые указывают на соответствующее количество кластеров. В других случаях данные не содержат естественных делений, или естественные деления неизвестны. В этом случае определяется оптимальное количество кластеров для группирования данных.
Чтобы определить, насколько хорошо данные помещаются в определенное количество кластеров, вычислите значения индекса с использованием различных критериев оценки, таких как разрыв или силуэт. Визуализация кластеров путем создания графика дендрограммы для отображения иерархического двоичного дерева кластеров. Оптимизируйте порядок листьев, чтобы максимизировать сумму сходств между соседними листьями. Для сгруппированных данных с несколькими измерениями для каждой группы создайте график дендрограммы на основе значения группы, вычисленного с использованием многомерного дисперсионного анализа (MANOVA).
CalinskiHarabaszEvaluation | Объект оценки кластеризации критериев Калинского-Харабаша |
DaviesBouldinEvaluation | Объект оценки кластеризации критериев Дейвиса-Булдина |
GapEvaluation | Объект оценки кластеризации критериев разрыва |
SilhouetteEvaluation | Объект оценки кластеризации критериев силуэта |
В этом примере показано, как идентифицировать кластеры с помощью evalclusters.