Визуализация и оценка кластеров

Постройте кластеры данных и оцените оптимальное количество кластеров

Кластерный анализ организует данные в группы на основе сходства между точками данных. Иногда данные содержат естественные деления, которые указывают на соответствующее количество кластеров. В других случаях данные не содержат естественных делений или природные деления неизвестны. В таком случае вы определяете оптимальное количество кластеров для группировки данных.

Чтобы определить, насколько хорошо данные вписываются в определенное количество кластеров, вычислите значения индексов с помощью различных критериев оценки, таких как погрешность или силуэт. Визуализируйте кластеры путем создания графика дендрограммы для отображения иерархического двоичного дерева кластеров. Оптимизируйте порядок листьев, чтобы максимизировать сумму сходства между соседними листьями. Для сгруппированных данных с несколькими измерениями для каждой группы создайте график дендрограммы на основе средств группы, вычисленных с помощью многомерного дисперсионного анализа (MANOVA).

Функции

расширить все

dendrogramГрафик Дендрограмма
optimalleaforderОптимальное упорядоченное расположение листов для иерархической кластеризации
manovaclusterДендрограмма средних групповых кластеров, следующих за MANOVA
silhouetteГрафик силуэта
evalclustersОценка решений кластеризации
addKОцените дополнительное количество кластеров
compactКомпактный объект оценки кластеризации
increaseBУвеличьте наборы ссылочных данных
plot Постройте графики значений критериев объекта оценки кластеризации

Классы

CalinskiHarabaszEvaluationОбъект оценки кластеризации критерия Калински-Харабаша
DaviesBouldinEvaluationОбъект оценки кластеризации критерия Дэвиса-Буддина
GapEvaluationОбъект оценки кластеризации критерия погрешности
SilhouetteEvaluationОбъект оценки кластеризации критерия силуэта

Темы

Оценка кластеров

В этом примере показано, как идентифицировать кластеры при помощи evalclusters.