CalinskiHarabaszEvaluation

Пакет: clustering.evaluation
Суперклассы: ClusterCriterion

Критерий Calinski-Harabasz, кластеризирующий объект оценки

Описание

CalinskiHarabaszEvaluation объект, состоящий из выборочных данных, кластеризируя данные, и значения критерия Calinski-Harabasz раньше оценивали оптимальное количество кластеров. Создайте критерий Calinski-Harabasz, кластеризирующий использование объекта оценки evalclusters.

Конструкция

eva = evalclusters(x,clust,'CalinskiHarabasz') создает критерий Calinski-Harabasz, кластеризирующий объект оценки.

eva = evalclusters(x,clust,'CalinskiHarabasz',Name,Value) создает критерий Calinski-Harabasz, кластеризирующий объект оценки, использующий дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение".

Входные параметры

развернуть все

`x` — Входные данные
матрица

Входные данные в виде N-by-P матрица. N является количеством наблюдений, и P является количеством переменных.

Типы данных: single | double

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

Кластеризация алгоритма в виде одного из следующих.

`'kmeans'`	Кластеризируйте данные в `x` использование `kmeans` кластеризация алгоритма, с `'EmptyAction'` установите на `'singleton'` и `'Replicates'` установите на `5`.
`'linkage'`	Кластеризируйте данные в `x` использование `clusterdata` агломерационный алгоритм кластеризации, с `'Linkage'` установите на `'ward'`.
`'gmdistribution'`	Кластеризируйте данные в `x` использование `gmdistribution` Гауссов алгоритм распределения смеси, с `'SharedCov'` установите на `true` и `'Replicates'` установите на `5`.

Если criterion 'CalinskiHarabasz', 'DaviesBouldin', или 'silhouette', можно задать кластеризирующийся алгоритм с помощью указателя на функцию. Функция должна иметь форму C = clustfun(DATA,K), где DATA данные должны кластеризироваться, и K количество кластеров. Выход clustfun должно быть одно из следующего:

Вектор из целых чисел, представляющих кластерный индекс для каждого наблюдения в DATA. Должен быть K уникальные значения в этом векторе.
Числовой n-by-K матрица счета к наблюдениям n и классам K. В этом случае кластерный индекс для каждого наблюдения определяется путем взятия самого большого значения баллов в каждой строке.

Если criterion 'CalinskiHarabasz', 'DaviesBouldin', или 'silhouette', можно также задать clust как n-by-K матрица, содержащая предложенные решения по кластеризации. n является количеством наблюдений в выборочных данных, и K является количеством предложенных решений по кластеризации. Столбец j содержит кластерные индексы для каждой из точек N в j th решение по кластеризации.

Типы данных: single | double | char | string | function_handle

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'KList',[1:6] задает, чтобы протестировать 1, 2, 3, 4, 5, и 6 кластеров, чтобы найти оптимальный номер.

`'KList'` — Список количества кластеров, чтобы оценить
вектор

Список количества кластеров, чтобы оценить в виде разделенной запятой пары, состоящей из 'KList' и вектор из положительных целочисленных значений. Необходимо задать KList когда clust кластеризирующееся имя алгоритма или указатель на функцию. Когда criterion 'gap', clust должен быть вектор символов, строковый скаляр или указатель на функцию, и необходимо задать KList.

Пример: 'KList',[1:6]

Типы данных: single | double

Свойства

`ClusteringFunction`	Кластеризация алгоритма раньше кластеризировала входные данные, сохраненные как допустимое имя алгоритма кластеризации или указатель на функцию. Если решения по кластеризации обеспечиваются во входе, `ClusteringFunction` isempty.
`CriterionName`	Имя критерия используется для кластеризации оценки, сохраненной как допустимое имя критерия.
`CriterionValues`	Значения критерия, соответствующие каждому предложенному количеству кластеров в `InspectedK`, сохраненный как вектор из численных значений.
`InspectedK`	Список количества предложенных кластеров, для которых можно вычислить значения критерия, сохраненные как вектор из положительных целочисленных значений.
`Missing`	Логический флаг для исключенных данных, хранимых как вектор-столбец логических значений. Если `Missing` равняется `true`, затем соответствующее значение в матрице данных `x` не используется в решении по кластеризации.
`NumObservations`	Количество наблюдений в матрице данных `X`, минус количество пропавших без вести (`NaN`) значения в `X`, сохраненный как положительное целочисленное значение.
`OptimalK`	Оптимальное количество кластеров, сохраненных как положительное целочисленное значение.
`OptimalY`	Оптимальное решение по кластеризации, соответствующее `OptimalK`, сохраненный как вектор-столбец положительных целочисленных значений. Если решения по кластеризации обеспечиваются во входе, `OptimalY` isempty.
`X`	Данные используются для кластеризации, сохраненные как матрица численных значений.

Методы

Унаследованные методы

addK	Оцените дополнительные количества кластеров
компактный	Компактный объект оценки кластеризации
график	Постройте кластеризирующиеся значения критерия объекта оценки

Примеры

свернуть все

Оцените решение по кластеризации Используя критерий Calinski-Harabasz

Скрипт Open Live Script

Оцените оптимальное количество кластеров с помощью Calinski-Harabasz кластеризирующийся критерий оценки.

Загрузите выборочные данные.

load fisheriris;

Данные содержат измерения длины и ширины от чашелистиков и лепестков трех разновидностей ирисовых цветов.

Оцените оптимальное количество кластеров с помощью критерия Calinski-Harabasz. Кластеризируйте данные с помощью kmeans.

rng('default');  % For reproducibility
eva = evalclusters(meas,'kmeans','CalinskiHarabasz','KList',[1:6])

eva = 
  CalinskiHarabaszEvaluation with properties:

    NumObservations: 150
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [Inf 513.9245 561.6278 530.4871 456.1279 469.5068]
           OptimalK: 1

OptimalK значение указывает, что на основе критерия Calinski-Harabasz оптимальное количество кластеров равняется трем.

Постройте значения критерия Calinski-Harabasz для каждого количества протестированных кластеров.

figure;
plot(eva);

Figure contains an axes. The axes contains 2 objects of type line.

График показывает, что самое высокое значение Calinski-Harabasz происходит в трех кластерах, предполагая, что оптимальное количество кластеров равняется трем.

Создайте сгруппированный график рассеивания, чтобы исследовать отношение между лепестковой длиной и шириной. Сгруппируйте данные предложенными кластерами.

PetalLength = meas(:,3);
PetalWidth = meas(:,4);
ClusterGroup = eva.OptimalY;
figure;
gscatter(PetalLength,PetalWidth,ClusterGroup,'rbg','xod');

Figure contains an axes. The axes contains an object of type line. This object represents 1.

График показывает кластер 3 в нижнем левом углу, полностью разделенном от других двух кластеров. Кластер 3 содержит цветы с наименьшими лепестковыми ширинами и длинами. Кластер 1 находится в верхнем правом углу и содержит цветы с самыми большими лепестковыми ширинами и длинами. Кластер 2 около центра графика и содержит цветы с измерениями между этими двумя экстремальными значениями.

Больше о

развернуть все

Критерий Calinski-Harabasz

Критерий Calinski-Harabasz иногда называется критерием отношения отклонения (VRC). Индекс Calinski-Harabasz задан как

$V R C_{k} = \frac{S S_{B}}{S S_{W}} \times \frac{(N - k)}{(k - 1)},$

где SS _B является полным отклонением между кластерами, SS _W является полным отклонением в кластере, k является количеством кластеров, и N является количеством наблюдений.

Полное отклонение между кластерами SS _B задано как

$S S_{B} = \sum_{i = 1}^{k} n_{i} {‖ m_{i} - m ‖}^{2},$

где k является количеством кластеров, n_{, i} - количество наблюдений в кластерном i, m_{, i} является центроидом кластерного i, m является полным средним значением выборочных данных, и $‖ m_{i} - m ‖$ норма ^L2 (Евклидово расстояние) между этими двумя векторами.

Полное отклонение в кластере SS _W задано как

$S S_{W} = \sum_{i = 1}^{k} {\sum_{x \in c_{i}} ‖ x - m_{i} ‖}^{2},$

где k является количеством кластеров, x является точкой данных, c_{, i} является i th кластер, m_{, i} является центроидом кластерного i, и $‖ x - m_{i} ‖$ норма ^L2 (Евклидово расстояние) между этими двумя векторами.

Четко определенные кластеры имеют большое отклонение между кластерами (SS _B) и небольшое отклонение в кластере (SS _W). Чем больше отношение _VRCk, тем лучше раздел данных. Чтобы определить оптимальное количество кластеров, максимизируйте _VRCk относительно k. Оптимальное количество кластеров является решением с самым высоким значением индекса Calinski-Harabasz.

Критерий Calinski-Harabasz подходит лучше всего для k - означает решения по кластеризации с Евклидовыми расстояниями в квадрате.

Ссылки

[1] Калинский, T. и Дж. Харабэсз. “Метод дендрита для кластерного анализа”. Коммуникации в Статистике. Издание 3, № 1, 1974, стр 1–27.

Документация

CalinskiHarabaszEvaluation

Описание

Конструкция

Входные параметры

`x` — Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

`'KList'` — Список количества кластеров, чтобы оценить
вектор

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий Calinski-Harabasz

Больше о

Критерий Calinski-Harabasz

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

CalinskiHarabaszEvaluation

Описание

Конструкция

Входные параметры

x — Входные данные матрица

clust — Кластеризация алгоритма 'kmeans' | 'linkage' | 'gmdistribution' | матрица решений по кластеризации | указатель на функцию

'KList' — Список количества кластеров, чтобы оценить вектор

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий Calinski-Harabasz

Больше о

Критерий Calinski-Harabasz

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`x` — Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

`'KList'` — Список количества кластеров, чтобы оценить
вектор