DaviesBouldinEvaluation

Пакет: clustering.evaluation
Суперклассы: ClusterCriterion

Критерий Дэвиса-Булдина, кластеризирующий объект оценки

Описание

DaviesBouldinEvaluation объект, состоящий из выборочных данных, кластеризируя данные, и значения критерия Дэвиса-Булдина раньше оценивали оптимальное количество кластеров. Создайте критерий Дэвиса-Булдина, кластеризирующий использование объекта оценки evalclusters.

Конструкция

eva = evalclusters(x,clust,'DaviesBouldin') создает критерий Дэвиса-Булдина, кластеризирующий объект оценки.

eva = evalclusters(x,clust,'DaviesBouldin',Name,Value) создает критерий Дэвиса-Булдина, кластеризирующий объект оценки, использующий дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение".

Входные параметры

развернуть все

Входные данные в виде N-by-P матрица. N является количеством наблюдений, и P является количеством переменных.

Типы данных: single | double

Кластеризация алгоритма в виде одного из следующих.

'kmeans'Кластеризируйте данные в x использование kmeans кластеризация алгоритма, с 'EmptyAction' установите на 'singleton' и 'Replicates' установите на 5.
'linkage'Кластеризируйте данные в x использование clusterdata агломерационный алгоритм кластеризации, с 'Linkage' установите на 'ward'.
'gmdistribution'Кластеризируйте данные в x использование gmdistribution Гауссов алгоритм распределения смеси, с 'SharedCov' установите на true и 'Replicates' установите на 5.

Если criterion 'CalinskiHarabasz', 'DaviesBouldin', или 'silhouette', можно задать кластеризирующийся алгоритм с помощью указателя на функцию. Функция должна иметь форму C = clustfun(DATA,K), где DATA данные должны кластеризироваться, и K количество кластеров. Выход clustfun должно быть одно из следующего:

  • Вектор из целых чисел, представляющих кластерный индекс для каждого наблюдения в DATA. Должен быть K уникальные значения в этом векторе.

  • Числовой n-by-K матрица счета к наблюдениям n и классам K. В этом случае кластерный индекс для каждого наблюдения определяется путем взятия самого большого значения баллов в каждой строке.

Если criterion 'CalinskiHarabasz', 'DaviesBouldin', или 'silhouette', можно также задать clust как n-by-K матрица, содержащая предложенные решения по кластеризации. n является количеством наблюдений в выборочных данных, и K является количеством предложенных решений по кластеризации. Столбец j содержит кластерные индексы для каждой из точек N в j th решение по кластеризации.

Типы данных: single | double | char | string | function_handle

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'KList',[1:5] задает, чтобы протестировать 1, 2, 3, 4, и 5 кластеров, чтобы найти оптимальный номер.

Список количества кластеров, чтобы оценить в виде разделенной запятой пары, состоящей из 'KList' и вектор из положительных целочисленных значений. Необходимо задать KList когда clust кластеризирующееся имя алгоритма или указатель на функцию. Когда criterion 'gap', clust должен быть вектор символов, строковый скаляр или указатель на функцию, и необходимо задать KList.

Пример: 'KList',[1:6]

Типы данных: single | double

Свойства

ClusteringFunction

Кластеризация алгоритма раньше кластеризировала входные данные, сохраненные как допустимое имя алгоритма кластеризации или указатель на функцию. Если решения по кластеризации обеспечиваются во входе, ClusteringFunction isempty.

CriterionName

Имя критерия используется для кластеризации оценки, сохраненной как допустимое имя критерия.

CriterionValues

Значения критерия, соответствующие каждому предложенному количеству кластеров в InspectedK, сохраненный как вектор из численных значений.

InspectedK

Список количества предложенных кластеров, для которых можно вычислить значения критерия, сохраненные как вектор из положительных целочисленных значений.

Missing

Логический флаг для исключенных данных, хранимых как вектор-столбец логических значений. Если Missing равняется true, затем соответствующее значение в матрице данных x не используется в решении по кластеризации.

NumObservations

Количество наблюдений в матрице данных X, минус количество пропавших без вести (NaN) значения в X, сохраненный как положительное целочисленное значение.

OptimalK

Оптимальное количество кластеров, сохраненных как положительное целочисленное значение.

OptimalY

Оптимальное решение по кластеризации, соответствующее OptimalK, сохраненный как вектор-столбец положительных целочисленных значений. Если решения по кластеризации обеспечиваются во входе, OptimalY isempty.

X

Данные используются для кластеризации, сохраненные как матрица численных значений.

Методы

Унаследованные методы

addKОцените дополнительные количества кластеров
компактныйКомпактный объект оценки кластеризации
график Постройте кластеризирующиеся значения критерия объекта оценки

Примеры

свернуть все

Оцените оптимальное количество кластеров с помощью Дэвиса-Булдина, кластеризирующего критерий оценки.

Сгенерируйте выборочные данные, содержащие случайные числа от трех многомерных распределений с различными значениями параметров.

rng('default');  % For reproducibility
mu1 = [2 2];
sigma1 = [0.9 -0.0255; -0.0255 0.9];

mu2 = [5 5];
sigma2 = [0.5 0 ; 0 0.3];

mu3 = [-2, -2];
sigma3 = [1 0 ; 0 0.9];
    
N = 200;

X = [mvnrnd(mu1,sigma1,N);...
     mvnrnd(mu2,sigma2,N);...
     mvnrnd(mu3,sigma3,N)];

Оцените оптимальное количество кластеров с помощью критерия Дэвиса-Булдина. Кластеризируйте данные с помощью kmeans.

E = evalclusters(X,'kmeans','DaviesBouldin','klist',[1:6])
E = 
  DaviesBouldinEvaluation with properties:

    NumObservations: 600
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [NaN 0.4663 0.4454 0.8316 1.0444 0.9236]
           OptimalK: 3

OptimalK значение указывает, что на основе критерия Дэвиса-Булдина оптимальное количество кластеров равняется трем.

Постройте значения критерия Дэвиса-Булдина для каждого количества протестированных кластеров.

figure;
plot(E)

Figure contains an axes. The axes contains 2 objects of type line.

График показывает, что самое низкое значение Дэвиса-Булдина происходит в трех кластерах, предполагая, что оптимальное количество кластеров равняется трем.

Создайте сгруппированный график рассеивания, чтобы визуально исследовать предложенные кластеры.

figure;
gscatter(X(:,1),X(:,2),E.OptimalY,'rbg','xod')

Figure contains an axes. The axes contains 3 objects of type line. These objects represent 1, 2, 3.

График показывает три отличных кластера в данных: Кластер 1 находится в нижнем левом углу, кластер 2 находится в верхнем правом углу, и кластер 3 около центра графика.

Больше о

развернуть все

Ссылки

[1] Дэвис, D. L. и Д. В. Булдин. “Кластерная Разделительная Мера”. Транзакции IEEE согласно Анализу Шаблона и Искусственному интеллекту. Издание PAMI-1, № 2, 1979, стр 224–227.