DaviesBouldinEvaluation

Пакет: clustering.evaluation
Суперклассы: clustering.evaluation.ClusterCriterion

Критерий Дэвиса-Булдина, кластеризирующий объект оценки

Описание

DaviesBouldinEvaluation является объектом, состоящим из выборочных данных, кластеризируя данные, и значения критерия Дэвиса-Булдина раньше оценивали оптимальное количество кластеров. Создайте критерий Дэвиса-Булдина, кластеризирующий объект оценки использование evalclusters.

Конструкция

eva = evalclusters(x,clust,'DaviesBouldin') создает критерий Дэвиса-Булдина, кластеризирующий объект оценки.

eva = evalclusters(x,clust,'DaviesBouldin',Name,Value) создает критерий Дэвиса-Булдина, кластеризирующий объект оценки, использующий дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение".

Входные параметры

развернуть все

`x` Входные данные
матрица

Входные данные, заданные как N-by-P матрица. N является количеством наблюдений, и P является количеством переменных.

Типы данных: single | double

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

Кластеризация алгоритма, заданного как одно из следующих.

`'kmeans'`	Кластеризируйте данные в `x` с помощью алгоритма кластеризации `kmeans` с набором `'EmptyAction'` к `'singleton'` и набором `'Replicates'` к `5`.
`'linkage'`	Кластеризируйте данные в `x` с помощью `clusterdata` агломерационный алгоритм кластеризации с набором `'Linkage'` к `'ward'`.
`'gmdistribution'`	Кластеризируйте данные в `x` с помощью `gmdistribution` Гауссов алгоритм распределения смеси с набором `'SharedCov'` к `true` и набором `'Replicates'` к `5`.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно задать кластеризирующийся алгоритм с помощью указателя на функцию (MATLAB). Функция должна иметь форму C = clustfun(DATA,K), где DATA является данными, которые будут кластеризироваться, и K является количеством кластеров. Вывод clustfun должен быть одним из следующего:

Вектор целых чисел, представляющих кластерный индекс для каждого наблюдения в DATA. Должен быть K уникальные значения в этом векторе.
Числовой n-by-K матрица счета к наблюдениям n и классам K. В этом случае кластерный индекс для каждого наблюдения определяется путем принятия самое большое значение счета в каждой строке.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно также задать clust как n-by-K матрица, содержащая предложенные решения по кластеризации. n является количеством наблюдений в выборочных данных, и K является количеством предложенных решений по кластеризации. Столбец j содержит кластерные индексы для каждой из точек N в j th решение по кластеризации.

Типы данных: single | double | char | string | function_handle

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'KList',[1:5] задает, чтобы протестировать 1, 2, 3, 4, и 5 кластеров, чтобы найти оптимальный номер.

`'KList'` — Список количества кластеров, чтобы оценить
вектор

Список количества кластеров, чтобы оценить, заданный как пара, разделенная запятой, состоящая из 'KList' и вектор положительных целочисленных значений. Необходимо задать KList, когда clust является кластеризирующимся именем алгоритма или указателем на функцию. Когда criterion является 'gap', clust должен быть вектором символов, скаляром строки или указателем на функцию, и необходимо задать KList.

Пример: 'KList',[1:6]

Типы данных: single | double

Свойства

`ClusteringFunction`	Кластеризация алгоритма раньше кластеризировала входные данные, сохраненные как допустимое имя алгоритма кластеризации или указатель на функцию. Если решения по кластеризации обеспечиваются во входе, `ClusteringFunction` пуст.
`CriterionName`	Имя критерия используется для кластеризации оценки, сохраненной как допустимое имя критерия.
`CriterionValues`	Значения критерия, соответствующие каждому предложенному количеству кластеров в `InspectedK`, сохраненном как вектор численных значений.
`InspectedK`	Список количества предложенных кластеров, для которых можно вычислить значения критерия, сохраненные как вектор положительных целочисленных значений.
`Missing`	Логический флаг для исключенных данных, хранимых как вектор-столбец логических значений. Если `Missing` равняется `true`, то соответствующее значение в матрице данных `x` не используется в решении по кластеризации.
`NumObservations`	Количество наблюдений в матрице данных `X`, минус количество пропавших без вести (`NaN`) значения в `X`, сохраненном как положительное целочисленное значение.
`OptimalK`	Оптимальное количество кластеров, сохраненных как положительное целочисленное значение.
`OptimalY`	Оптимальное решение по кластеризации, соответствующее `OptimalK`, сохраненному как вектор-столбец положительных целочисленных значений. Если решения по кластеризации обеспечиваются во входе, `OptimalY` пуст.
`X`	Данные используются для кластеризации, сохраненные как матрица численных значений.

Методы

Унаследованные методы

addK	Оцените дополнительные количества кластеров
компактный	Компактный объект оценки кластеризации
график	Постройте кластеризирующиеся значения критерия объекта оценки

Примеры

свернуть все

Оцените решение по кластеризации Используя критерий Дэвиса-Булдина

Скрипт Open Live Script

Оцените оптимальное количество кластеров с помощью Дэвиса-Булдина, кластеризирующего критерий оценки.

Сгенерируйте выборочные данные, содержащие случайные числа от трех многомерных дистрибутивов с различными значениями параметров.

rng('default');  % For reproducibility
mu1 = [2 2];
sigma1 = [0.9 -0.0255; -0.0255 0.9];

mu2 = [5 5];
sigma2 = [0.5 0 ; 0 0.3];

mu3 = [-2, -2];
sigma3 = [1 0 ; 0 0.9];
    
N = 200;

X = [mvnrnd(mu1,sigma1,N);...
     mvnrnd(mu2,sigma2,N);...
     mvnrnd(mu3,sigma3,N)];

Оцените оптимальное количество кластеров с помощью критерия Дэвиса-Булдина. Кластеризируйте данные с помощью kmeans.

E = evalclusters(X,'kmeans','DaviesBouldin','klist',[1:6])

E = 
  DaviesBouldinEvaluation with properties:

    NumObservations: 600
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [NaN 0.4663 0.4454 0.8316 1.0444 0.9236]
           OptimalK: 3

Значение OptimalK указывает, что на основе критерия Дэвиса-Булдина оптимальное количество кластеров равняется трем.

Постройте значения критерия Дэвиса-Булдина для каждого количества протестированных кластеров.

figure;
plot(E)

График показывает, что самое низкое значение Дэвиса-Булдина происходит в трех кластерах, предполагая, что оптимальное количество кластеров равняется трем.

Создайте сгруппированный график рассеивания, чтобы визуально исследовать предложенные кластеры.

figure;
gscatter(X(:,1),X(:,2),E.OptimalY,'rbg','xod')

График показывает три отличных кластера в данных: Кластер 1 находится в нижнем левом углу, кластер 2 находится в верхнем правом углу, и кластер 3 около центра графика.

Больше о

развернуть все

Критерий Дэвиса-Булдина

Критерий Дэвиса-Булдина основан на отношении расстояний между кластерами и в кластере. Индекс Дэвиса-Булдина задан как

$D B = \frac{1}{k} \sum_{i = 1}^{k} \max_{j \neq i} {D_{i, j}},$

где D _{i, j} является within-between кластерным отношением расстояния для i th и j th кластеры. В математическом элементе,

$D_{i, j} = \frac{({\bar{d}}_{i} + {\bar{d}}_{j})}{d_{i, j}} .$

${\bar{d}}_{i}$ среднее расстояние между каждой точкой в i th кластер и центроидом i th кластер. ${\bar{d}}_{j}$ среднее расстояние между каждой точкой в j th кластер и центроидом j th кластер. $d_{i, j}$ Евклидово расстояние между центроидами i th и j th кластеры.

Максимальное значение D _{i, j} представляет худший случай within-between кластерное отношение для кластерного i. Оптимальное решение по кластеризации сделало, чтобы самый маленький Дэвис-Булдин индексировал значение.

Ссылки

[1] Дэвис, D. L. и Д. В. Булдин. “Кластерная Разделительная Мера”. Транзакции IEEE согласно Анализу Шаблона и Искусственному интеллекту. Издание PAMI-1, № 2, 1979, стр 224–227.

Темы

Атрибуты класса (MATLAB)
Атрибуты свойств (MATLAB)

Документация

DaviesBouldinEvaluation

Описание

Конструкция

Входные параметры

`x` Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

Аргументы в виде пар имя-значение

`'KList'` — Список количества кластеров, чтобы оценить
вектор

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий Дэвиса-Булдина

Больше о

Критерий Дэвиса-Булдина

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

DaviesBouldinEvaluation

Описание

Конструкция

Входные параметры

x Входные данные матрица

clust — Кластеризация алгоритма 'kmeans' | 'linkage' | 'gmdistribution' | матрица решений по кластеризации | указатель на функцию

Аргументы в виде пар имя-значение

'KList' — Список количества кластеров, чтобы оценить вектор

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий Дэвиса-Булдина

Больше о

Критерий Дэвиса-Булдина

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`x` Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

`'KList'` — Список количества кластеров, чтобы оценить
вектор