SilhouetteEvaluation

Пакет: clustering.evaluation
Суперклассы: clustering.evaluation.ClusterCriterion

Критерий контура, кластеризирующий объект оценки

Описание

SilhouetteEvaluation является объектом, состоящим из выборочных данных, кластеризируя данные, и значения критерия контура раньше оценивали оптимальное количество кластеров данных. Создайте критерий контура, кластеризирующий объект оценки использование evalclusters.

Конструкция

eva = evalclusters(x,clust,'Silhouette') создает критерий контура, кластеризирующий объект оценки.

eva = evalclusters(x,clust,'Silhouette',Name,Value) создает критерий контура, кластеризирующий объект оценки, использующий дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение".

Входные параметры

развернуть все

Входные данные, заданные как N-by-P матрица. N является количеством наблюдений, и P является количеством переменных.

Типы данных: single | double

Кластеризация алгоритма, заданного как одно из следующих.

'kmeans'Кластеризируйте данные в x с помощью алгоритма кластеризации kmeans с набором 'EmptyAction' к 'singleton' и набором 'Replicates' к 5.
'linkage'Кластеризируйте данные в x с помощью clusterdata агломерационный алгоритм кластеризации с набором 'Linkage' к 'ward'.
'gmdistribution'Кластеризируйте данные в x с помощью gmdistribution Гауссов алгоритм распределения смеси с набором 'SharedCov' к true и набором 'Replicates' к 5.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно задать кластеризирующийся алгоритм с помощью указателя на функцию (MATLAB). Функция должна иметь форму C = clustfun(DATA,K), где DATA является данными, которые будут кластеризироваться, и K является количеством кластеров. Вывод clustfun должен быть одним из следующего:

  • Вектор целых чисел, представляющих кластерный индекс для каждого наблюдения в DATA. Должен быть K уникальные значения в этом векторе.

  • Числовой n-by-K матрица счета к наблюдениям n и классам K. В этом случае кластерный индекс для каждого наблюдения определяется путем принятия самое большое значение счета в каждой строке.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно также задать clust как n-by-K матрица, содержащая предложенные решения по кластеризации. n является количеством наблюдений в выборочных данных, и K является количеством предложенных решений по кластеризации. Столбец j содержит кластерные индексы для каждой из точек N в j th решение по кластеризации.

Типы данных: single | double | char | string | function_handle

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'KList',[1:5],'Distance','cityblock' задает, чтобы протестировать 1, 2, 3, 4, и 5 кластеров с помощью метрики расстояния городского квартала.

Априорные вероятности для каждого кластера, заданного как пара, разделенная запятой, состоящая из 'ClusterPriors' и одно из следующих.

'empirical'Вычислите полное значение контура для решения по кластеризации путем усреднения значений контура для всех точек. Каждый кластер способствует полному значению контура пропорционально к его размеру.
'equal'Вычислите полное значение контура для решения по кластеризации путем усреднения значений контура для всех точек в каждом кластере, и затем усреднения тех значений через все кластеры. Каждый кластер способствует одинаково полному значению контура, независимо от его размера.

Пример: 'ClusterPriors','empirical'

Метрика расстояния, используемая для вычисления значений критерия, заданных как пара, разделенная запятой, состоящая из 'Distance' и одно из следующих.

'sqEuclidean'Придал Евклидову расстоянию квадратную форму
'Euclidean'Евклидово расстояние. Эта опция не допустима для алгоритма кластеризации kmeans.
'cityblock'Сумма абсолютных разностей
'cosine'Один минус косинус включенного угла между точками (обработанный как векторы)
'correlation'Один минус корреляция выборки между точками (обработанный как последовательности значений)
'Hamming'Процент координат, которые отличаются. Эта опция только допустима для критерия Silhouette.
'Jaccard'Процент ненулевых координат, которые отличаются. Эта опция только допустима для критерия Silhouette.

Для получения дальнейшей информации о каждой метрике расстояния, смотрите pdist.

Можно также задать функцию для метрики расстояния использование указателя на функцию (MATLAB). Функция расстояния должна иметь форму d2 = distfun(XI,XJ), где XI является 1 n вектором, соответствующим одной строке входной матрицы X, и XJ является m 2 n матрицей, соответствующей нескольким строкам X. distfun должен возвратить m 2 1 вектор расстояний d2, k которого th элемент является расстоянием между XI и XJ(k,:).

Distance только принимает указатель на функцию, если кластеризирующийся алгоритм clust принимает указатель на функцию как метрику расстояния. Например, алгоритм кластеризации kmeans не принимает указатель на функцию как метрику расстояния. Поэтому, если вы используете алгоритм kmeans и затем задаете указатель на функцию для Distance, программных ошибок.

  • Если criterion является 'silhouette', можно также задать Distance как выходной вектор, созданный функциональным pdist.

  • Когда clust является 'kmeans' или 'gmdistribution', evalclusters использует метрику расстояния, заданную для Distance, чтобы кластеризировать данные.

  • Если clust является 'linkage', и Distance является или 'sqEuclidean' или 'Euclidean', то кластеризирующийся алгоритм использует Евклидово расстояние и связь Уорда.

  • Если clust является 'linkage', и Distance является любой другой метрикой, то кластеризирующийся алгоритм использует заданную метрику расстояния и среднюю связь.

  • Во всех других случаях метрика расстояния, заданная для Distance, должна совпадать с метрикой расстояния, используемой в кластеризирующемся алгоритме, чтобы получить значимые результаты.

Пример: 'Distance','Euclidean'

Типы данных: single | double | char | string | function_handle

Список количества кластеров, чтобы оценить, заданный как пара, разделенная запятой, состоящая из 'KList' и вектор положительных целочисленных значений. Необходимо задать KList, когда clust является кластеризирующимся именем алгоритма или указателем на функцию. Когда criterion является 'gap', clust должен быть вектором символов, скаляром строки или указателем на функцию, и необходимо задать KList.

Пример: 'KList',[1:6]

Типы данных: single | double

Свойства

ClusteringFunction

Кластеризация алгоритма раньше кластеризировала входные данные, сохраненные как допустимое имя алгоритма кластеризации или указатель на функцию. Если решения по кластеризации обеспечиваются во входе, ClusteringFunction пуст.

ClusterPriors

Априорные вероятности для каждого кластера, сохраненного как допустимое имя априорной вероятности.

ClusterSilhouettes

Значения контура, соответствующие каждому предложенному количеству кластеров в InspectedK, сохраненном как массив ячеек векторов.

CriterionName

Имя критерия используется для кластеризации оценки, сохраненной как допустимое имя критерия.

CriterionValues

Значения критерия, соответствующие каждому предложенному количеству кластеров в InspectedK, сохраненном как вектор численных значений.

Distance

Метрика расстояния используется для кластеризации данных, хранимых как допустимое метрическое имя расстояния.

InspectedK

Список количества предложенных кластеров, для которых можно вычислить значения критерия, сохраненные как вектор положительных целочисленных значений.

Missing

Логический флаг для исключенных данных, хранимых как вектор-столбец логических значений. Если Missing равняется true, то соответствующее значение в матрице данных x не используется в решении по кластеризации.

NumObservations

Количество наблюдений в матрице данных X, минус количество пропавших без вести (NaN) значения в X, сохраненном как положительное целочисленное значение.

OptimalK

Оптимальное количество кластеров, сохраненных как положительное целочисленное значение.

OptimalY

Оптимальное решение по кластеризации, соответствующее OptimalK, сохраненному как вектор-столбец положительных целочисленных значений. Если решения по кластеризации обеспечиваются во входе, OptimalY пуст.

X

Данные используются для кластеризации, сохраненные как матрица численных значений.

Методы

Унаследованные методы

addKОцените дополнительные количества кластеров
компактныйКомпактный объект оценки кластеризации
график Постройте кластеризирующиеся значения критерия объекта оценки

Примеры

свернуть все

Оцените оптимальное количество кластеров с помощью контура, кластеризирующего критерий оценки.

Сгенерируйте выборочные данные, содержащие случайные числа от трех многомерных дистрибутивов с различными значениями параметров.

rng('default');  % For reproducibility
mu1 = [2 2];
sigma1 = [0.9 -0.0255; -0.0255 0.9];

mu2 = [5 5];
sigma2 = [0.5 0 ; 0 0.3];

mu3 = [-2, -2];
sigma3 = [1 0 ; 0 0.9];
    
N = 200;

X = [mvnrnd(mu1,sigma1,N);...
     mvnrnd(mu2,sigma2,N);...
     mvnrnd(mu3,sigma3,N)];

Оцените оптимальное количество кластеров с помощью критерия контура. Кластеризируйте данные с помощью kmeans.

E = evalclusters(X,'kmeans','silhouette','klist',[1:6])
E = 
  SilhouetteEvaluation with properties:

    NumObservations: 600
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [NaN 0.8055 0.8551 0.7155 0.6071 0.6232]
           OptimalK: 3

Значение OptimalK указывает, что на основе критерия контура оптимальное количество кластеров равняется трем.

Постройте значения критерия контура для каждого количества протестированных кластеров.

figure;
plot(E)

График показывает, что самое высокое значение контура происходит в трех кластерах, предполагая, что оптимальное количество кластеров равняется трем.

Создайте сгруппированный график рассеивания, чтобы визуально исследовать предложенные кластеры.

figure;
gscatter(X(:,1),X(:,2),E.OptimalY,'rbg','xod')

График показывает три отличных кластера в данных: Кластер 1 находится в нижнем левом углу, кластер 2 находится в верхнем правом углу, и кластер 3 около центра графика.

Больше о

развернуть все

Ссылки

[1] Кауфман Л. и П. Дж. Роюзеув. Нахождение групп в данных: введение в кластерный анализ. Хобокен, NJ: John Wiley & Sons, Inc., 1990.

[2] Rouseeuw, P. J. “Контуры: графическая помощь интерпретации и валидации кластерного анализа”. Журнал Вычислительной и Прикладной математики. Издание 20, № 1, 1987, стр 53–65.

Для просмотра документации необходимо авторизоваться на сайте