GapEvaluation

Пакет: clustering.evaluation
Суперклассы: clustering.evaluation.ClusterCriterion

Разорвите критерий, кластеризирующий объект оценки

Описание

GapEvaluation является объектом, состоящим из выборочных данных, кластеризируя данные, и значения критерия разрыва раньше оценивали оптимальное количество кластеров. Создайте критерий разрыва, кластеризирующий объект оценки использование evalclusters.

Конструкция

eva = evalclusters(x,clust,'Gap') создает критерий разрыва, кластеризирующий объект оценки.

eva = evalclusters(x,clust,'Gap',Name,Value) создает критерий разрыва, кластеризирующий объект оценки, использующий дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение".

Входные параметры

развернуть все

`x` Входные данные
матрица

Входные данные, заданные как N-by-P матрица. N является количеством наблюдений, и P является количеством переменных.

Типы данных: single | double

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

Кластеризация алгоритма, заданного как одно из следующих.

`'kmeans'`	Кластеризируйте данные в `x` с помощью алгоритма кластеризации `kmeans` с набором `'EmptyAction'` к `'singleton'` и набором `'Replicates'` к `5`.
`'linkage'`	Кластеризируйте данные в `x` с помощью `clusterdata` агломерационный алгоритм кластеризации с набором `'Linkage'` к `'ward'`.
`'gmdistribution'`	Кластеризируйте данные в `x` с помощью `gmdistribution` Гауссов алгоритм распределения смеси с набором `'SharedCov'` к `true` и набором `'Replicates'` к `5`.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно задать кластеризирующийся алгоритм с помощью указателя на функцию (MATLAB). Функция должна иметь форму C = clustfun(DATA,K), где DATA является данными, которые будут кластеризироваться, и K является количеством кластеров. Вывод clustfun должен быть одним из следующего:

Вектор целых чисел, представляющих кластерный индекс для каждого наблюдения в DATA. Должен быть K уникальные значения в этом векторе.
Числовой n-by-K матрица счета к наблюдениям n и классам K. В этом случае кластерный индекс для каждого наблюдения определяется путем принятия самое большое значение счета в каждой строке.

Если criterion является 'CalinskiHarabasz', 'DaviesBouldin' или 'silhouette', можно также задать clust как n-by-K матрица, содержащая предложенные решения по кластеризации. n является количеством наблюдений в выборочных данных, и K является количеством предложенных решений по кластеризации. Столбец j содержит кластерные индексы для каждой из точек N в j th решение по кластеризации.

Типы данных: single | double | char | string | function_handle

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'KList',[1:5],'Distance','cityblock' задает, чтобы протестировать 1, 2, 3, 4, и 5 кластеров с помощью метрики расстояния городского квартала.

`B` Количество наборов справочных данных
`100` (значение по умолчанию) | положительное целочисленное значение

Количество наборов справочных данных сгенерировало от ссылочного распределения ReferenceDistribution, заданный как пара, разделенная запятой, состоящая из 'B' и положительного целочисленного значения.

Пример: 'B',150

Типы данных: single | double

`'Distance'` — Метрика расстояния
`'sqEuclidean'` (значение по умолчанию) | `'Euclidean'` | `'cityblock'` | функционирует |...

Метрика расстояния, используемая для вычисления значений критерия, заданных как пара, разделенная запятой, состоящая из 'Distance' и одно из следующих.

`'sqEuclidean'`	Придал Евклидову расстоянию квадратную форму
`'Euclidean'`	Евклидово расстояние
`'cityblock'`	Сумма абсолютных разностей
`'cosine'`	Один минус косинус включенного угла между точками (обработанный как векторы)
`'correlation'`	Один минус корреляция выборки между точками (обработанный как последовательности значений)

Для получения дальнейшей информации о каждой метрике расстояния, смотрите pdist.

Можно также задать функцию для метрики расстояния при помощи указателя на функцию (MATLAB). Функция расстояния должна иметь форму

d2 = distfun(XI,XJ),

где XI является 1 n вектором, соответствующим одной строке входной матрицы X, и XJ является m ₂ n матрицей, соответствующей нескольким строкам X. distfun должен возвратить m _{2 1} вектор расстояний d2, k которого th элемент является расстоянием между XI и XJ(k,:).

Distance только принимает указатель на функцию, если кластеризирующийся алгоритм clust принимает указатель на функцию как метрику расстояния. Например, алгоритм кластеризации kmeans не принимает указатель на функцию как метрику расстояния. Поэтому, если вы используете алгоритм kmeans и затем задаете указатель на функцию для Distance, программных ошибок.

Когда clust является 'kmeans' или 'gmdistribution', evalclusters использует метрику расстояния, заданную для Distance, чтобы кластеризировать данные.
Если clust является 'linkage', и Distance является или 'sqEuclidean' или 'Euclidean', то кластеризирующийся алгоритм использует Евклидово расстояние и связь Уорда.
Если clust является 'linkage', и Distance является любой другой метрикой, то кластеризирующийся алгоритм использует заданную метрику расстояния и среднюю связь.
Во всех других случаях метрика расстояния, заданная для Distance, должна совпадать с метрикой расстояния, используемой в кластеризирующемся алгоритме, чтобы получить значимые результаты.

Пример: 'Distance','Euclidean'

Типы данных: single | double | char | string | function_handle

`'KList'` — Список количества кластеров, чтобы оценить
вектор

Список количества кластеров, чтобы оценить, заданный как пара, разделенная запятой, состоящая из 'KList' и вектор положительных целочисленных значений. Необходимо задать KList, когда clust является кластеризирующимся именем алгоритма или указателем на функцию. Когда criterion является 'gap', clust должен быть вектором символов, скаляром строки или указателем на функцию, и необходимо задать KList.

Пример: 'KList',[1:6]

Типы данных: single | double

`'ReferenceDistribution'` — Метод генерации справочных данных
`'PCA'` (значение по умолчанию) | `'uniform'`

Метод генерации справочных данных, заданный как пара, разделенная запятой, состоящая из 'ReferenceDistributions' и одно из следующих.

`'PCA'`	Сгенерируйте справочные данные от равномерного распределения по полю, выровненному с основными компонентами матрицы данных `x`.
`'uniform'`	Сгенерируйте справочные данные однородно в области значений каждой функции в матрице данных `x`.

Пример: 'ReferenceDistribution','uniform'

`'SearchMethod'` — Метод для выбора оптимального количества кластеров
`'globalMaxSE'` (значение по умолчанию) | `'firstMaxSE'`

Метод для выбора оптимального количества кластеров, заданных как пара, разделенная запятой, состоящая из 'SearchMethod' и одно из следующих.

'globalMaxSE'

Оцените каждое предложенное количество кластеров в KList и выберите самое маленькое количество удовлетворения кластеров

$Разрыв (K) \geq G A P M A X - SE (G A P M A X),$

где K является количеством кластеров, Разрыв (K) является значением разрыва для решения по кластеризации с кластерами K, GAPMAX является самым большим значением разрыва, и SE (GAPMAX) является стандартной погрешностью, соответствующей самому большому значению разрыва.

'firstMaxSE'

$Разрыв (K) \geq Разрыв (K + 1) - SE (K + 1),$

где K является количеством кластеров, Разрыв (K) является значением разрыва для решения по кластеризации с кластерами K, и SE (K + 1) является стандартной погрешностью решения по кластеризации с K + 1 кластер.

Пример: 'SearchMethod','globalMaxSE'

Свойства

`B`	Количество наборов данных сгенерировано от ссылочного распределения, сохраненного как положительное целочисленное значение.
`ClusteringFunction`	Кластеризация алгоритма раньше кластеризировала входные данные, сохраненные как допустимое имя алгоритма кластеризации или указатель на функцию. Если решения по кластеризации обеспечиваются во входе, `ClusteringFunction` пуст.
`CriterionName`	Имя критерия используется для кластеризации оценки, сохраненной как допустимое имя критерия.
`CriterionValues`	Значения критерия, соответствующие каждому предложенному количеству кластеров в `InspectedK`, сохраненном как вектор численных значений.
`Distance`	Метрика расстояния используется для кластеризации данных, хранимых как допустимое метрическое имя расстояния.
`ExpectedLogW`	Ожидание натурального логарифма W на основе сгенерированных справочных данных, хранимых как вектор скалярных значений. W является вычисленным использованием дисперсии в кластере метрики расстояния `Distance`.
`InspectedK`	Список количества предложенных кластеров, для которых можно вычислить значения критерия, сохраненные как вектор положительных целочисленных значений.
`LogW`	Натуральный логарифм W на основе входных данных, сохраненных как вектор скалярных значений. W является вычисленным использованием дисперсии в кластере метрики расстояния `Distance`.
`Missing`	Логический флаг для исключенных данных, хранимых как вектор-столбец логических значений. Если `Missing` равняется `true`, то соответствующее значение в матрице данных `x` не используется в решении по кластеризации.
`NumObservations`	Количество наблюдений в матрице данных `X`, минус количество пропавших без вести (`NaN`) значения в `X`, сохраненном как положительное целочисленное значение.
`OptimalK`	Оптимальное количество кластеров, сохраненных как положительное целочисленное значение.
`OptimalY`	Оптимальное решение по кластеризации, соответствующее `OptimalK`, сохраненному как вектор-столбец положительных целочисленных значений. Если решения по кластеризации обеспечиваются во входе, `OptimalY` пуст.
`ReferenceDistribution`	Метод генерации справочных данных, сохраненный как имя распределения действительной ссылки.
`SE`	Стандартная погрешность натурального логарифма W относительно справочных данных для каждого количества кластеров в `InspectedK`, сохраненном как вектор скалярных значений. W является вычисленным использованием дисперсии в кластере метрики расстояния `Distance`.
`SearchMethod`	Метод для определения оптимального количества кластеров, сохраненных как допустимое имя метода поиска.
`StdLogW`	Стандартное отклонение натурального логарифма W относительно справочных данных для каждого количества кластеров в `InspectedK`. W является вычисленным использованием дисперсии в кластере метрики расстояния `Distance`.
`X`	Данные используются для кластеризации, сохраненные как матрица численных значений.

Методы

increaseB

Увеличьте наборы справочных данных

Унаследованные методы

addK	Оцените дополнительные количества кластеров
компактный	Компактный объект оценки кластеризации
график	Постройте кластеризирующиеся значения критерия объекта оценки

Примеры

свернуть все

Оцените решение по кластеризации Используя критерий разрыва

Скрипт Open Live Script

Оцените оптимальное количество кластеров с помощью разрыва, кластеризирующего критерий оценки.

Загрузите выборочные данные.

load fisheriris

Данные содержат чашелистик и лепестковые измерения от трех разновидностей ирисовых цветов.

Оцените количество кластеров на основе значений критерия разрыва. Кластеризируйте данные с помощью kmeans.

rng('default');  % For reproducibility
eva = evalclusters(meas,'kmeans','gap','KList',[1:6])

eva = 
  GapEvaluation with properties:

    NumObservations: 150
         InspectedK: [1 2 3 4 5 6]
    CriterionValues: [0.0720 0.5928 0.8762 1.0114 1.0534 1.0720]
           OptimalK: 5

Значение OptimalK указывает, что на основе критерия разрыва оптимальное количество кластеров равняется пяти.

Постройте значения критерия разрыва для каждого количества протестированных кластеров.

plot(eva)

На основе графика максимальное значение критерия разрыва происходит в шести кластерах. Однако значение в пяти кластерах в одной стандартной погрешности максимума, таким образом, предложенное оптимальное количество кластеров равняется пяти.

Создайте сгруппированный график рассеивания, чтобы исследовать отношение между лепестковой длиной и шириной. Сгруппируйте данные предложенными кластерами.

figure
PetalLength = meas(:,3);
PetalWidth = meas(:,4);
ClusterGroup = eva.OptimalY;
gscatter(PetalLength,PetalWidth,ClusterGroup,'rbgkc','xod^*');

График показывает кластер 4 в нижнем левом углу, полностью разделенном от других четырех кластеров. Кластер 4 содержит цветы с наименьшими лепестковыми ширинами и длинами. Кластер 2 находится в верхнем правом углу и содержит цветы с самыми большими лепестковыми ширинами и длинами. Кластер 5 рядом с кластером 2 и содержит цветы с подобными лепестковыми ширинами как цветы в кластере 2, но меньшие лепестковые длины, чем цветы в кластере 2. Кластеры 1 и 3 около центра графика и содержат цветы с измерениями между экстремальными значениями.

Больше о

развернуть все

Разорвите значение

Общий графический подход к кластерной оценке включает графический вывод ошибочного измерения по сравнению с несколькими предложенными числами кластеров и определения местоположения “колена” этого графика. “Колено” происходит при самом поразительном уменьшении в ошибочном измерении. Критерий разрыва формализует этот подход путем оценки местоположения “колена” как количества кластеров с самым большим значением разрыва. Поэтому под критерием разрыва, оптимальное количество кластеров происходит в решении с самым большим локальным или глобальным значением разрыва в допустимом диапазоне.

Значение разрыва задано как

$G a p_{n} (k) = E_{n}^{*} {журнал (W_{k})} - журнал (W_{k}),$

где n является объемом выборки, k является количеством кластеров, оцениваемых, и W _k является объединенным дисперсионным измерением в кластере

$W_{k} = \sum_{r = 1}^{k} \frac{1}{2 n_{r}} D_{r},$

где n_{, r} является количеством точек данных в кластерном r и D _r, является суммой попарных расстояний для всех точек в кластерном r.

Ожидаемое значение $E_{n}^{*} {журнал (W_{k})}$ определяется выборкой Монте-Карло от ссылочного распределения, и log(Wk) вычисляется из выборочных данных.

Значение разрыва задано даже для решений по кластеризации, которые содержат только один кластер и могут использоваться с любой метрикой расстояния. Однако критерий разрыва является более в вычислительном отношении дорогим, чем другие кластерные критерии оценки, потому что кластеризирующийся алгоритм должен быть применен к справочным данным для каждого предложенного решения по кластеризации.

Ссылки

[1] Tibshirani, R., Г. Вальтер и Т. Хэсти. “Оценивая количество кластеров в наборе данных через статистическую величину разрыва”. Журнал Королевского Статистического Общества: Серии B. Издание 63, Часть 2, 2001, стр 411–423.

Темы

Атрибуты класса (MATLAB)
Атрибуты свойств (MATLAB)

Документация

GapEvaluation

Описание

Конструкция

Входные параметры

`x` Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

Аргументы в виде пар имя-значение

`B` Количество наборов справочных данных
`100` (значение по умолчанию) | положительное целочисленное значение

`'Distance'` — Метрика расстояния
`'sqEuclidean'` (значение по умолчанию) | `'Euclidean'` | `'cityblock'` | функционирует |...

`'KList'` — Список количества кластеров, чтобы оценить
вектор

`'ReferenceDistribution'` — Метод генерации справочных данных
`'PCA'` (значение по умолчанию) | `'uniform'`

`'SearchMethod'` — Метод для выбора оптимального количества кластеров
`'globalMaxSE'` (значение по умолчанию) | `'firstMaxSE'`

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий разрыва

Больше о

Разорвите значение

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

GapEvaluation

Описание

Конструкция

Входные параметры

x Входные данные матрица

clust — Кластеризация алгоритма 'kmeans' | 'linkage' | 'gmdistribution' | матрица решений по кластеризации | указатель на функцию

Аргументы в виде пар имя-значение

B Количество наборов справочных данных 100 (значение по умолчанию) | положительное целочисленное значение

'Distance' — Метрика расстояния 'sqEuclidean' (значение по умолчанию) | 'Euclidean' | 'cityblock' | функционирует |...

'KList' — Список количества кластеров, чтобы оценить вектор

'ReferenceDistribution' — Метод генерации справочных данных 'PCA' (значение по умолчанию) | 'uniform'

'SearchMethod' — Метод для выбора оптимального количества кластеров 'globalMaxSE' (значение по умолчанию) | 'firstMaxSE'

Свойства

Методы

Унаследованные методы

Примеры

Оцените решение по кластеризации Используя критерий разрыва

Больше о

Разорвите значение

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`x` Входные данные
матрица

`clust` — Кластеризация алгоритма
`'kmeans'` | `'linkage'` | `'gmdistribution'` | матрица решений по кластеризации | указатель на функцию

`B` Количество наборов справочных данных
`100` (значение по умолчанию) | положительное целочисленное значение

`'Distance'` — Метрика расстояния
`'sqEuclidean'` (значение по умолчанию) | `'Euclidean'` | `'cityblock'` | функционирует |...

`'KList'` — Список количества кластеров, чтобы оценить
вектор

`'ReferenceDistribution'` — Метод генерации справочных данных
`'PCA'` (значение по умолчанию) | `'uniform'`

`'SearchMethod'` — Метод для выбора оптимального количества кластеров
`'globalMaxSE'` (значение по умолчанию) | `'firstMaxSE'`