cluster

Создайте агломерационные кластеры из рычажных устройств

Синтаксис

T = cluster(Z,'Cutoff',C)

T = cluster(Z,'Cutoff',C,'Depth',D)

T = cluster(Z,'Cutoff',C,'Criterion',criterion)

T = cluster(Z,'MaxClust',N)

Описание

T = cluster(Z,'Cutoff',C) задает кластеры от агломерационного иерархического кластерного древовидного Z. Вход Z выход linkage функция для матрицы входных данных X. cluster сокращения Z в кластеры, с помощью C как порог для коэффициентов несоответствия (или inconsistent значения) узлов в дереве. Выход T содержит кластерные присвоения каждого наблюдения (строка X).

пример

T = cluster(Z,'Cutoff',C,'Depth',D) оценивает inconsistent значения, смотря на глубину D ниже каждого узла.

пример

T = cluster(Z,'Cutoff',C,'Criterion',criterion) использование любой 'inconsistent' (значение по умолчанию) или 'distance' как criterion для определения кластеров. criterion должен быть меньше C для cluster задавать кластеры.

пример

T = cluster(Z,'MaxClust',N) задает максимум N кластеры с помощью 'distance' как критерий определения кластеров.

Примеры

свернуть все

Задайте кластеры путем определения глубины

Скрипт Open Live Script

Выполните агломерационную кластеризацию на случайным образом сгенерированных данных путем оценки противоречивых значений на глубину четыре ниже каждого узла.

Случайным образом сгенерируйте выборочные данные.

rng('default'); % For reproducibility
X = [(randn(20,2)*0.75)+1;
    (randn(20,2)*0.25)-1];

Создайте график рассеивания данных.

scatter(X(:,1),X(:,2));
title('Randomly Generated Data');

Создайте иерархическое кластерное дерево с помощью ward метод рычажного устройства.

Z = linkage(X,'ward');

Создайте график данных древовидной схемы.

dendrogram(Z)

График рассеивания и график древовидной схемы, кажется, показывают два кластера в данных.

Кластеризируйте данные с помощью порога 3 для коэффициента несоответствия и смотрящий на глубину 4 ниже каждого узла. Постройте получившиеся кластеры.

T = cluster(Z,'cutoff',3,'Depth',4);
gscatter(X(:,1),X(:,2),T)

cluster идентифицирует два кластера в данных.

Кластерные данные Используя критерий расстояния

Скрипт Open Live Script

Выполните агломерационную кластеризацию на fisheriris набор данных с помощью 'distance' как критерий определения кластеров. Визуализируйте кластерные присвоения данных.

Загрузите fisheriris набор данных.

load fisheriris

Визуализируйте 2D график рассеивания разновидностей использования данных как сгруппированная переменная. Задайте цвета маркера и символы маркера для трех различных разновидностей.

gscatter(meas(:,1),meas(:,2),species,'rgb','do*')
title("Actual Clusters of Fisher's Iris Data")

Создайте иерархическое кластерное дерево с помощью 'average' метод и 'chebychev' метрика.

Z = linkage(meas,'average','chebychev');

Кластеризируйте данные с помощью порога 1,5 для 'distance' критерий.

T = cluster(Z,'cutoff',1.5,'Criterion','distance')

T содержит числа, которые соответствуют кластерным присвоениям. Найдите количество классов что cluster идентифицирует.

length(unique(T))

ans = 3

cluster идентифицирует три класса для заданных значений cutoff и Criterion.

Визуализируйте 2D график рассеивания кластеризирующихся результатов с помощью T как сгруппированная переменная. Задайте цвета маркера и символы маркера для трех различных классов.

gscatter(meas(:,1),meas(:,2),T,'rgb','do*')
title("Cluster Assignments of Fisher's Iris Data")

Кластеризация правильно идентифицирует setosa класс (класс 2) как принадлежащий отличному кластеру, но плохо различает versicolor и virginica классы (классы 1 и 3, соответственно). Обратите внимание на то, что график рассеивания помечает классы с помощью чисел, содержавшихся в T.

Сравните кластерные присвоения на классы

Скрипт Open Live Script

Найдите максимум трех кластеров в fisheriris набор данных и сравнивает кластерные присвоения цветов к их известной классификации.

Загрузите выборочные данные.

load fisheriris

Создайте иерархическое кластерное дерево с помощью 'average' метод и 'chebychev' метрика.

Z = linkage(meas,'average','chebychev');

Найдите максимум трех кластеров в данных.

T = cluster(Z,'maxclust',3);

Создайте график древовидной схемы Z. Чтобы видеть эти три кластера, используйте 'ColorThreshold' с сокращением на полпути между третьими последними и предпредпоследними рычажными устройствами.

cutoff = median([Z(end-2,3) Z(end-1,3)]);
dendrogram(Z,'ColorThreshold',cutoff)

Отобразите последние две строки Z чтобы видеть, как эти три кластера объединены в один. linkage комбинирует 293-й (синий) кластер с 297-м (красным) кластером, чтобы сформировать 298-й кластер с рычажным устройством 1.7583. linkage затем комбинирует 296-й (зеленый) кластер с 298-м кластером.

lastTwo = Z(end-1:end,:)

lastTwo = 2×3

  293.0000  297.0000    1.7583
  296.0000  298.0000    3.4445

Смотрите, как кластерные присвоения соответствуют трем разновидностям. Например, один из кластеров содержит 50 цветы вторых разновидностей и 40 цветы третьих разновидностей.

crosstab(T,species)

ans = 3×3

     0     0    10
     0    50    40
    50     0     0

Кластерный результат данных и графика

Скрипт Open Live Script

Случайным образом сгенерируйте выборочные данные с 20 000 наблюдений.

rng('default') % For reproducibility
X = rand(20000,3);

Создайте иерархическое кластерное дерево с помощью ward метод рычажного устройства. В этом случае, 'SaveMemory' опция clusterdata функция установлена в 'on' по умолчанию. В общем случае задайте оптимальное значение для 'SaveMemory' на основе размерностей X и доступная память.

Z = linkage(X,'ward');

Кластеризируйте данные максимум в четырех групп и постройте результат.

c = cluster(Z,'Maxclust',4);
scatter3(X(:,1),X(:,2),X(:,3),10,c)

cluster идентифицирует четыре группы в данных.

Входные параметры

свернуть все

`Z` — Агломерационное иерархическое кластерное дерево
числовая матрица

Агломерационное иерархическое кластерное дерево, которое является выходом linkage функция в виде числовой матрицы. Для матрицы входных данных X со строками m (или наблюдения), linkage возвращается (m – 1)-by-3 матричный Z. Для объяснения как linkage создает кластерное дерево, смотрите Z.

Пример: Z = linkage(X), где X матрица входных данных

Типы данных: single | double

`C` — Порог для определения кластеров
положительная скалярная величина | вектор из положительных скалярных величин

Порог для определения кластеров в виде положительной скалярной величины или вектора из положительных скалярных величин. cluster использование C как порог или для высот или для коэффициентов несоответствия узлов, в зависимости от criterion для определения кластеров в иерархическом кластерном дереве.

Если критерием определения кластеров является 'distance'то cluster группируют все листы в или ниже узла в кластер, при условии, что высота узла меньше C.
Если критерием определения кластеров является 'inconsistent', затем inconsistent значения узла и всех его подузлов должны быть меньше C для cluster сгруппировать их в кластер. cluster начинается с корня кластерного древовидного Z и понижают через дерево, пока оно не сталкивается с узлом чей inconsistent значение меньше порога C, и чьи подузлы (или потомки) имеют противоречивые значения меньше, чем Cто cluster группируют все листы в или ниже узла в кластер (или одиночный элемент, если сам узел является листом). cluster следует за каждой ветвью в дереве, пока все вершины не находятся в кластерах.

Пример: cluster(Z,'Cutoff',0.5)

Типы данных: single | double

`D` — Глубина для вычисления противоречивых значений
2 (значения по умолчанию) | числовой скаляр

Глубина для вычисления противоречивых значений в виде числового скаляра. cluster оценивает противоречивые значения, смотря на глубину D ниже каждого узла.

Пример: cluster(Z,'Cutoff',0.5,'Depth',3)

Типы данных: single | double

`criterion` — Критерий определения кластеров
`'inconsistent'` (значение по умолчанию) | `'distance'`

Критерий определения кластеров в виде 'inconsistent' или 'distance'.

Если критерием определения кластеров является 'distance'то cluster группируют все листы в или ниже узла в кластер (или одиночный элемент, если сам узел является листом), при условии, что высота узла меньше C. Высота узла в дереве представляет расстояние между двумя подузлами, которые объединены в том узле. Определение 'distance' результаты в кластерах, которые соответствуют горизонтальному срезу dendrogram график Z.

Если критерием определения кластеров является 'inconsistent'то cluster группирует узел и все его подузлы в кластер, при условии, что коэффициенты несоответствия (или inconsistent значения) узла и подузлов меньше C. Определение 'inconsistent' эквивалентно cluster(Z,'Cutoff',C).

Пример: cluster(Z,'Cutoff',0.5,'Criterion','distance')

Типы данных: char | string

`N` — Максимальное количество кластеров
положительное целое число | вектор из положительных целых чисел

Максимальное количество кластеров, чтобы сформироваться в виде положительного целого числа или вектора из положительных целых чисел. cluster создает максимум N кластеры, с помощью 'distance' как критерий определения кластеров. Высота каждого узла в дереве представляет расстояние между этими двумя подузлами, объединенными в том узле. cluster находит наименьшую высоту, на которой горизонталь прорубила дерево, оставит N или меньше кластеров. Смотрите Задают Произвольные Кластеры для получения дополнительной информации.

Пример: cluster(Z,'MaxClust',5)

Типы данных: single | double

Выходные аргументы

свернуть все

`T` — Кластерное присвоение
числовой вектор | числовая матрица

Кластерное присвоение, возвращенное как числовой вектор или матрица. Для (m – 1)-by-3 иерархический кластерный древовидный Z (выход linkage учитывая вход XT содержит кластерные присвоения строк m (наблюдения) за X.

Размер T зависит от соответствующего размера C или N.

Если C положительная скалярная величина, затем T вектор из длины m.
Если N положительное целое число, затем T вектор из длины m.
Если C длина вектор l из положительных скалярных величин, затем T m-by-l матрица с одним столбцом на значение в C.
Если N длина вектор l из положительных целых чисел, затем T m-by-l матрица с одним столбцом на значение в N.

Альтернативная функциональность

Если у вас есть матрица входных данных X, можно использовать clusterdata выполнить агломерационную кластеризацию и возвратить кластерные индексы для каждого наблюдения (строка) в X. clusterdata функция выполняет все необходимые шаги для вас, таким образом, вы не должны выполняться pdist, linkage, и cluster функции отдельно.

Документация

cluster

Синтаксис

Описание

Примеры

Задайте кластеры путем определения глубины

Кластерные данные Используя критерий расстояния

Сравните кластерные присвоения на классы

Кластерный результат данных и графика

Входные параметры

`Z` — Агломерационное иерархическое кластерное дерево
числовая матрица

`C` — Порог для определения кластеров
положительная скалярная величина | вектор из положительных скалярных величин

`D` — Глубина для вычисления противоречивых значений
2 (значения по умолчанию) | числовой скаляр

`criterion` — Критерий определения кластеров
`'inconsistent'` (значение по умолчанию) | `'distance'`

`N` — Максимальное количество кластеров
положительное целое число | вектор из положительных целых чисел

Выходные аргументы

`T` — Кластерное присвоение
числовой вектор | числовая матрица

Альтернативная функциональность

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

cluster

Синтаксис

Описание

Примеры

Задайте кластеры путем определения глубины

Кластерные данные Используя критерий расстояния

Сравните кластерные присвоения на классы

Кластерный результат данных и графика

Входные параметры

Z — Агломерационное иерархическое кластерное дерево числовая матрица

C — Порог для определения кластеров положительная скалярная величина | вектор из положительных скалярных величин

D — Глубина для вычисления противоречивых значений 2 (значения по умолчанию) | числовой скаляр

criterion — Критерий определения кластеров 'inconsistent' (значение по умолчанию) | 'distance'

N — Максимальное количество кластеров положительное целое число | вектор из положительных целых чисел

Выходные аргументы

T — Кластерное присвоение числовой вектор | числовая матрица

Альтернативная функциональность

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`Z` — Агломерационное иерархическое кластерное дерево
числовая матрица

`C` — Порог для определения кластеров
положительная скалярная величина | вектор из положительных скалярных величин

`D` — Глубина для вычисления противоречивых значений
2 (значения по умолчанию) | числовой скаляр

`criterion` — Критерий определения кластеров
`'inconsistent'` (значение по умолчанию) | `'distance'`

`N` — Максимальное количество кластеров
положительное целое число | вектор из положительных целых чисел

`T` — Кластерное присвоение
числовой вектор | числовая матрица