Документация

idx = spectralcluster(X,k) наблюдения разделов в n-by-p матрица данных X в k кластеры с помощью спектрального алгоритма кластеризации (см. Алгоритмы). spectralcluster возвращает n-by-1 векторный idx содержа кластерные индексы каждого наблюдения.

idx = spectralcluster(S,k,'Distance','precomputed') возвращает вектор из кластерных индексов для S, матрица подобия (или матрица смежности) графика подобия. S может быть выход adjacency.

Чтобы использовать матрицу подобия в качестве первого входа, необходимо задать 'Distance','precomputed'.

idx = spectralcluster(___,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущих синтаксисах. Например, можно задать 'SimilarityGraph','epsilon' создать график подобия с помощью метода поиска радиуса.

[idx,V] = spectralcluster(___) также возвращает собственные вектора V соответствие k самые маленькие собственные значения Матрицы Лапласа.

[idx,V,D] = spectralcluster(___) также возвращает векторный D содержа k самые маленькие собственные значения Матрицы Лапласа.

Примеры

Выполните спектральную кластеризацию на входных данных

Кластеризируйте 2D круговой набор данных с помощью спектральной кластеризации с Евклидовой метрикой расстояния по умолчанию.

Сгенерируйте синтетические данные, которые содержат два шумных круга.

rng('default') % For reproducibility

% Parameters for data generation
N = 300;  % Size of each cluster
r1 = 2;   % Radius of first circle
r2 = 4;   % Radius of second circle
theta = linspace(0,2*pi,N)';

X1 = r1*[cos(theta),sin(theta)]+ rand(N,1); 
X2 = r2*[cos(theta),sin(theta)]+ rand(N,1);
X = [X1;X2]; % Noisy 2-D circular data set

Найдите два кластера в данных при помощи спектральной кластеризации.

idx = spectralcluster(X,2);

Визуализируйте результат кластеризации.

gscatter(X(:,1),X(:,2),idx);

spectralcluster функция правильно идентифицирует эти два кластера в наборе данных.

Выполните спектральную кластеризацию на матрице подобия

Вычислите матрицу подобия из ирисового набора данных Фишера и выполните спектральную кластеризацию на матрице подобия.

Загрузите ирисовый набор данных Фишера. Используйте лепестковые длины и ширины как функции, чтобы рассмотреть для кластеризации.

load fisheriris
X = meas(:,3:4);
gscatter(X(:,1),X(:,2),species);

Найдите расстояние между каждой парой наблюдений в X при помощи pdist и squareform функции с Евклидовой метрикой расстояния по умолчанию.

dist_temp = pdist(X);
dist = squareform(dist_temp);

Создайте матрицу подобия и подтвердите, что это симметрично.

S = exp(-dist.^2);
issymmetric(S)

ans = logical
   1

Выполните спектральную кластеризацию. Задайте 'Distance','precomputed' выполнять кластеризацию с помощью матрицы подобия. Задайте k=3 кластеры и набор 'LaplacianNormalization' аргумент пары "имя-значение", чтобы использовать нормированную симметричную Матрицу Лапласа.

k = 3; % Number of clusters
rng('default') % For reproducibility
idx = spectralcluster(S,k,'Distance','precomputed','LaplacianNormalization','symmetric');

idx содержит кластерные индексы для каждого наблюдения в X.

Визуализируйте результат кластеризации.

gscatter(X(:,1),X(:,2),idx);

Сведите в таблицу кластеризирующиеся результаты.

tabulate(idx)

  Value    Count   Percent
      1       48     32.00%
      2       50     33.33%
      3       52     34.67%

Percent столбец показывает процент точек данных, присвоенных этим трем кластерам.

Повторите спектральную кластеризацию с помощью данных в качестве входа к spectralcluster. Задайте 'NumNeighbors' как size(X,1), который соответствует созданию матрицы подобия S путем соединения каждой точки со всеми остающимися точками.

idx2 = spectralcluster(X,k,'NumNeighbors',size(X,1),'LaplacianNormalization','symmetric');
gscatter(X(:,1),X(:,2),idx2);

tabulate(idx2)

  Value    Count   Percent
      1       50     33.33%
      2       52     34.67%
      3       48     32.00%

Кластеризирующимися результатами для обоих подходов является то же самое. Порядок кластерных присвоений отличается, даже при том, что точки данных кластеризируются таким же образом.

Кластер Используя поиск радиуса графика подобия

Найдите кластеры в наборе данных, на основе заданного поискового радиуса для создания графика подобия.

Создайте данные с 3 кластеры, каждый содержащий 500 точек.

rng('default') % For reproducibility
N = 500;
X = [mvnrnd([0 0],eye(2),N); ...
    mvnrnd(5*[1 -1],eye(2),N); ...
    mvnrnd(5*[1 1],eye(2),N)];

Задайте поисковый радиус 2 для создания графика подобия, и находят 3 кластера в данных.

idx = spectralcluster(X,3,'SimilarityGraph','epsilon','Radius',2);

Визуализируйте результат кластеризации.

gscatter(X(:,1),X(:,2),idx);

Найдите собственные значения и собственные вектора матрицы Лапласа

Найдите собственные значения и собственные вектора Матрицы Лапласа и используйте значения, чтобы подтвердить кластеризирующиеся результаты.

Случайным образом сгенерируйте выборочные данные с тремя хорошо разделенными кластерами, каждый содержащий 100 точек.

rng('default'); % For reproducibility
n = 100;
X = [randn(n,2)*0.5+3;
    randn(n,2)*0.5
    randn(n,2)*0.5-3];

Оцените количество кластеров в данных при помощи собственных значений Матрицы Лапласа. Вычислите пять самых маленьких собственных значений (в величине) Матрицы Лапласа.

[~,~,D_temp] = spectralcluster(X,5)

D_temp = 5×1

   -0.0000
   -0.0000
   -0.0000
    0.0277
    0.0296

Только первые три собственных значения являются приблизительно нулем. Количество нулевых собственных значений является хорошим индикатором количества связанных компонентов в графике подобия и, поэтому, является хорошей оценкой количества кластеров в ваших данных. Так, k=3 хорошая оценка количества кластеров в X.

Найдите k=3 кластеры и возвращают три самых маленьких собственных значения и соответствующие собственные вектора Матрицы Лапласа.

[idx,V,D] = spectralcluster(X,3)

idx = 300×1

     3
     3
     3
     3
     3
     3
     3
     3
     3
     3
      ⋮

V = 300×3

   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
   -0.0000   -0.0000   -0.1000
      ⋮

D = 3×1
10^-16 ×

   -0.3308
   -0.3747
   -0.4167

Элементы D соответствуйте трем самым маленьким собственным значениям Матрицы Лапласа. Столбцы V содержите собственные вектора, соответствующие собственным значениям в D. Для хорошо разделенных кластеров собственные вектора являются векторами индикатора. Собственные вектора имеют значения нуля (или близко к нулю) для точек, которые не принадлежат конкретному кластеру и ненулевым значениям для точек, которые принадлежат конкретному кластеру.

Визуализируйте результат кластеризации.

gscatter(X(:,1),X(:,2),idx);

Входные параметры

`X` — Входные данные
числовая матрица

Входные данные в виде n-by-p числовая матрица. Строки X соответствуйте наблюдениям (или точки), и столбцы соответствуют переменным.

Программное обеспечение обрабатывает NaNs в X как недостающие данные и игнорирует любую строку X содержа по крайней мере один NaN. spectralcluster функция возвращает NaN значения для соответствующей строки в выходных аргументах idx и V.

Типы данных: single | double

`S` — Матрица подобия
симметрическая матрица

Матрица подобия в виде n-by-n симметрическая матрица, где n является количеством наблюдений. Матрица подобия (или матрица смежности) представляют входные данные путем моделирования локальных отношений окружения среди точек данных. Значения в матрице подобия представляют ребра (или связи) между узлами (точки данных), которые соединяются в графике подобия. Для получения дополнительной информации смотрите Матрицу Подобия.

S не должен содержать NaN значения.

Использовать матрицу подобия в качестве первого входа spectralcluster, необходимо задать 'Distance','precomputed'.

Типы данных: single | double

`k` — Количество кластеров
положительное целое число

Количество кластеров в данных в виде положительного целого числа.

Для получения дополнительной информации о том, как оценить количество кластеров, смотрите Советы.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: spectralcluster(X,3,'SimilarityGraph','epsilon','Radius',5) задает 3 кластеры и использование метод поиска радиуса с поисковым радиусом 5 создать график подобия.

`'Distance'` — Метрика расстояния
вектор символов | строковый скаляр | указатель на функцию

Метрика расстояния в виде разделенной запятой пары, состоящей из 'Distance' и вектор символов, строковый скаляр или указатель на функцию, как описано в этой таблице.

Значение	Описание
`'precomputed'`	Предварительно вычисленное расстояние. Необходимо задать эту опцию если первый вход к `spectralcluster` матрица подобия `S`.
`'euclidean'`	Евклидово расстояние (значение по умолчанию)
`'seuclidean'`	Стандартизированное Евклидово расстояние. Каждое координатное различие между наблюдениями масштабируется путем деления на соответствующий элемент стандартного отклонения, вычисленного из `X`. Используйте `Scale` аргумент пары "имя-значение", чтобы задать различный масштабный коэффициент.
`'mahalanobis'`	Расстояние Mahalanobis с помощью выборочной ковариации `X`, `C = cov(X,'omitrows')`. Используйте `Cov` аргумент пары "имя-значение", чтобы задать различную ковариационную матрицу.
`'cityblock'`	Расстояние городского квартала
`'minkowski'`	Расстояние Минковскего. Экспонента по умолчанию равняется 2. Используйте `P` аргумент пары "имя-значение", чтобы задать различную экспоненту, где `P` значение положительной скалярной величины.
`'chebychev'`	Расстояние Чебычева (максимум координируют различие),
`'cosine'`	Один минус косинус включенного угла между наблюдениями (обработанный как векторы)
`'correlation'`	Один минус корреляция выборки между наблюдениями (обработанный как последовательности значений)
`'hamming'`	Расстояние Хемминга, которое является процентом координат, которые отличаются
`'jaccard'`	Один минус коэффициент Jaccard, который является процентом ненулевых координат, которые отличаются
`'spearman'`	Один минус порядковая корреляция демонстрационного Копьеносца между наблюдениями (обработанный как последовательности значений)
`@distfun`	Пользовательский указатель на функцию расстояния. Функция расстояния имеет форму function D2 = distfun(ZI,ZJ) % calculation of distance ... где `ZI` `1`- `n` вектор, содержащий одно наблюдение. `ZJ` `m2`- `n` матрица, содержащая несколько наблюдений. `distfun` должен принять матричный `ZJ` с произвольным числом наблюдений. `D2` `m2`- `1` вектор из расстояний и `D2(k)` расстояние между наблюдениями `ZI` и `ZJ(k,:)`. Если ваши данные не разреженны, можно обычно вычислять расстояние более быстро при помощи встроенного расстояния вместо указателя на функцию.

Для получения дополнительной информации смотрите Метрики Расстояния.

Когда вы используете 'seuclidean', 'minkowski', или 'mahalanobis' метрика расстояния, можно задать дополнительный аргумент пары "имя-значение" 'Scale'P, или 'Cov', соответственно, чтобы управлять метрикой расстояния.

Пример: spectralcluster(X,5,'Distance','minkowski','P',3) задает 5 кластеры и использование метрики расстояния Минковскего с экспонентой 3 выполнять кластеризирующийся алгоритм.

`'P'` — Экспонента для метрики расстояния Минковскего
2 (значение по умолчанию) | положительная скалярная величина

Экспонента для метрики расстояния Минковскего в виде разделенной запятой пары, состоящей из 'P' и положительная скалярная величина.

Этот аргумент допустим только если 'Distance' 'minkowski'.

Пример: 'P',3

Типы данных: single | double

`'Cov'` — Ковариационная матрица для метрики расстояния Mahalanobis
`cov(X,'omitrows')` (значение по умолчанию) | положительная определенная матрица

Ковариационная матрица для метрики расстояния Mahalanobis в виде разделенной запятой пары, состоящей из 'Cov' и положительная определенная матрица.

Этот аргумент допустим только если 'Distance' 'mahalanobis'.

Пример: 'Cov',eye(4)

Типы данных: single | double

`'Scale'` — Масштабные коэффициенты для стандартизированной Евклидовой метрики расстояния
`std(X,'omitnan')` (значение по умолчанию) | числовой вектор из неотрицательных значений

Масштабные коэффициенты для стандартизированной Евклидовой метрики расстояния в виде разделенной запятой пары, состоящей из 'Scale' и числовой вектор из неотрицательных значений.

Scale имеет длину p (количество столбцов в X), потому что каждая размерность (столбец) X имеет соответствующее значение в Scale. Для каждой размерности X, spectralcluster использует соответствующее значение в Scale стандартизировать различие между наблюдениями.

Этот аргумент допустим только если 'Distance' 'seuclidean'.

Типы данных: single | double

`'SimilarityGraph'` — Тип графика подобия
`'knn'` (значение по умолчанию) | `'epsilon'`

Тип графика подобия, чтобы создать из входных данных XВ виде разделенной запятой пары, состоящей из 'SimilarityGraph' и одно из этих значений.

Значение Описание Специфичные для графика Аргументы в виде пар имя-значение

Значение	Описание	Специфичные для графика Аргументы в виде пар имя-значение
`'knn'`	Построение (По умолчанию) график с помощью самых близких соседей.	`'NumNeighbors'` — Количество самых близких соседей раньше создавало график подобия `'KNNGraphType'` — Тип самого близкого соседнего графика
`'epsilon'`	Создайте график с помощью поиска радиуса. Необходимо задать значение для `Radius` если вы используете эту опцию.	`'Radius'` — Поисковый радиус для самых близких соседей раньше создавал график подобия

'knn'

Построение (По умолчанию) график с помощью самых близких соседей.

'NumNeighbors' — Количество самых близких соседей раньше создавало график подобия

'KNNGraphType' — Тип самого близкого соседнего графика

'epsilon'

Создайте график с помощью поиска радиуса. Необходимо задать значение для Radius если вы используете эту опцию.

'Radius' — Поисковый радиус для самых близких соседей раньше создавал график подобия

Для получения дополнительной информации см. График Подобия.

Этот аргумент допустим только если 'Distance' не 'precomputed'.

Пример: 'SimilarityGraph','epsilon'

`'NumNeighbors'` — Количество самых близких соседей
`log(size(X,1))` (значение по умолчанию) | положительное целое число

Количество самых близких соседей раньше создавало график подобия в виде разделенной запятой пары, состоящей из 'NumNeighbors' и положительное целое число.

Этот аргумент допустим только если 'SimilarityGraph' 'knn'. Для получения дополнительной информации см. График Подобия.

Пример: 'NumNeighbors',10

Типы данных: single | double

`'KNNGraphType'` — Тип самого близкого соседнего графика
`'complete'` (значение по умолчанию) | `'mutual'`

Тип самого близкого соседнего графика в виде разделенной запятой пары, состоящей из 'KNNGraphType' и одно из этих значений.

Значение Описание

Значение	Описание
`'complete'`	Подключения (По умолчанию) две точки i и j, когда или i является самым близким соседом j или j, являются самым близким соседом i. Эта опция приводит к более плотному представлению матрицы подобия.
`'mutual'`	Подключения две точки i и j, когда i является самым близким соседом j и j, являются самым близким соседом i. Эта опция приводит к более разреженному представлению матрицы подобия.

'complete'

Подключения (По умолчанию) две точки i и j, когда или i является самым близким соседом j или j, являются самым близким соседом i.

Эта опция приводит к более плотному представлению матрицы подобия.

'mutual'

Подключения две точки i и j, когда i является самым близким соседом j и j, являются самым близким соседом i.

Эта опция приводит к более разреженному представлению матрицы подобия.

Этот аргумент допустим только если 'SimilarityGraph' 'knn'.

Пример: 'KNNGraphType','mutual'

`'Radius'` — Поисковый радиус
неотрицательный скаляр

Поисковый радиус для самых близких соседей раньше создавал график подобия в виде разделенной запятой пары, состоящей из 'Radius' и неотрицательный скаляр.

Необходимо задать этот аргумент если 'SimilarityGraph' 'epsilon'. Для получения дополнительной информации см. График Подобия.

Пример: 'Radius',5

Типы данных: single | double

`'KernelScale'` ScaleFactor
1 (значение по умолчанию) | `'auto'` | положительная скалярная величина

Масштабный коэффициент для ядра в виде разделенной запятой пары, состоящей из 'KernelScale' и 'auto' или положительная скалярная величина. Программное обеспечение использует масштабный коэффициент, чтобы преобразовать расстояния до мер по подобию. Для получения дополнительной информации см. График Подобия.

'auto' опция поддерживается только для 'euclidean' и 'seuclidean' метрики расстояния.
Если вы задаете 'auto', затем программное обеспечение выбирает соответствующий масштабный коэффициент с помощью эвристической процедуры. Эта эвристическая процедура использует подвыборку, таким образом, оценки могут варьироваться от одного вызова до другого. Чтобы воспроизвести результаты, установите использование seed случайных чисел rng перед вызовом spectralcluster.

Этот аргумент допустим только если 'Distance' не 'precomputed'.

Пример: 'KernelScale','auto'

Типы данных: double | single | char | string

`'LaplacianNormalization'` — Метод, чтобы нормировать Матрицу Лапласа
`'randomwalk'` (значение по умолчанию) | `'symmetric'` | `'none'`

Метод, чтобы нормировать Матрицу Лапласа L в виде разделенной запятой пары, состоящей из 'LaplacianNormalization' и одно из этих значений.

Значение Описание

Значение	Описание
`'none'`	Используйте Матрицу Лапласа L без нормализации.
`'randomwalk'`	Использование (По умолчанию) нормированная Матрица Лапласа случайного обхода _Lrw (Ши-Малик [2]). $L_{r w} = D_{g}^{- 1} L .$ Матричный _Dg является матрицей степени.
`'symmetric'`	Используйте нормированную симметричную Матрицу Лапласа _Ls (Ын-Джордан-Вайс [3]). $L_{s} = D_{g}^{- 1 / 2} L D_{g}^{- 1 / 2} .$ Матричный _Dg является матрицей степени.

'none'

Используйте Матрицу Лапласа L без нормализации.

'randomwalk'

Использование (По умолчанию) нормированная Матрица Лапласа случайного обхода _Lrw (Ши-Малик [2]).

$L_{r w} = D_{g}^{- 1} L .$

Матричный _Dg является матрицей степени.

'symmetric'

Используйте нормированную симметричную Матрицу Лапласа _Ls (Ын-Джордан-Вайс [3]).

$L_{s} = D_{g}^{- 1 / 2} L D_{g}^{- 1 / 2} .$

Матричный _Dg является матрицей степени.

Для получения дополнительной информации смотрите Матрицу Лапласа.

Пример: 'LaplacianNormalization','randomwalk'

`'ClusterMethod'` — Кластеризация метода
`'kmeans'` (значение по умолчанию) | `'kmedoids'`

Кластеризация метода, чтобы кластеризировать собственные вектора Матрицы Лапласа в виде разделенной запятой пары, состоящей из 'ClusterMethod' и любой 'kmeans' или 'kmedoids'.

'kmeans' — Выполните k - означает кластеризироваться при помощи kmeans функция.
'kmedoids' — Выполните k-medoids кластеризирующийся при помощи kmedoids функция.

kmeans и kmedoids вовлеките случайность в их алгоритмы. Поэтому воспроизвести результаты spectralcluster, необходимо установить seed генератора случайных чисел при помощи rng.

Пример: 'ClusterMethod','kmedoids'

Выходные аргументы

`idx` — Кластерные индексы
числовой вектор-столбец

Кластерные индексы, возвращенные как числовой вектор-столбец. idx имеет строки n и каждую строку idx указывает на кластерное присвоение соответствующей строки (или наблюдение) в X.

Типы данных: double

`V` — Собственные вектора
числовая матрица

Собственные вектора, возвращенные как n-by-k числовая матрица. Столбцы V собственные вектора, соответствующие k самые маленькие собственные значения Матрицы Лапласа. Эти собственные вектора являются низко-размерным представлением входных данных X на новом пробеле, где кластеры более широко разделяются.

Для хорошо разделенных кластеров собственные вектора являются векторами индикатора. Таким образом, собственные вектора имеют значения нуля (или близко к нулю) для точек, которые не принадлежат данному кластеру и ненулевым значениям для точек, которые принадлежат конкретному кластеру.

Типы данных: single | double

`D` Собственные значения
числовой вектор

Собственные значения, возвращенные как k- 1 числовой вектор, который содержит k самые маленькие собственные значения Матрицы Лапласа. Количество нулевых собственных значений в D индикатор количества связанных компонентов в графике подобия и, поэтому, хорошая оценка количества кластеров в ваших данных.

Типы данных: single | double

Больше о