Документация

idx = spectralcluster(X,k) наблюдения секционирования в матрице данных n-by-p X в k кластеров с использованием алгоритма спектральной кластеризации (см. Алгоритмы). spectralcluster возвращает вектор n-by-1 idx содержит кластерные индексы каждого наблюдения.

idx = spectralcluster(S,k,'Distance','precomputed') возвращает вектор индексов кластера для Sматрица подобия (или матрица смежности) графа подобия. S может быть выводом adjacency.

Чтобы использовать матрицу подобия в качестве первого ввода, необходимо указать 'Distance','precomputed'.

idx = spectralcluster(___,Name,Value) указывает дополнительные параметры, использующие один или несколько аргументов пары имя-значение в дополнение к входным аргументам в предыдущих синтаксисах. Например, можно указать 'SimilarityGraph','epsilon' для построения графа подобия с использованием метода поиска радиуса.

[idx,V] = spectralcluster(___) также возвращает собственные векторы V соответствующие k наименьшие собственные значения матрицы Лапласа.

[idx,V,D] = spectralcluster(___) также возвращает вектор D содержащий k наименьшие собственные значения матрицы Лапласа.

Примеры

Выполнение спектральной кластеризации входных данных

Кластеризация 2-D кругового набора данных с использованием спектральной кластеризации с метрикой евклидова расстояния по умолчанию.

Создание синтетических данных, содержащих две шумные окружности.

rng('default') % For reproducibility

% Parameters for data generation
N = 300;  % Size of each cluster
r1 = 2;   % Radius of first circle
r2 = 4;   % Radius of second circle
theta = linspace(0,2*pi,N)';

X1 = r1*[cos(theta),sin(theta)]+ rand(N,1); 
X2 = r2*[cos(theta),sin(theta)]+ rand(N,1);
X = [X1;X2]; % Noisy 2-D circular data set

Найдите два кластера в данных с помощью спектральной кластеризации.

idx = spectralcluster(X,2);

Визуализация результата кластеризации.

gscatter(X(:,1),X(:,2),idx);

Figure contains an axes. The axes contains 2 objects of type line. These objects represent 1, 2.

spectralcluster функция правильно идентифицирует два кластера в наборе данных.

Выполнение спектральной кластеризации по матрице подобия

Вычислите матрицу подобия из набора данных радужки Фишера и выполните спектральную кластеризацию по матрице подобия.

Загрузите набор данных радужки Фишера. Используйте длины и ширину лепестков в качестве элементов для кластеризации.

load fisheriris
X = meas(:,3:4);
gscatter(X(:,1),X(:,2),species);

Figure contains an axes. The axes contains 3 objects of type line. These objects represent setosa, versicolor, virginica.

Найдите расстояние между каждой парой наблюдений в X с помощью pdist и squareform с метрикой евклидова расстояния по умолчанию.

dist_temp = pdist(X);
dist = squareform(dist_temp);

Создайте матрицу подобия и подтвердите, что она симметрична.

S = exp(-dist.^2);
issymmetric(S)

ans = logical
   1

Выполните спектральную кластеризацию. Определить 'Distance','precomputed' для выполнения кластеризации с использованием матрицы подобия. Определить k=3 кластеров и установите 'LaplacianNormalization' аргумент пары имя-значение для использования нормализованной симметричной лапласианской матрицы.

k = 3; % Number of clusters
rng('default') % For reproducibility
idx = spectralcluster(S,k,'Distance','precomputed','LaplacianNormalization','symmetric');

idx содержит индексы кластера для каждого наблюдения в X.

Визуализация результата кластеризации.

gscatter(X(:,1),X(:,2),idx);

Figure contains an axes. The axes contains 3 objects of type line. These objects represent 1, 2, 3.

Составить таблицу результатов кластеризации.

tabulate(idx)

  Value    Count   Percent
      1       48     32.00%
      2       50     33.33%
      3       52     34.67%

Percent показывает процент точек данных, назначенных трем кластерам.

Повторить спектральную кластеризацию с использованием данных в качестве входных данных для spectralcluster. Определить 'NumNeighbors' как size(X,1), что соответствует созданию матрицы подобия S путем соединения каждой точки со всеми остальными точками.

idx2 = spectralcluster(X,k,'NumNeighbors',size(X,1),'LaplacianNormalization','symmetric');
gscatter(X(:,1),X(:,2),idx2);

Figure contains an axes. The axes contains 3 objects of type line. These objects represent 1, 2, 3.

tabulate(idx2)

  Value    Count   Percent
      1       50     33.33%
      2       52     34.67%
      3       48     32.00%

Результаты кластеризации для обоих подходов одинаковы. Порядок назначения кластеров различен, даже если точки данных кластеризованы одинаковым образом.

Кластер с использованием графика поиска подобия Radius

Поиск кластеров в наборе данных на основе заданного радиуса поиска для создания графа подобия.

Создание данных с помощью 3 кластеры, каждый из которых содержит 500 точек.

rng('default') % For reproducibility
N = 500;
X = [mvnrnd([0 0],eye(2),N); ...
    mvnrnd(5*[1 -1],eye(2),N); ...
    mvnrnd(5*[1 1],eye(2),N)];

Укажите радиус поиска 2 для создания графа подобия и найти 3 кластера в данных.

idx = spectralcluster(X,3,'SimilarityGraph','epsilon','Radius',2);

Визуализация результата кластеризации.

gscatter(X(:,1),X(:,2),idx);

Figure contains an axes. The axes contains 3 objects of type line. These objects represent 1, 2, 3.

Найти собственные значения и собственные векторы матрицы Лапласа

Найдите собственные значения и собственные векторы матрицы Лапласа и используйте значения для подтверждения результатов кластеризации.

Случайным образом генерируют данные выборки с тремя хорошо разделенными кластерами, каждый из которых содержит 100 точек.

rng('default'); % For reproducibility
n = 100;
X = [randn(n,2)*0.5+3;
    randn(n,2)*0.5
    randn(n,2)*0.5-3];

Оцените количество кластеров в данных, используя собственные значения матрицы Лапласа. Вычислите пять наименьших собственных значений (по величине) матрицы Лапласа.

[~,~,D_temp] = spectralcluster(X,5)

D_temp = 5×1

   -0.0000
   -0.0000
   -0.0000
    0.0277
    0.0296

Только первые три собственных значения приблизительно равны нулю. Число нулевых собственных значений является хорошим показателем количества связных компонентов в графе подобия и, следовательно, хорошей оценкой количества кластеров в ваших данных. Итак, k=3 является хорошей оценкой количества кластеров в X.

Найти k=3 кластеры и возвращают три наименьших собственных значения и соответствующие собственные векторы лапласиевой матрицы.

[idx,V,D] = spectralcluster(X,3)

idx = 300×1

     3
     3
     3
     3
     3
     3
     3
     3
     3
     3
      ⋮

V = 300×3

   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
   -0.0000    0.1000    0.0000
      ⋮

D = 3×1
10^-16 ×

   -0.3634
   -0.3857
   -0.3894

Элементы D соответствуют трём наименьшим собственным значениям матрицы Лапласа. Столбцы V содержат собственные векторы, соответствующие собственным значениям в D. Для хорошо разделенных кластеров собственные векторы являются индикаторными векторами. Собственные векторы имеют значения ноль (или близкие к нулю) для точек, которые не принадлежат определенному кластеру, и ненулевые значения для точек, которые принадлежат конкретному кластеру.

Визуализация результата кластеризации.

gscatter(X(:,1),X(:,2),idx);

Figure contains an axes. The axes contains 3 objects of type line. These objects represent 1, 2, 3.

Входные аргументы

`X` - Входные данные
числовая матрица

Входные данные, определенные как n-by-p-числовая матрица. Строки X соответствуют наблюдениям (или точкам), а столбцы - переменным.

Программное обеспечение обрабатывает NaNs в X как отсутствующие данные и игнорирует любую строку X содержащий, по крайней мере, один NaN. spectralcluster функция возвращает NaN значения для соответствующей строки в выходных аргументах idx и V.

Типы данных: single | double

`S` - Матрица подобия
симметричная матрица

Матрица подобия, заданная как симметричная матрица n-на-n, где n - количество наблюдений. Матрица подобия (или матрица смежности) представляет входные данные путем моделирования локальных отношений соседства между точками данных. Значения в матрице подобия представляют ребра (или соединения) между узлами (точками данных), которые связаны в графе подобия. Дополнительные сведения см. в разделе Матрица подобия.

S не должен содержать NaN значения.

Использование матрицы подобия в качестве первого входа spectralcluster, необходимо указать 'Distance','precomputed'.

Типы данных: single | double

`k` - Количество кластеров
положительное целое число

Число кластеров в данных, указанное как положительное целое число.

Дополнительные сведения об оценке количества кластеров см. в разделе Советы.

Типы данных: single | double

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: spectralcluster(X,3,'SimilarityGraph','epsilon','Radius',5) определяет 3 кластеров и использует метод поиска радиуса с радиусом поиска 5 для построения графа подобия.

`'Distance'` - Метрика расстояния
вектор символов | скаляр строки | дескриптор функции

Метрика расстояния, заданная как разделенная запятыми пара, состоящая из 'Distance' и символьный вектор, строковый скаляр или дескриптор функции, как описано в этой таблице.

Стоимость	Описание
`'precomputed'`	Предварительно вычисленное расстояние. Необходимо указать этот параметр, если первый ввод в `spectralcluster` является матрицей подобия `S`.
`'euclidean'`	Евклидово расстояние (по умолчанию)
`'seuclidean'`	Стандартизированное евклидово расстояние. Каждая разность координат между наблюдениями масштабируется делением на соответствующий элемент стандартного отклонения, вычисленного из `X`. Используйте `Scale` аргумент пары «имя-значение» для указания другого коэффициента масштабирования.
`'mahalanobis'`	Расстояние Махаланобиса с использованием ковариации образца `X`, `C = cov(X,'omitrows')`. Используйте `Cov` аргумент пары имя-значение для указания другой ковариационной матрицы.
`'cityblock'`	Расстояние между городскими кварталами
`'minkowski'`	Минковская дистанция. Степень по умолчанию равна 2. Используйте `P` аргумент пары имя-значение для указания другой степени, где `P` - положительное скалярное значение.
`'chebychev'`	Расстояние Чебычева (максимальная разность координат)
`'cosine'`	Один минус косинус включенного угла между наблюдениями (рассматривается как векторы)
`'correlation'`	Один минус выборочная корреляция между наблюдениями (рассматривается как последовательность значений)
`'hamming'`	Расстояние хэмминга, которое представляет собой процент различающихся координат
`'jaccard'`	Один минус коэффициент Jaccard, который является процентом ненулевых координат, которые отличаются
`'spearman'`	Один минус выборка ранговой корреляции Спирмена между наблюдениями (рассматривается как последовательности значений)
`@distfun`	Пользовательский дескриптор функции расстояния. Функция расстояния имеет вид function D2 = distfun(ZI,ZJ) % calculation of distance ... где `ZI` является `1`около-`n` вектор, содержащий одно наблюдение. `ZJ` является `m2`около-`n` матрица, содержащая несколько наблюдений. `distfun` должен принять матрицу `ZJ` с произвольным числом наблюдений. `D2` является `m2`около-`1` вектор расстояний, и `D2(k)` - расстояние между наблюдениями `ZI` и `ZJ(k,:)`. Если данные не разрежены, можно, как правило, быстрее вычислять расстояние, используя встроенное расстояние вместо дескриптора функции.

Дополнительные сведения см. в разделе Метрики расстояния.

При использовании 'seuclidean', 'minkowski', или 'mahalanobis' метрика расстояния, можно указать дополнительный аргумент пары имя-значение 'Scale', 'P', или 'Cov', соответственно, для управления метрикой расстояния.

Пример: spectralcluster(X,5,'Distance','minkowski','P',3) определяет 5 кластеры и использование метрики расстояния Минковского с показателем 3 для выполнения алгоритма кластеризации.

`'P'` - Показатель для метрики расстояния Минковского
`2` (по умолчанию) | положительный скаляр

Экспонента для метрики расстояния Минковского, заданная как разделенная запятыми пара, состоящая из 'P' и положительный скаляр.

Этот аргумент допустим только в том случае, если 'Distance' является 'minkowski'.

Пример: 'P',3

Типы данных: single | double

`'Cov'` - Ковариационная матрица для метрики расстояния Махаланобиса
`cov(X,'omitrows')` (по умолчанию) | положительная определенная матрица

Ковариационная матрица для метрики расстояния Махаланобиса, заданная как разделенная запятыми пара, состоящая из 'Cov' и положительная определенная матрица.

Этот аргумент допустим только в том случае, если 'Distance' является 'mahalanobis'.

Пример: 'Cov',eye(4)

Типы данных: single | double

`'Scale'` - Коэффициенты масштабирования для стандартизированной евклидовой метрики расстояния
`std(X,'omitnan')` (по умолчанию) | числовой вектор неотрицательных значений

Масштабные коэффициенты для стандартизированной евклидовой метрики расстояния, заданной как разделенная запятыми пара, состоящая из 'Scale' и числовой вектор неотрицательных значений.

Scale имеет длину p (количество столбцов в X), потому что каждое измерение (столбец) X имеет соответствующее значение в Scale. Для каждого измерения X, spectralcluster использует соответствующее значение в Scale для стандартизации различий между наблюдениями.

Этот аргумент допустим только в том случае, если 'Distance' является 'seuclidean'.

Типы данных: single | double

`'SimilarityGraph'` - Тип графика подобия
`'knn'` (по умолчанию) | `'epsilon'`

Тип графа подобия для построения из входных данных X, указанная как пара, разделенная запятыми, состоящая из 'SimilarityGraph' и одно из этих значений.

Стоимость Описание Аргументы пары имя-значение для конкретного графа

Стоимость	Описание	Аргументы пары имя-значение для конкретного графа
`'knn'`	(По умолчанию) Построение графика с использованием ближайших соседей.	`'NumNeighbors'` - число ближайших соседей, используемых для построения графа подобия; `'KNNGraphType'` - Тип ближайшего соседнего графа
`'epsilon'`	Постройте график, используя поиск по радиусу. Необходимо указать значение для `Radius` при использовании этого параметра.	`'Radius'` - радиус поиска ближайших соседей, используемых для построения графа подобия;

'knn'

(По умолчанию) Построение графика с использованием ближайших соседей.

'NumNeighbors' - число ближайших соседей, используемых для построения графа подобия;

'KNNGraphType' - Тип ближайшего соседнего графа

'epsilon'

Постройте график, используя поиск по радиусу. Необходимо указать значение для Radius при использовании этого параметра.

'Radius' - радиус поиска ближайших соседей, используемых для построения графа подобия;

Дополнительные сведения см. в разделе График подобия.

Этот аргумент допустим только в том случае, если 'Distance' не является 'precomputed'.

Пример: 'SimilarityGraph','epsilon'

`'NumNeighbors'` - Количество ближайших соседей
`log(size(X,1))` (по умолчанию) | положительное целое число

Число ближайших соседей, использованных для построения графа подобия, заданного как пара, разделенная запятыми, состоящая из 'NumNeighbors' и положительное целое число.

Этот аргумент допустим только в том случае, если 'SimilarityGraph' является 'knn'. Дополнительные сведения см. в разделе График подобия.

Пример: 'NumNeighbors',10

Типы данных: single | double

`'KNNGraphType'` - Тип ближайшего соседнего графа
`'complete'` (по умолчанию) | `'mutual'`

Тип ближайшего соседнего графа, указанного как разделенная запятыми пара, состоящая из 'KNNGraphType' и одно из этих значений.

Стоимость Описание

Стоимость	Описание
`'complete'`	(По умолчанию) Соединяет две точки i и j, когда либо i является ближайшим соседом j, либо j является ближайшим соседом i. Эта опция приводит к более плотному представлению матрицы подобия.
`'mutual'`	Соединяет две точки i и j, когда i является ближайшим соседом j, а j является ближайшим соседом i. Эта опция приводит к более скудному представлению матрицы подобия.

'complete'

(По умолчанию) Соединяет две точки i и j, когда либо i является ближайшим соседом j, либо j является ближайшим соседом i.

Эта опция приводит к более плотному представлению матрицы подобия.

'mutual'

Соединяет две точки i и j, когда i является ближайшим соседом j, а j является ближайшим соседом i.

Эта опция приводит к более скудному представлению матрицы подобия.

Этот аргумент допустим только в том случае, если 'SimilarityGraph' является 'knn'.

Пример: 'KNNGraphType','mutual'

`'Radius'` - Радиус поиска
неотрицательный скаляр

Радиус поиска ближайших соседей, используемых для построения графа подобия, заданного как разделенная запятыми пара, состоящая из 'Radius' и неотрицательный скаляр.

Необходимо указать этот аргумент, если 'SimilarityGraph' является 'epsilon'. Дополнительные сведения см. в разделе График подобия.

Пример: 'Radius',5

Типы данных: single | double

`'KernelScale'` - Масштабный коэффициент
`1` (по умолчанию) | `'auto'` | положительный скаляр

Масштабный коэффициент для ядра, определяемый как разделенная запятыми пара, состоящая из 'KernelScale' и 'auto' или положительный скаляр. Программа использует масштабный коэффициент для преобразования расстояний в измерения подобия. Дополнительные сведения см. в разделе График подобия.

'auto' поддерживается только для 'euclidean' и 'seuclidean' метрики расстояния.
При указании 'auto'затем программное обеспечение выбирает соответствующий масштабный коэффициент с использованием эвристической процедуры. Эта эвристическая процедура использует субдискретизацию, поэтому оценки могут варьироваться от одного вызова к другому. Чтобы воспроизвести результаты, задайте начальное число случайного числа с помощью rng перед вызовом spectralcluster.

Этот аргумент допустим только в том случае, если 'Distance' не является 'precomputed'.

Пример: 'KernelScale','auto'

Типы данных: double | single | char | string

`'LaplacianNormalization'` - Метод нормализации матрицы Лапласа
`'randomwalk'` (по умолчанию) | `'symmetric'` | `'none'`

Метод нормализации матрицы Лапласа L, указанной как разделенная запятыми пара, состоящая из 'LaplacianNormalization' и одно из этих значений.

Стоимость Описание

Стоимость	Описание
`'none'`	Используйте лапласовую матрицу L без нормализации.
`'randomwalk'`	(По умолчанию) Используйте нормализованную лапласианскую матрицу Lrw (Shi-Malik [2]). $_{Lrw} =_{}^{Dg} -$ 1L. Матрица _Dg является градусной матрицей.
`'symmetric'`	Используйте нормализованную симметричную лапласианскую матрицу _Ls (Ng-Jordan-Weiss [3]). $_{Ls} =_{}^{Dg −}_{}^{1/2LDg}$ − 1/2. Матрица _Dg является градусной матрицей.

'none'

Используйте лапласовую матрицу L без нормализации.

'randomwalk'

(По умолчанию) Используйте нормализованную лапласианскую матрицу Lrw (Shi-Malik [2]).

$_{Lrw} =_{}^{Dg} -$ 1L.

Матрица _Dg является градусной матрицей.

'symmetric'

Используйте нормализованную симметричную лапласианскую матрицу _Ls (Ng-Jordan-Weiss [3]).

$_{Ls} =_{}^{Dg −}_{}^{1/2LDg}$ − 1/2.

Матрица _Dg является градусной матрицей.

Дополнительные сведения см. в разделе Матрица Laplacian.

Пример: 'LaplacianNormalization','randomwalk'

`'ClusterMethod'` - Метод кластеризации
`'kmeans'` (по умолчанию) | `'kmedoids'`

Метод кластеризации для кластеризации собственных векторов матрицы Лапласа, определяемый как пара, разделенная запятыми, состоящая из 'ClusterMethod' и либо 'kmeans' или 'kmedoids'.

'kmeans' - Выполнить кластеризацию k-means с помощью kmeans функция.
'kmedoids' - Выполнение кластеризации k-medoids с помощью kmedoids функция.

kmeans и kmedoids включают случайность в свои алгоритмы. Поэтому воспроизвести результаты spectralcluster, необходимо задать начальное число генератора случайных чисел с помощью rng.

Пример: 'ClusterMethod','kmedoids'

Выходные аргументы

`idx` - Индексы кластера
числовой вектор столбца

Индексы кластера, возвращаемые в виде числового вектора столбца. idx имеет n строк, и каждая строка idx указывает назначение кластера соответствующей строки (или наблюдения) в X.

Типы данных: double

`V` - Собственные векторы
числовая матрица

Собственные векторы, возвращаемые как n-by-k числовая матрица. Столбцы V являются собственными векторами, соответствующими k наименьшие собственные значения матрицы Лапласа. Эти собственные векторы являются низкоразмерным представлением входных данных. X в новом пространстве, где кластеры более широко разделены.

Для хорошо разделенных кластеров собственные векторы являются индикаторными векторами. То есть собственные векторы имеют значения ноль (или близкие к нулю) для точек, которые не принадлежат данному кластеру, и ненулевые значения для точек, которые принадлежат конкретному кластеру.

Типы данных: single | double

`D` - Собственные значения
числовой вектор

Собственные значения, возвращенные как k-by-1 числовой вектор, содержащий k наименьшие собственные значения матрицы Лапласа. Число нулевых собственных значений в D является показателем количества связных компонентов в графе подобия и, следовательно, является хорошей оценкой количества кластеров в ваших данных.

Типы данных: single | double

Подробнее