exponenta event banner

clusterDBSCAN.discoverClusters

Поиск иерархии кластера в данных

Описание

пример

[order,reachdist] = clusterDBSCAN.discoverClusters(X,maxepsilon,minnumpoints) возвращает упорядоченный по кластеру список точек, orderи расстояния достижимости, reachdist, для каждой точки в данных X. Укажите максимальный эпсилон, maxepsilonи минимальное количество баллов, minnumpoints. Метод реализует алгоритм упорядочения точек для идентификации кластерной структуры (OPTICS). Алгоритм OPTICS полезен, когда кластеры имеют различные плотности.

clusterDBSCAN.discoverClusters(X,maxepsilon,minnumpoints) отображает гистограмму, представляющую иерархию кластера.

Примеры

свернуть все

Создание целевых данных со случайными обнаружениями в декартовых координатах xy. Используйте clusterDBSCAN.discoverClusters функции объекта, чтобы раскрыть лежащую в основе иерархию кластера.

Во-первых, набор clusterDBSCAN.discoverClusters параметры.

maxEpsilon = 10;
minNumPoints = 6;

Создание случайных целевых данных.

X = [randn(20,2) + [11.5,11.5]; randn(20,2) + [25,15]; randn(20,2) + [8,20]; 10*rand(10,2) + [20,20]];
plot(X(:,1),X(:,2),'.')
axis equal
grid

Figure contains an axes. The axes contains an object of type line.

Постройте график иерархии кластера.

clusterDBSCAN.discoverClusters(X,maxEpsilon,minNumPoints)

Figure Reachability Distances contains an axes. The axes with title Reachability Distances contains an object of type bar.

При визуальном осмотре участка выберите Epsilon как 2, а затем выполнить кластеризацию с помощью clusterDBSCAN объект и постройте график результирующих кластеров.

clusterer = clusterDBSCAN('MinNumPoints',6,'Epsilon',2, ...
    'EnableDisambiguation',false);
[idx,cidx] = clusterer(X);
plot(clusterer,X,idx)

Figure Clusters contains an axes. The axes with title Clusters contains 5 objects of type line, scatter, text.

Входные аргументы

свернуть все

Входные данные элемента, заданные как вещественно-значная матрица N-by-P. N строк соответствуют точкам элемента в P-мерном пространстве элемента. Столбцы P содержат значения элементов, над которыми происходит кластеризация. Алгоритм DBSCAN может объединять данные любого типа с соответствующими MinNumPoints и Epsilon настройки. Например, вход из двух столбцов может содержать декартовы координаты xy или диапазон и доплеровский диапазон.

Типы данных: double

Максимальный размер эпсилона для использования в поиске иерархии кластера, указанный как положительный скаляр. Параметр epsilon определяет окрестность кластеризации вокруг точки. Сокращение maxepsilon приводит к более короткому времени выполнения. Настройка maxepsilon кому inf идентифицирует все возможные кластеры.

Алгоритм OPTICS относительно нечувствителен к настройкам параметров, но выбор более крупных параметров может улучшить результаты.

Пример: 5.0

Типы данных: double

Минимальное количество точек, используемых как пороговое значение, указанное как положительное целое число. Пороговое значение устанавливает минимальное количество точек для кластера.

Алгоритм OPTICS относительно нечувствителен к настройкам параметров, но выбор более крупных параметров может улучшить результаты.

Пример: 10

Типы данных: double

Выходные аргументы

свернуть все

Упорядоченный по кластеру список индексов выборки, возвращаемый как целочисленный вектор 1-by-N строки. N - количество строк в матрице входных данных X.

Расстояние достижимости, возвращаемое как положительный действительный вектор 1-by-N строки. N - количество строк в матрице входных данных X.

Типы данных: double

Алгоритмы

Выходные данные clusterDBSCAN.discoverClusters позволяет создать график достижимости, на основе которого можно визуализировать иерархическую структуру кластеров. График достижимости содержит упорядоченные точки на оси X и расстояния достижимости на оси Y. Используйте выходные данные для проверки структуры кластера в широком диапазоне параметров. Выходные данные можно использовать для оценки соответствующих пороговых значений кластеризации epsilon для алгоритма DBSCAN. Точки, принадлежащие кластеру, имеют небольшие расстояния достижимости до ближайшего соседа, и кластеры появляются как долины на графике достижимости. Более глубокие долины соответствуют более плотным скоплениям. По ординате дна долин определить эпсилон.

OPTICS предполагает, что плотные кластеры полностью содержатся менее плотными кластерами. OPTICS обрабатывает данные в правильном порядке, отслеживая окрестности точечной плотности. Этот процесс выполняется путем упорядочения точек данных по кратчайшим расстояниям достижимости, гарантируя, что кластеры с более высокой плотностью будут идентифицированы первыми.

Расширенные возможности

.
Представлен в R2021a