Основанный на плотности алгоритм для кластеризации данных
clusterDBSCAN
кластеризует точки данных, принадлежащие P -мерному пространству функций, используя основанную на плотности пространственную кластеризацию приложений с алгоритмом noise (DBSCAN). Алгоритм кластеризации назначает точки, которые близки друг к другу в пространстве функций, одному кластеру. Для примера радиолокационная система может вернуть несколько обнаружений расширенной цели, которые тесно разнесены по области значений, углу и Доплеру. clusterDBSCAN
присваивает эти обнаружения одному обнаружению.
Алгоритм DBSCAN принимает, что кластеры являются плотными областями в пространстве данных, разделенными областями с меньшей плотностью и что все плотные области имеют сходные плотности.
Чтобы измерить плотность в точке, алгоритм отсчитывает количество точек данных в окрестности точки. Окрестность является P -мерным эллипсом (гиперэллипсом) в пространстве функций. Радиусы эллипса заданы P -вектором .rможет быть скаляром, в этом случае гиперэллипс становится гиперсферой. Расстояния между точками в пространстве функций вычисляются с помощью метрики Евклидова расстояния. Микрорайон получил название, а по-соседству. Значение И определяется Epsilon
свойство. Epsilon
может быть либо скаляром, либо P -вектором:
Вектор используется, когда различные размерности в пространстве функций имеют различные модули.
Скаляр применяет одно и то же значение ко всем размерностям.
Кластеризация начинается с нахождения всех основных точек. Если точка имеет достаточное число точек в своей, то точка называется центральной точкой. Минимальное число точек, необходимое для того, чтобы точка стала центральной точкой, задается MinNumPoints
свойство.
Оставшимися точками в и-окрестности центральной точки могут быть сами основные точки. Если нет, то это пограничные точки. Все точки в окрестности и окрестности называются непосредственно плотными, достижимыми от точки ядра.
Если ε-neighborhood основной точки содержит другие основные точки, точки в ε-neighborhoods всех основных точек сливаются вместе, чтобы сформировать объединение ε-neighborhoods. Этот процесс продолжается до тех пор, пока больше не будут добавлены основные точки.
Все точки в объединении и окрестностях являются доступными для достижения плотности от первой точки ядра. Фактически, все точки в объединении являются доступными для плотности из всех основных точек в объединении.
Все точки в объединении и окрестностях также называются плотными соединениями, хотя пограничные точки необязательно доступны друг от друга. Кластер является максимальным набором точек, связанных по плотности, и может иметь произвольную форму.
Точки, которые не являются основными или пограничными точками, являются шумовыми точками. Они не относятся ни к одному кластеру.
The clusterDBSCAN
объект может оценивать и, используя k - ближайший соседний поиск, или можно задать значения. Чтобы позволить объекту оценить ε, установите EpsilonSource
свойство к 'Auto'
.
The clusterDBSCAN
объект может изменить неоднозначность данных, содержащих неоднозначности. Область значений и Доплер являются примерами возможно неоднозначных данных. Задайте EnableDisambiguation
свойство к true
для определения неоднозначности данных.
Для обнаружения кластеров:
Создайте clusterDBSCAN
Объекту и установите его свойства.
Вызывайте объект с аргументами, как будто это функция.
Дополнительные сведения о работе системных объектов см. в разделе «Что такое системные объекты?».
создает clusterer
= clusterDBSCANclusterDBSCAN
объект, clusterer
, объект со значениями свойств по умолчанию.
создает clusterer
= clusterDBSCAN(Name,Value)clusterDBSCAN
объект, clusterer
, с каждым заданным свойством Name
установить на заданную Value
. Можно задать дополнительные аргументы пары "имя-значение" в любом порядке как (Name1
, Value1
..., NameN
, ValueN
). Любые неопределенные свойства берут значения по умолчанию. Для примера,
clusterer = clusterDBSCAN('MinNumPoints',3,'Epsilon',2, ... 'EnableDisambiguation',true,'AmbiguousDimension',[1 2]);
EnableDisambiguation
значение свойства установлено равным true, а значение AmbiguousDimension
установлено на [1,2]
.[
также возвращает альтернативный набор идентификаторов кластеров, idx
,clusterids
] = clusterer(X
)clusterids
, для использования в phased.RangeEstimator
и phased.DopplerEstimator
объекты. clusterids
присваивает уникальный идентификатор каждой точке шума.
[___] = clusterer(
автоматически оценивает эпсилон из матрицы входных данных, X
,update
)X
, когда update
установлено в true
. Оценка использует поиск k -NN, чтобы создать набор поисковых кривых. Для получения дополнительной информации см. «Оценка Эпсилона». Оценка является средним значением L последних значений Эпсилона, где L задано в EpsilonHistoryLength
Чтобы включить этот синтаксис, установите EpsilonSource
свойство к 'Auto'
, опционально установите MaxNumPoints
свойство, а также опционально установите EpsilonHistoryLength
свойство.
Чтобы использовать функцию объекта, задайте Системную object™ в качестве первого входного параметра. Например, чтобы освободить системные ресурсы системного объекта с именем obj
, используйте следующий синтаксис:
release(obj)
[1] Ester M., Kriegel H.-P., Sander J. и Xu X. «Основанный на плотности алгоритм обнаружения кластеров в больших пространственных базах данных с шумом». Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, 1996, pp. 226-231.
[2] Эрих Шуберт, Йорг Сандер, Мартин Эстер, Ханс-Петер Кригель и Сяовэй Сюй. 2017. DBSCAN Revisited, Revisited: Why and How You Still (Still) Use DBSCAN (неопр.) (недоступная ссылка). ACM Trans. Database Syst. 42, 3, Article 19 (July 2017), 21 стр.
[3] Dominik Kellner, Jens Klappstein and Klaus Dietmayer, «Grid-Based DBSCAN for Clustering Extended Объектов in Radar Данных», 2012 IEEE Intelligent Транспортных средств Symposium.
[4] Thomas Wagner, Reinhard Feger, and Andreas Stelzer, «A Fast Grid-Based Clustering Algorithm for Range/Doppler/DoA Measurements», Труды 13-й Европейской радиолокационной конференции.
[5] Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg Sander, «OPTICS: Order Points To Identify the Clustering Structure», Proc. ACM SIGMOOD D 99 InT T. Conf. on Management of Data, Philadelphia PA, 1999.