clusterDBSCAN

Алгоритм кластеризации данных на основе плотности

Описание

clusterDBSCAN кластеры точек данных, принадлежащих пространству P-мерных признаков, используя основанную на плотности пространственную кластеризацию приложений с алгоритмом шума (DBSCAN). Алгоритм кластеризации назначает точки, близкие друг к другу в пространстве элементов, одному кластеру. Например, радиолокационная система может возвращать множество обнаружений расширенной цели, которые находятся на близком расстоянии по дальности, углу и доплеровской частоте. clusterDBSCAN назначает эти обнаружения одному обнаружению.

Алгоритм DBSCAN предполагает, что кластеры являются плотными областями в пространстве данных, разделенными областями более низкой плотности, и что все плотные области имеют одинаковые плотности.
Чтобы измерить плотность в точке, алгоритм подсчитывает количество точек данных в окрестности точки. Окрестность - это P-мерный эллипс (гиперэллипс) в пространстве элементов. Радиусы эллипса определяются P-вектором start. λ может быть скаляром, в этом случае гиперэллипс становится гиперсферой. Расстояния между точками в пространстве элемента вычисляются с использованием евклидовой метрики расстояния. Окрестности называются, по-видимому, в-окрестности. Значение startопределяется значением Epsilon собственность. Epsilon может быть скалярным или P-вектором:
- Вектор используется, когда различные размеры в пространстве элемента имеют разные единицы измерения.
- Скаляр применяет одно и то же значение ко всем измерениям.
Кластеризация начинается с поиска всех основных точек. Если точка имеет достаточное количество точек в своей λ-окрестности, точка называется точкой ядра. Минимальное количество точек, необходимое для того, чтобы точка стала базовой точкой, задается параметром MinNumPoints собственность.
Остальными точками в δ-окрестности точки ядра могут быть сами точки ядра. Если нет, то это пограничные пункты. Все точки в λ-окрестности называются непосредственно плотностью, достижимой из точки ядра.
Если та, что находится в окрестности ядра, содержит другие точки ядра, то точки в тех, что находятся в окрестностях ядра, объединяются вместе, образуя объединение тех, что находятся в окрестностях. Этот процесс продолжается до тех пор, пока не будут добавлены основные точки.
- Все точки в объединении («union») («union») («sourchorities») - это плотность, достижимая из первой точки ядра. Фактически, все точки в объединении доступны по плотности из всех основных точек в объединении.
- Все точки в объединении δ-окрестностей также называются связанными плотностью, даже если граничные точки не обязательно доступны друг от друга. Кластер является максимальным набором точек, связанных плотностью, и может иметь произвольную форму.
Точки, которые не являются точками ядра или границами, являются точками шума. Они не принадлежат ни к одному кластеру.
clusterDBSCAN Объект может оценить, используя k-ближайший поиск соседа, или можно задать значения. Чтобы дать объекту оценку, установите EpsilonSource свойство для 'Auto'.
clusterDBSCAN объект может различать данные, содержащие неоднозначности. Диапазон и Доплер являются примерами возможно неоднозначных данных. Набор EnableDisambiguation свойство для true для устранения неоднозначности данных.

Для обнаружения кластеров:

Создать clusterDBSCAN и задайте его свойства.
Вызовите объект с аргументами, как если бы это была функция.

Дополнительные сведения о работе системных объектов см. в разделе Что такое системные объекты?.

Создание

Синтаксис

clusterer = clusterDBSCAN

clusterer = clusterDBSCAN (имя, значение)

Описание

clusterer = clusterDBSCAN создает clusterDBSCAN объект, clusterer, объект со значениями свойств по умолчанию.

Влияние Epsilon на кластеризацию

clusterer = clusterDBSCAN(Name,Value) создает clusterDBSCAN объект, clusterer, с каждым указанным свойством Name установить в указанное значение Value. Можно указать дополнительные аргументы пары имя-значение в любом порядке как (Name1,Value1,...,NameN,ValueN). Все неопределенные свойства принимают значения по умолчанию. Например,

clusterer = clusterDBSCAN('MinNumPoints',3,'Epsilon',2, ...
'EnableDisambiguation',true,'AmbiguousDimension',[1 2]);

создает кластер с помощью EnableDisambiguation для свойства установлено значение true, а для свойства установлено значение AmbiguousDimension установить в значение [1,2].

Свойства

развернуть все

Если не указано иное, свойства не настраиваются, что означает невозможность изменения их значений после вызова объекта. Объекты блокируются при их вызове, и release функция разблокирует их.

Если свойство настраивается, его значение можно изменить в любое время.

Дополнительные сведения об изменении значений свойств см. в разделе Проектирование системы в MATLAB с использованием системных объектов.

`EpsilonSource` - Источник эпсилона
`'Property'` (по умолчанию) | `'Auto'`

Источник эпсилоновых значений, определяющих 'Property' или 'Auto'.

При установке EpsilonSource свойство для 'Property', λ получен из Epsilon собственность.
При установке EpsilonSource свойство для 'Auto'(k-NN) в диапазоне k значений от кмина до кмакса.

$\begin{array}{l} _{kmin} = MinNumPoints \\ _{− 1} kmax = \end{array}$ MaxNumPoints − 1
Вычитание одной точки необходимо, поскольку число соседей точки не включает саму точку, тогда как MinNumPoints и MaxNumPoints см. общее количество точек в районе.

Типы данных: char | string

`Epsilon` - Радиус для поиска по окрестностям
`10.0` (по умолчанию) | положительный скаляр | положительный, действительный 1-by-P вектор строки

Радиус для поиска окрестности, заданный как положительный скалярный или положительный, действительный 1-by-P вектор строки. P - количество признаков во входных данных, X.

Epsilon определяет радиусы эллипса вокруг любой точки, чтобы создать λ-окрестность. Когда Epsilon является скаляром, тот же радиус применяется ко всем размерам элемента. Можно применить различные значения epsilon для различных элементов, указав положительный, вещественный 1-by-P вектор строки. Вектор строки создает область поиска многомерного эллипса (гиперэллипса), полезную, когда признаки данных имеют различные физические значения, такие как диапазон и доплеровский. Дополнительные сведения об этом свойстве см. в разделе Оценка Epsilon.

Вы можете использовать clusterDBSCAN.estimateEpsilon или clusterDBSCAN.discoverClusters объектные функции помогают оценить скалярное значение для эпсилона.

Пример: [11 21.0]

Настраиваемый: Да

Зависимости

Чтобы включить это свойство, установите значение EpsilonSource свойство для 'Property'.

Типы данных: double

`MinNumPoints` - Минимальное количество точек, необходимых для кластера
`3` (по умолчанию) | положительное целое число

Минимальное количество точек в области, близкой к точке, для того, чтобы эта точка стала точкой ядра, определяемой как положительное целое число. Дополнительные сведения см. в разделе Выбор минимального количества баллов. Когда объект автоматически оценивает эпсилон с помощью поиска k-NN, начальное значение k (kmin) равно MinNumPoints - 1.

Пример: 5

Типы данных: double

`MaxNumPoints` - Установить конец диапазона поиска k-NN
`10` (по умолчанию) | положительное целое число

Задайте конец диапазона поиска k-NN, заданного как положительное целое число. Когда объект автоматически оценивает эпсилон с помощью поиска k-NN, конечное значение k (kmax) равно MaxNumPoints - 1.

Пример: 13

Зависимости

Чтобы включить это свойство, установите значение EpsilonSource свойство для 'Auto'.

Типы данных: double

`EpsilonHistoryLength` - Длина истории эпсилонов пороговых значений кластера
`10` (по умолчанию) | положительное целое число

Длина сохраненной истории эпсилона, заданная как положительное целое число. Если установлено значение единицы, история не имеет памяти, что означает, что каждая оценка эпсилона немедленно используется и сглаживание скользящего среднего не происходит. Если больше единицы, эпсилон усредняется по указанной длине истории.

Пример: 5

Зависимости

Чтобы включить это свойство, установите значение EpsilonSource свойство для 'Auto'.

Типы данных: double

`EnableDisambiguation` - Включить определение размеров
`false` (по умолчанию) | `true`

Переключение для включения определения размеров, указанных как false или true. Когда true, кластеризация может происходить через границы, определенные входными данными amblims при исполнении. Используйте AmbiguousDimensions для указания индексов столбцов X в котором могут возникать неоднозначности. Можно определить до двух размеров. Включение значений не рекомендуется для больших наборов данных.

Типы данных: logical

`AmbiguousDimension` - Индексы неоднозначных размеров
`1` (по умолчанию) | положительное целое | вектор положительных целых чисел 1 на 2

Индексы неоднозначных размерностей, определяемые как положительное целое число или вектор 1 на 2 положительных целых чисел. Это свойство задает столбец X в котором применять значения. Положительное целое число указывает на одно неоднозначное измерение в матрице входных данных X. Вектор строки 1 на 2 задает два неоднозначных размера. Размер и порядок AmbiguousDimension должны согласовываться с вводом объекта amblims.

Пример: [3 4]

Зависимости

Чтобы включить это свойство, установите значение EnableDisambiguation свойство для true.

Типы данных: double

Использование

Синтаксис

idx = кластер (X)

[idx, clusterids] = кластер (X)

[___] = кластер (X, amblims)

[___] = кластер (X, обновление)

[___] = кластер (X, amblims, update)

Описание

пример

idx = clusterer(X) группирует точки во входных данных, X. idx содержит список идентификаторов, идентифицирующих кластер, к которому относится каждая строка X принадлежит. Точки шума назначаются как '-1'.

пример

[idx,clusterids] = clusterer(X) также возвращает альтернативный набор идентификаторов кластера, clusterids, для использования в phased.RangeEstimator и phased.DopplerEstimator объекты. clusterids присваивает уникальный идентификатор каждой точке шума.

[___] = clusterer(X,amblims) также определяет минимальные и максимальные пределы неоднозначности, amblims, для применения к данным.

Чтобы включить этот синтаксис, установите EnableDisambiguation свойство для true.

[___] = clusterer(X,update) автоматически оценивает эпсилон из матрицы входных данных, X, когда update имеет значение true. Оценка использует поиск k-NN для создания набора кривых поиска. Дополнительные сведения см. в разделе Оценка Epsilon. Оценка представляет собой среднее из L самых последних значений Эпсилона, где L указано в EpsilonHistoryLength

Чтобы включить этот синтаксис, установите EpsilonSource свойство для 'Auto', при необходимости установите MaxNumPoints , а также дополнительно установить EpsilonHistoryLength собственность.

[___] = clusterer(X,amblims,update) устанавливает пределы неоднозначности и оценивает epsilon, когда update имеет значение true. Чтобы включить этот синтаксис, установите EnableDisambiguation кому true и набор EpsilonSource кому 'Auto'.

Входные аргументы

развернуть все

`X` - Входные данные о характеристиках
действительная матрица N-за-P

Входные данные элемента, заданные как вещественно-значная матрица N-by-P. N строк соответствуют точкам элемента в P-мерном пространстве элемента. Столбцы P содержат значения элементов, над которыми происходит кластеризация. Алгоритм DBSCAN может объединять данные любого типа с соответствующими MinNumPoints и Epsilon настройки. Например, вход из двух столбцов может содержать декартовы координаты xy или диапазон и доплеровский диапазон.

Типы данных: double

`amblims` - Пределы неоднозначности
Вектор 1 на 2 вещественных значений (по умолчанию) | матрица 2 на 2 вещественных значений

Пределы неоднозначности, заданные как действительный вектор 1 на 2 или вещественная матрица 2 на 2. Для одного размера неоднозначности задайте пределы в виде вектора 1 на 2 [MinAmbiguityLimitDimension1, MaxDifficuityLimitDimension1]. Для двух размеров неоднозначности задайте пределы в виде матрицы 2 на 2 [MinAmbiguityLimitDimension1, MaxAmbiguityLimitDimension1; MinAmbiguityLimitDimension2, MaxAmbiguityLimitDimension2]. Пределы неоднозначности позволяют осуществлять кластеризацию по границам для обеспечения надлежащей кластеризации неоднозначных обнаружений.

Неоднозначные столбцы X определены в AmbiguousDimension собственность. amblims определяет минимальные и максимальные пределы неоднозначности в тех же единицах, что и данные в AmbiguousDimension столбцы X.

Пример: [0 20; -40 40]

Зависимости

Чтобы включить этот аргумент, установите EnableDisambiguation кому true и установите AmbiguousDimension собственность.

Типы данных: double

`update` - Включить автоматическое обновление epsilon
`false` (по умолчанию) | `true`

Включить автоматическое обновление оценки epsilon, указанной как false или true.

Когда trueпорог эпсилона сначала оценивается как среднее колено кривых поиска k-NN. Затем оценка добавляется в буфер, длина L которого установлена в EpsilonHistoryLength собственность. Последний использованный эпсилон рассчитывается как среднее значение буфера истории эпсилона длиной L. Если EpsilonHistoryLength имеет значение 1, оценка не имеет памяти. Отсутствие памяти означает, что каждая оценка эпсилона немедленно используется и сглаживание скользящего среднего не происходит.
Когда false, используется предыдущая оценка эпсилона. Оценка эпсилона требует больших вычислений и не рекомендуется для больших наборов данных.

Зависимости

Чтобы включить этот аргумент, установите EpsilonSource свойство для 'Auto' и укажите MaxNumPoints собственность.

Типы данных: double

Выходные аргументы

развернуть все

`idx` - Индексы кластера
N-by-1 целочисленный вектор столбца

Индексы кластера, возвращаемые как целочисленный вектор N-by-1 столбца. idx представляет результаты кластеризации алгоритма DBSCAN. Положительный idx значения соответствуют кластерам, удовлетворяющим критериям кластеризации DBSCAN. Значение '-1'указывает точку шума DBSCAN.

Типы данных: double

`clusterids` - Альтернативные идентификаторы кластера
1-by-N целочисленный вектор строки

Альтернативные кластерные ID, возвращенные как вектор ряда положительных целых чисел 1 на Н. Каждое значение является уникальным идентификатором, указывающим гипотетический целевой кластер. Этот аргумент содержит уникальные положительные идентификаторы кластера для всех точек, включая шум. Напротив, idx выходной аргумент помечает шумовые точки с «» -1 «». Использовать clusterids в качестве входных данных для фазированной системы массива Toolbox™ объекты, такие как phased.RangeEstimator и phased.DopplerEstimator.

Типы данных: double

Функции объекта

Чтобы использовать функцию объекта, укажите object™ System в качестве первого входного аргумента. Например, для освобождения системных ресурсов объекта System с именем obj, используйте следующий синтаксис:

release(obj)

развернуть все

Специфично для `clusterDBSCAN`

`clusterDBSCAN.discoverClusters`	Поиск иерархии кластера в данных
`clusterDBSCAN.estimateEpsilon`	Оценить порог кластеризации окрестностей
`clusterDBSCAN.plot`	Построить кластеры

Общие для всех системных объектов

`step`	Запустить алгоритм объекта System
`release`	Деблокирование ресурсов и разрешение изменений значений свойств объекта системы и входных признаков
`reset`	Сброс внутренних состояний объекта System

Примеры

свернуть все

Кластерные обнаружения в диапазоне и доплеровском диапазоне

Открыть сценарий в реальном времени

Создание обнаружений протяженных объектов с измерениями в диапазоне и доплеровском диапазоне. Предположим, что максимальный однозначный диапазон составляет 20 м, а однозначный доплеровский диапазон простирается от $- 30$ Гц до $30$ Гц. Данные для этого примера содержатся в dataClusterDBSCAN.mat файл. Первый столбец матрицы данных представляет диапазон, а второй столбец - доплеровский.

Входные данные содержат следующие расширенные цели и ложные аварийные сигналы:

однозначная цель, расположенная в $(10,15)$
неоднозначная мишень в доплеровском диапазоне, находящаяся в $(10, -$ 30)
неоднозначная цель по дальности, расположенная в $(20,15)$
неоднозначная мишень по дальности и доплеровская, расположенная на $(20,30)$
5 ложных тревог

Создать clusterDBSCAN object и укажите, что определение значения не выполняется с помощью параметра EnableDisambiguation кому false. Решить для индексов кластера.

load('dataClusterDBSCAN.mat');
cluster1 = clusterDBSCAN('MinNumPoints',3,'Epsilon',2, ...
    'EnableDisambiguation',false);
idx = cluster1(x);

Используйте clusterDBSCAN plot объектная функция для отображения кластеров.

plot(cluster1,x,idx)

Figure Clusters contains an axes. The axes with title Clusters contains 10 objects of type line, scatter, text.

График показывает, что существует восемь видимых кластеров и шесть точек шума. 'Dimension 1' метка соответствует диапазону и 'Dimension 2' метка соответствует доплеровской.

Далее создайте еще clusterDBSCAN объект и набор EnableDisambiguation кому true чтобы указать, что кластеризация выполняется по границам диапазона и доплеровской неоднозначности.

cluster2 = clusterDBSCAN('MinNumPoints',3,'Epsilon',2, ...
    'EnableDisambiguation',true,'AmbiguousDimension',[1 2]);

Выполните кластеризацию с использованием пределов неоднозначности, а затем постройте график результатов кластеризации. Результаты кластеризации DBSCAN правильно показывают четыре кластера и пять точек шума. Например, точки на дальностях, близких к нулю, сгруппированы с точками около 20 м, потому что максимальный однозначный диапазон составляет 20 м.

amblims = [0 maxRange; minDoppler maxDoppler];
idx = cluster2(x,amblims);
plot(cluster2,x,idx)

Figure Clusters contains an axes. The axes with title Clusters contains 6 objects of type line, scatter, text.

Влияние Epsilon на кластеризацию

Открыть сценарий в реальном времени

Кластер двумерных декартовых позиционных данных с использованием clusterDBSCAN. Чтобы проиллюстрировать, как выбор эпсилона влияет на кластеризацию, сравните результаты кластеризации с Epsilon установите в значение 1 и Epsilon установите значение 3.

Создание случайных данных положения цели в декартовых координатах xy.

x = [rand(20,2)+12; rand(20,2)+10; rand(20,2)+15];
plot(x(:,1),x(:,2),'.')

Figure contains an axes. The axes contains an object of type line.

Создать clusterDBSCAN объект с Epsilon свойство имеет значение 1 и MinNumPoints свойство имеет значение 3.

clusterer = clusterDBSCAN('Epsilon',1,'MinNumPoints',3);

Кластеризация данных при Epsilon равно 1.

idxEpsilon1 = clusterer(x);

Снова скопируйте данные, но с помощью Epsilon установите значение 3. Можно изменить значение Epsilon потому что это настраиваемое свойство.

clusterer.Epsilon = 3;
idxEpsilon2 = clusterer(x);

Постройте график результатов кластеризации бок о бок. Сделать это, передав в осях ручки и заголовки в plot способ. На графике показано, что для Epsilon установлено значение 1, появляются три кластера. Когда Epsilon равно 3, два нижних кластера объединены в один.

hAx1 = subplot(1,2,1);
plot(clusterer,x,idxEpsilon1, ...
    'Parent',hAx1,'Title','Epsilon = 1')
hAx2 = subplot(1,2,2);
plot(clusterer,x,idxEpsilon2, ...
    'Parent',hAx2,'Title','Epsilon = 3')

Figure contains 2 axes. Axes 1 with title Epsilon = 1 contains 4 objects of type scatter, text. Axes 2 with title Epsilon = 3 contains 3 objects of type scatter, text.

Алгоритмы

развернуть все

Алгоритм кластеризации

Обзор кластеризации

Этот раздел иллюстрирует основные принципы формирования кластеров. На рисунке показаны точки в двумерном пространстве элемента. Кластеры компактны и хорошо разделены. Появляется несколько точек шума.

Кластеры, образованные из одного

Кластеры начинаются с основных точек. Первым шагом в алгоритме является идентификация всех точек ядра.
На приведенном здесь рисунке показана точка P1 и окрестность N( _P1). Δ-окрестность имеет восемь точек (в том числе и она сама) в радиусе start. Использование MinNumPoints свойство для установки порогового значения 8 означает, что P1 является базовой точкой. Синие точки, лежащие в пределах N, называются пограничными точками. Эти граничные точки непосредственно доступны по плотности из центральной точки P1.
Никакие другие точки на рисунке не имеют достаточного количества соседних точек в их λ-окрестности, чтобы стать центральной точкой. P2 не является основной точкой, поскольку имеет только пять точек в пределах своего района. P2 непосредственно достигается плотность из P1. Обратное не соответствует действительности, поскольку P2 не является основной точкой. Односторонняя стрелка, соединяющая две точки, показывает эту асимметрию.
Пункты, которые выходят за пределы Nε (P1), являются шумовыми (красными) пунктами и не принадлежат группе.
Поскольку никакие другие точки не являются точками ядра, точки ядра и граничные точки являются максимальным набором точек, связанных плотностью, и поэтому образуют кластер.

Кластер точек из двух

На следующем рисунке показан больший набор точек, содержащий две точки ядра, P1 и P2. P2 является пограничной точкой P1, но P2 также имеет достаточно точек в своем районе, чтобы стать основной точкой. Поскольку они оба являются основными точками, P1 непосредственно достигается плотность из P2, а P1 непосредственно из P2. Двусторонняя стрелка, соединяющая их, показывает эту симметрию.
P3 непосредственно достигается из P2, но не из P1 (как показано односторонней стрелкой). Однако P3 называется просто плотностью, достижимой из P1.
Поскольку никакие другие точки не являются точками ядра, две точки ядра и их граничные точки образуют максимальный набор точек, связанных плотностью, и образуют один кластер.

Кластерные точки в прилегающих

Этот процесс наращивания кластера может быть расширен от точки ядра к точке ядра до тех пор, пока не будет больше точек ядра для добавления. Точки ядра и граничные точки принадлежат одному кластеру. В общем, точка _Pn - это плотность, достижимая из точки P1, когда существует цепь точек ядра, P1,P2, P3,..., _Pn-1 такая, что каждая точка ядра _Pi + 1 является непосредственно плотностью, достижимой _из Pi, _и Pn является непосредственно плотностью, достижимой _из _Pn-1.

Возможность подключения по плотности

На следующем рисунке показаны некоторые свойства связности плотности.

Кластер может иметь несколько разветвленных цепей, например (P1, P2, P3, P4) и (P1, P2, P5, P6).
Две точки, P6 и P4, соединены по плотности, когда есть третья точка P2 так что P6 и P4 доступны по плотности из P2.
Две точки, связанные с плотностью, необязательно достижимы друг от друга.
Максимальный набор связанных точек плотности определяет кластер. Не имеет значения, какая точка ядра является начальной точкой ядра.
Все точки в кластере доступны по плотности из всех точек ядра.

Оценка Epsilon

Кластеризация DBSCAN требует значения для параметра размера окрестности start. clusterDBSCAN объект и clusterDBSCAN.estimateEpsilon функция использует поиск k-ближайшего соседа для оценки скалярного эпсилона. Пусть D - расстояние любой точки P до ближайшего соседа. Определите _{окрестность Dk} (P) как окрестность, окружающую P, которая содержит ее k-ближайшие соседи. В окрестности Dk (P) есть k + 1 точек, включая саму точку P. Схема алгоритма оценки:

Для каждой точки найдите все точки в ее _{окрестности Dk} (P)
Накопите расстояния во всех _{окрестностях Dk} (P) для всех точек в один вектор.
Сортировка вектора по увеличению расстояния.
Постройте график отсортированного k-dist, который представляет собой отсортированное расстояние по номеру точки.
Найдите колено кривой. Значение расстояния в этой точке является оценкой эпсилона.

На рисунке показано расстояние, нанесенное на график относительно индекса точки для k = 20. Колено возникает приблизительно при 1,5 ° С. Все точки ниже этого порога принадлежат кластеру. Любые точки выше этого значения являются шумами.

Существует несколько методов поиска колена кривой. clusterDBSCAN и clusterDBSCAN.estimateEpsilon сначала определите линию, соединяющую первую и последнюю точки кривой. Ордината точки на отсортированном k-dist графе, наиболее удаленном от прямой и перпендикулярном прямой, определяет эпсилон.

При задании диапазона значений k алгоритм усредняет оценочные значения эпсилона для всех кривых. Этот рисунок показывает, что эпсилон довольно нечувствителен к k для k в диапазоне от 14 до 19.

Чтобы создать один график расстояний k-NN, установите значение MinNumPoints свойство, равное MaxNumPoints собственность.

Выбор минимального количества баллов

Цель MinNumPoints - сглаживание оценок плотности. Поскольку кластер является максимальным набором точек, связанных с плотностью, выбирайте меньшие значения, когда ожидаемое число обнаружений в кластере неизвестно. Однако меньшие значения делают алгоритм DBSCAN более восприимчивым к шуму. Общее руководство по выбору MinNumPoints является:

Как правило, установка MinNumPoints = 2P, где P - количество размеров элемента в X.
Для наборов данных, имеющих одно или несколько следующих свойств:
- много точек шума
- большое количество точек, N
- большая размерность, P
- много дубликатов
увеличение MinNumPoints часто может улучшить результаты кластеризации.

Неоднозначные данные

Алгоритм кластеризации является достаточно общим для обработки неоднозначностей в любой особенности, но применение кластеризации к дальности и допплеровских неоднозначностей в радаре являются важными приложениями.

Неоднозначность диапазона

Временная задержка между передачей импульса и приемом определяет диапазон R цели. R пропорциональна временной задержке, t, на

$R \frac{=}{}$ ct2

где c - скорость света. Время измеряется из времени передачи импульса. Если передается только один импульс, уравнение точно определяет диапазон.

Часто радар передает множество импульсов, разнесенных с интервалами Т, интервал повторения импульсов (PRI). Неоднозначность диапазона возникает, когда эхо-сигналы от одного импульса не принимаются до передачи следующего импульса. Диапазон вычисляется из разности времени прихода принятого импульса от времени передачи самого последнего переданного импульса. Поэтому диапазон может быть неверным на некоторое целое число, кратное однозначному диапазону. Однозначная дальность радиолокационной системы - это максимальная дальность, на которой может находиться цель, чтобы гарантировать, что отраженный импульс от этой цели соответствует самому последнему переданному импульсу. PRI определяет однозначный диапазон.

$_{Rmax} \frac{=}{}$ cT2

Диапазон обнаружения, меньший, чем Rmax, является однозначным диапазоном. Обнаружения кластеров значений диапазона, которые пересекают неоднозначные границы диапазона.

Включить значения, установив EnableDisambiguation кому true. Затем используйте AmbiguousDimension для выбора столбца во входных данных, соответствующих диапазону. Установите фактические пределы неоднозначности для диапазона с помощью amblims аргумент во время выполнения.

Доплеровская неоднозначность

Доплеровское сглаживание происходит при поступлении эхо-сигналов от целей, которые движутся достаточно быстро, чтобы доплеровская частота превысила частоту повторения импульсов (PRF). Если доплеровский сдвиг больше ½ PRF или меньше - ½ PRF, доплеровский сдвиг сглаживается в диапазон (- ½ PRF, ½ PRF). Этот диапазон называется однозначным доплеровским. Включить значения, установив EnableDisambiguation кому true. Затем используйте AmbiguousDimension для выбора столбца во входных данных, соответствующих доплеровским. Установите фактические пределы неоднозначности для Доплера с помощью amblims аргумент во время выполнения. Доплеровская неоднозначность подразумевает и радиальную неоднозначность скорости. Убедитесь, что amblims соответствует интерпретации элемента.

Ссылки

[1] Эстер М., Кригель Х.-П., Сандер Дж. и Сюй Х. «Алгоритм на основе плотности для обнаружения кластеров в больших пространственных базах данных с шумом». Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, 1996, pp. 226-231.

[2] Эрих Шуберт, Йорг Сандер, Мартин Эстер, Ханс-Петер Кригель и Сяовэй Сюй. 2017. «DBSCAN: повторный доступ, повторный доступ: почему и как следует (по-прежнему) использовать DBSCAN». ACM Trans. Database Syst. 42, 3, статья 19 (июль 2017), 21 стр.

[3] Доминик Келлнер, Йенс Клаппштейн и Клаус Дитмайер, «Сетевой DBSCAN для кластеризации расширенных объектов в радиолокационных данных», симпозиум IEEE Intelligent Vehicles 2012.

[4] Томас Вагнер, Рейнхард Фегер и Андреас Штельцер, «Алгоритм быстрой кластеризации на основе сетки для измерений дальности/доплеровского/DoA», Труды 13-й Европейской конференции радаров.

[5] Михаэль Анкерст, Маркус М. Бреуниг, Ханс-Петер Кригель, Йорг Сандер, "ОПТИКА: Заказ точек для идентификации структуры кластеризации", Proc. ACM SIGMOD "99 Int. Conf. on Management of Data, Philadelphia PA, 1999.

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

clusterDBSCAN.discoverClusters | clusterDBSCAN.estimateEpsilon | clusterDBSCAN.plot

Представлен в R2021a

Документация

clusterDBSCAN

Описание

Создание

Синтаксис

Описание

Свойства

EpsilonSource - Источник эпсилона 'Property' (по умолчанию) | 'Auto'

Epsilon - Радиус для поиска по окрестностям 10.0 (по умолчанию) | положительный скаляр | положительный, действительный 1-by-P вектор строки

Зависимости

MinNumPoints - Минимальное количество точек, необходимых для кластера 3 (по умолчанию) | положительное целое число

MaxNumPoints - Установить конец диапазона поиска k-NN 10 (по умолчанию) | положительное целое число

Зависимости

EpsilonHistoryLength - Длина истории эпсилонов пороговых значений кластера 10 (по умолчанию) | положительное целое число

Зависимости

EnableDisambiguation - Включить определение размеров false (по умолчанию) | true

AmbiguousDimension - Индексы неоднозначных размеров 1 (по умолчанию) | положительное целое | вектор положительных целых чисел 1 на 2

Зависимости

Использование

Синтаксис

Описание

Входные аргументы

X - Входные данные о характеристиках действительная матрица N-за-P

amblims - Пределы неоднозначности Вектор 1 на 2 вещественных значений (по умолчанию) | матрица 2 на 2 вещественных значений

Зависимости

update - Включить автоматическое обновление epsilon false (по умолчанию) | true

Зависимости

Выходные аргументы

idx - Индексы кластера N-by-1 целочисленный вектор столбца

clusterids - Альтернативные идентификаторы кластера 1-by-N целочисленный вектор строки

Функции объекта

Специфично для clusterDBSCAN

Общие для всех системных объектов

Примеры

Кластерные обнаружения в диапазоне и доплеровском диапазоне

Влияние Epsilon на кластеризацию

Алгоритмы

Алгоритм кластеризации

Оценка Epsilon

Выбор минимального количества баллов

Неоднозначные данные

Ссылки

Расширенные возможности

Создание кода C/C + + Создайте код C и C++ с помощью MATLAB ® Coder™

См. также

Документация по панели инструментов радара

Поддержка

`EpsilonSource` - Источник эпсилона
`'Property'` (по умолчанию) | `'Auto'`

`Epsilon` - Радиус для поиска по окрестностям
`10.0` (по умолчанию) | положительный скаляр | положительный, действительный 1-by-P вектор строки

`MinNumPoints` - Минимальное количество точек, необходимых для кластера
`3` (по умолчанию) | положительное целое число

`MaxNumPoints` - Установить конец диапазона поиска k-NN
`10` (по умолчанию) | положительное целое число

`EpsilonHistoryLength` - Длина истории эпсилонов пороговых значений кластера
`10` (по умолчанию) | положительное целое число

`EnableDisambiguation` - Включить определение размеров
`false` (по умолчанию) | `true`

`AmbiguousDimension` - Индексы неоднозначных размеров
`1` (по умолчанию) | положительное целое | вектор положительных целых чисел 1 на 2

`X` - Входные данные о характеристиках
действительная матрица N-за-P

`amblims` - Пределы неоднозначности
Вектор 1 на 2 вещественных значений (по умолчанию) | матрица 2 на 2 вещественных значений

`update` - Включить автоматическое обновление epsilon
`false` (по умолчанию) | `true`

`idx` - Индексы кластера
N-by-1 целочисленный вектор столбца

`clusterids` - Альтернативные идентификаторы кластера
1-by-N целочисленный вектор строки

Специфично для `clusterDBSCAN`

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™