Введение в кластерный анализ

Cluster analysis, также названный segmentation analysis или taxonomy analysis, создает группы или кластеры, данных. Кластеры формируются таким способом, который возражает в том же кластере, подобны, и объекты в различных кластерах отличны. Меры подобия зависят от приложения.

Иерархические данные групп Кластеризации по множеству шкал путем создания кластерного дерева или dendrogram. Дерево не является ни одним набором кластеров, а скорее многоуровневой иерархией, где к кластерам на одном уровне соединяют как кластеры на следующем уровне. Это позволяет вам решать уровень или шкалу кластеризации, которая наиболее подходит для вашего приложения. Функция Statistics and Machine Learning Toolbox™ clusterdata выполняет все необходимые шаги для вас. Это включает pdist, linkage и функции cluster, которые могут использоваться отдельно для более детального анализа. Графики функций dendrogram кластерное дерево.

Кластеризация k-средств является методом разделения. Функциональные данные о разделах kmeans в k, взаимоисключающие кластеры, и возвращают индекс кластера, которому это присвоило каждое наблюдение. В отличие от иерархической кластеризации, k - означает кластеризироваться, работает с фактическими наблюдениями (а не больший набор мер по несходству) и создает один уровень кластеров. Различия означают, что k - означает кластеризироваться, часто более подходит, чем иерархическая кластеризация для больших объемов данных.

DBSCAN является основанным на плотности алгоритмом, который идентифицирует кластеры произвольной формы и выбросы (шум) в данных. Функциональный dbscan выполняет кластеризацию на матрице входных данных или на попарных расстояниях между наблюдениями. dbscan возвращает кластерные индексы и вектор, указывающий на наблюдения, которые являются базовыми точками, которые являются точками, которые имеют, по крайней мере, минимальное количество соседей (minpts) в их окружении эпсилона (epsilon). В отличие от k - означает кластеризироваться, алгоритм DBSCAN не требует предварительных знаний количества кластеров, и кластеры являются не обязательно сфероидальными. DBSCAN также полезен для основанного на плотности определения выбросов, потому что это идентифицирует точки, которые не принадлежат никакому кластеру.

Кластер Используя Гауссовы Модели Смеси формирует кластеры путем представления функции плотности вероятности наблюдаемых переменных как смесь многомерной нормальной плотности. Модели смеси класса gmdistribution используют алгоритм максимизации ожидания (EM), чтобы соответствовать данным, которые присваивают апостериорные вероятности каждой плотности компонентов относительно каждого наблюдения. Кластеры присвоены путем выбора компонента, который максимизирует апостериорную вероятность. Кластеризация использующих Гауссовых моделей смеси иногда рассматривается мягким методом кластеризации. Апостериорные вероятности для каждой точки указывают, что каждая точка данных имеет некоторую вероятность принадлежности каждому кластеру. Как k - означает кластеризироваться, Гауссово моделирование смеси использует итеративный алгоритм, который сходится к локальному оптимуму. Гауссово моделирование смеси может быть более соответствующим, чем k - означает кластеризироваться, когда кластеры имеют различные размеры и корреляцию в них.

Похожие темы