Выберите Cluster Analysis Method

Эта тема предоставляет краткий обзор доступных методов кластеризации в Statistics and Machine Learning Toolbox™.

Кластеризация методов

Cluster analysis, также названный segmentation analysis или taxonomy analysis, является общим безнадзорным методом изучения. Безнадзорное изучение используется, чтобы чертить выводы из наборов данных, состоящих из входных данных без помеченных ответов. Например, можно использовать кластерный анализ для исследовательского анализа данных, чтобы найти спрятанным шаблоны или группировки в непомеченных данных.

Кластерный анализ создает группы или кластеры, данных. Объекты, которые принадлежат тому же кластеру, похожи друг на друга и отличны от объектов, которые принадлежат различным кластерам. Чтобы определить количество "подобный" и "отличный", можно использовать меру по несходству (или метрика расстояния), который характерен для области приложения и набора данных. Кроме того, в зависимости от вашего приложения вы можете считать масштабирование (или стандартизация) переменными в ваших данных, чтобы дать им равную важность во время кластеризации.

Statistics and Machine Learning Toolbox обеспечивает функциональность для этих методов кластеризации:

Иерархическая кластеризация

Иерархические данные групп кластеризации по множеству шкал путем создания кластерного дерева или dendrogram. Дерево не является ни одним набором кластеров, а скорее многоуровневой иерархией, где кластеры на одном уровне объединяются, чтобы сформировать кластеры на следующем уровне. Эта многоуровневая иерархия позволяет вам выбирать уровень или шкалу, кластеризации, которая наиболее подходит для вашего приложения. Иерархическая кластеризация присваивает каждую точку в ваших данных к кластеру.

Использование clusterdata выполнять иерархическую кластеризацию на входных данных. clusterdata соединяется pdist, linkage, и cluster функции, которые можно использовать отдельно для более детального анализа. dendrogram графики функций кластерное дерево. Для получения дополнительной информации смотрите Введение в Иерархическую Кластеризацию.

k- и k-Medoids кластеризация

k - означает кластеризироваться и k-medoids кластеризирующиеся данные о разделе в k взаимоисключающие кластеры. Эти методы кластеризации требуют, чтобы вы задали количество кластеров k. И k - средние значения и k-medoids кластеризирующий присвоение каждая точка в ваших данных к кластеру; однако, в отличие от иерархической кластеризации, эти методы работают с фактическими наблюдениями (а не меры по несходству) и создают один уровень кластеров. Поэтому k - средние значения или k-medoids кластеризация часто более подходят, чем иерархическая кластеризация для больших объемов данных.

Использование kmeans и kmedoids реализовывать k - означает кластеризироваться и k-medoids кластеризация, соответственно. Для получения дополнительной информации смотрите Введение в k - Средняя Кластеризация и k-Medoids Кластеризация.

Основанная на плотности пространственная кластеризация приложений с шумом (DBSCAN)

DBSCAN является основанным на плотности алгоритмом, который идентифицирует кластеры произвольной формы и выбросы (шум) в данных. Во время кластеризации DBSCAN идентифицирует точки, которые не принадлежат никакому кластеру, который делает этот метод полезным для основанного на плотности определения выбросов. В отличие от k - средние значения и k-medoids кластеризация, DBSCAN не требует предварительных знаний количества кластеров.

Использование dbscan выполнять кластеризацию на матрице входных данных или на попарных расстояниях между наблюдениями. Для получения дополнительной информации смотрите Введение в DBSCAN.

Смешанная гауссовская модель

Смешанная гауссовская модель (GMM) формирует кластеры как смесь многомерных нормальных компонентов плотности. Для заданного наблюдения GMM определяет апостериорные вероятности каждой плотности компонентов (или кластер). Апостериорные вероятности указывают, что наблюдение имеет некоторую вероятность принадлежности каждому кластеру. GMM может выполнить трудно кластеризацию путем выбора компонента, который максимизирует апостериорную вероятность как присвоенный кластер для наблюдения. Можно также использовать GMM, чтобы выполнить мягкий, или нечеткий, кластеризируясь путем присвоения наблюдения нескольким кластерам на основе баллов или апостериорных вероятностей наблюдения для кластеров. GMM может быть более соответствующим методом, чем k - означает кластеризироваться, когда кластеры имеют различные размеры и различные структуры корреляции в них.

Использование fitgmdist соответствовать gmdistribution возразите против своих данных. Можно также использовать gmdistribution создать объект GMM путем определения параметров распределения. Когда у вас есть подходящий GMM, можно кластеризировать данные о запросе при помощи cluster функция. Для получения дополнительной информации смотрите, что Кластер Использует смешанную гауссовскую модель.

k- соседний поиск поиска и радиуса

k- соседний поиск находит k самыми близкими точками в ваших данных к точке запроса или набору точек запроса. В отличие от этого поиск радиуса находит все точки в ваших данных, которые являются на заданном расстоянии от точки запроса или набора точек запроса. Результаты этих методов зависят от метрики расстояния, которую вы задаете.

Используйте knnsearch функционируйте, чтобы найти k - самые близкие соседи или rangesearch функционируйте, чтобы найти всех соседей на заданном расстоянии ваших входных данных. Можно также создать объект искателя использование обучающего набора данных, и передать объект и запросить наборы данных к объектным функциям (knnsearch и rangesearch). Для получения дополнительной информации смотрите, что Классификация Использует Самых близких Соседей.

Спектральная кластеризация

Спектральная кластеризация является основанным на графике алгоритмом для нахождения k кластеры произвольной формы в данных. Метод вовлекает представление данных в низкую размерность. В низкой размерности кластеры в данных более широко разделяются, позволяя вам использовать алгоритмы, такие как k - средние значения или k-medoids кластеризация. Эта низкая размерность основана на собственных векторах Матрицы Лапласа. Матрица Лапласа является одним способом представлять график подобия, который моделирует локальные отношения окружения между точками данных как неориентированный граф.

Использование spectralcluster выполнять спектральную кластеризацию на матрице входных данных или на матрице подобия графика подобия. spectralcluster требует, чтобы вы задали количество кластеров. Однако алгоритм для спектральной кластеризации также обеспечивает способ оценить количество кластеров в ваших данных. Для получения дополнительной информации смотрите, что Данные о Разделе Используют Спектральную Кластеризацию.

Сравнение кластеризирующихся методов

Эта таблица сравнивает функции доступных методов кластеризации в Statistics and Machine Learning Toolbox.

МетодБазис алгоритмаВведите к алгоритмуТребует конкретного количества кластеровКластерные идентифицированные формыПолезный для определения выбросов
Иерархическая кластеризацияРасстояние между объектамиПопарные расстояния между наблюдениямиНетКластеры произвольной формы, в зависимости от заданного 'Linkage' алгоритмНет
Кластеризация k-средних значений и Кластеризация k-Medoids Расстояние между объектами и центроидамиФактические наблюденияДаСфероидальные кластеры с равной диагональной ковариациейНет
Основанная на плотности пространственная кластеризация приложений с шумом (DBSCAN)Плотность областей в данныхФактические наблюдения или попарные расстояния между наблюдениямиНетКластеры произвольной формыДа
Смешанные гауссовские моделиСмесь Распределений ГауссаФактические наблюденияДаСфероидальные кластеры с различными структурами ковариацииДа
Самые близкие соседиРасстояние между объектамиФактические наблюденияНетКластеры произвольной формыДа, в зависимости от конкретного количества соседей
Спектральная кластеризация (данные о разделе Используя спектральную кластеризацию)График, представляющий связи между точками данныхФактические наблюдения или матрица подобияДа, но алгоритм также обеспечивает способ оценить количество кластеровКластеры произвольной формыНет

Похожие темы