Эта тема предоставляет краткий обзор доступных методов кластеризации в Statistics and Machine Learning Toolbox™.
Cluster analysis, также названный segmentation analysis или taxonomy analysis, является общим безнадзорным методом изучения. Безнадзорное изучение используется, чтобы чертить выводы из наборов данных, состоящих из входных данных без помеченных ответов. Например, можно использовать кластерный анализ для исследовательского анализа данных, чтобы найти спрятанным шаблоны или группировки в непомеченных данных.
Кластерный анализ создает группы или кластеры, данных. Объекты, которые принадлежат тому же кластеру, похожи друг на друга и отличны от объектов, которые принадлежат различным кластерам. Чтобы определить количество "подобный" и "отличный", можно использовать меру по несходству (или метрика расстояния), который характерен для области приложения и набора данных. Кроме того, в зависимости от вашего приложения вы можете считать масштабирование (или стандартизация) переменными в ваших данных, чтобы дать им равную важность во время кластеризации.
Statistics and Machine Learning Toolbox обеспечивает функциональность для этих методов кластеризации:
Иерархические данные групп кластеризации по множеству шкал путем создания кластерного дерева или dendrogram. Дерево не является ни одним набором кластеров, а скорее многоуровневой иерархией, где кластеры на одном уровне объединяются, чтобы сформировать кластеры на следующем уровне. Эта многоуровневая иерархия позволяет вам выбирать уровень или шкалу, кластеризации, которая наиболее подходит для вашего приложения. Иерархическая кластеризация присваивает каждую точку в ваших данных к кластеру.
Использование clusterdata
выполнять иерархическую кластеризацию на входных данных. clusterdata
соединяется pdist
, linkage
, и cluster
функции, которые можно использовать отдельно для более детального анализа. dendrogram
графики функций кластерное дерево. Для получения дополнительной информации смотрите Введение в Иерархическую Кластеризацию.
k - означает кластеризироваться и k-medoids кластеризирующиеся данные о разделе в k взаимоисключающие кластеры. Эти методы кластеризации требуют, чтобы вы задали количество кластеров k. И k - средние значения и k-medoids кластеризирующий присвоение каждая точка в ваших данных к кластеру; однако, в отличие от иерархической кластеризации, эти методы работают с фактическими наблюдениями (а не меры по несходству) и создают один уровень кластеров. Поэтому k - средние значения или k-medoids кластеризация часто более подходят, чем иерархическая кластеризация для больших объемов данных.
Использование kmeans
и kmedoids
реализовывать k - означает кластеризироваться и k-medoids кластеризация, соответственно. Для получения дополнительной информации смотрите Введение в k - Средняя Кластеризация и k-Medoids Кластеризация.
DBSCAN является основанным на плотности алгоритмом, который идентифицирует кластеры произвольной формы и выбросы (шум) в данных. Во время кластеризации DBSCAN идентифицирует точки, которые не принадлежат никакому кластеру, который делает этот метод полезным для основанного на плотности определения выбросов. В отличие от k - средние значения и k-medoids кластеризация, DBSCAN не требует предварительных знаний количества кластеров.
Использование dbscan
выполнять кластеризацию на матрице входных данных или на попарных расстояниях между наблюдениями. Для получения дополнительной информации смотрите Введение в DBSCAN.
Смешанная гауссовская модель (GMM) формирует кластеры как смесь многомерных нормальных компонентов плотности. Для заданного наблюдения GMM определяет апостериорные вероятности каждой плотности компонентов (или кластер). Апостериорные вероятности указывают, что наблюдение имеет некоторую вероятность принадлежности каждому кластеру. GMM может выполнить трудно кластеризацию путем выбора компонента, который максимизирует апостериорную вероятность как присвоенный кластер для наблюдения. Можно также использовать GMM, чтобы выполнить мягкий, или нечеткий, кластеризируясь путем присвоения наблюдения нескольким кластерам на основе баллов или апостериорных вероятностей наблюдения для кластеров. GMM может быть более соответствующим методом, чем k - означает кластеризироваться, когда кластеры имеют различные размеры и различные структуры корреляции в них.
Использование fitgmdist
соответствовать gmdistribution
возразите против своих данных. Можно также использовать gmdistribution
создать объект GMM путем определения параметров распределения. Когда у вас есть подходящий GMM, можно кластеризировать данные о запросе при помощи cluster
функция. Для получения дополнительной информации смотрите, что Кластер Использует смешанную гауссовскую модель.
k- соседний поиск находит k самыми близкими точками в ваших данных к точке запроса или набору точек запроса. В отличие от этого поиск радиуса находит все точки в ваших данных, которые являются на заданном расстоянии от точки запроса или набора точек запроса. Результаты этих методов зависят от метрики расстояния, которую вы задаете.
Используйте knnsearch
функционируйте, чтобы найти k - самые близкие соседи или rangesearch
функционируйте, чтобы найти всех соседей на заданном расстоянии ваших входных данных. Можно также создать объект искателя использование обучающего набора данных, и передать объект и запросить наборы данных к объектным функциям (knnsearch
и rangesearch
). Для получения дополнительной информации смотрите, что Классификация Использует Самых близких Соседей.
Спектральная кластеризация является основанным на графике алгоритмом для нахождения k кластеры произвольной формы в данных. Метод вовлекает представление данных в низкую размерность. В низкой размерности кластеры в данных более широко разделяются, позволяя вам использовать алгоритмы, такие как k - средние значения или k-medoids кластеризация. Эта низкая размерность основана на собственных векторах Матрицы Лапласа. Матрица Лапласа является одним способом представлять график подобия, который моделирует локальные отношения окружения между точками данных как неориентированный граф.
Использование spectralcluster
выполнять спектральную кластеризацию на матрице входных данных или на матрице подобия графика подобия. spectralcluster
требует, чтобы вы задали количество кластеров. Однако алгоритм для спектральной кластеризации также обеспечивает способ оценить количество кластеров в ваших данных. Для получения дополнительной информации смотрите, что Данные о Разделе Используют Спектральную Кластеризацию.
Эта таблица сравнивает функции доступных методов кластеризации в Statistics and Machine Learning Toolbox.
Метод | Основание алгоритма | Введите к алгоритму | Требует конкретного количества кластеров | Кластерные идентифицированные формы | Полезный для определения выбросов |
---|---|---|---|---|---|
Иерархическая кластеризация | Расстояние между объектами | Попарные расстояния между наблюдениями | Нет | Кластеры произвольной формы, в зависимости от заданного 'Linkage' алгоритм | Нет |
Кластеризация k-средних значений и Кластеризация k-Medoids | Расстояние между объектами и центроидами | Фактические наблюдения | Да | Сфероидальные кластеры с равной диагональной ковариацией | Нет |
Основанная на плотности пространственная кластеризация приложений с шумом (DBSCAN) | Плотность областей в данных | Фактические наблюдения или попарные расстояния между наблюдениями | Нет | Кластеры произвольной формы | Да |
Смешанные гауссовские модели | Смесь Распределений Гаусса | Фактические наблюдения | Да | Сфероидальные кластеры с различными структурами ковариации | Да |
Самые близкие соседи | Расстояние между объектами | Фактические наблюдения | Нет | Кластеры произвольной формы | Да, в зависимости от конкретного количества соседей |
Спектральная кластеризация (данные о разделе Используя спектральную кластеризацию) | График, представляющий связи между точками данных | Фактические наблюдения или матрица подобия | Да, но алгоритм также обеспечивает способ оценить количество кластеров | Кластеры произвольной формы | Нет |