Гауссовы модели смеси

Гауссовы модели смеси (GMM) состоят из k многомерные нормальные компоненты плотности, где k является положительным целым числом. Каждый компонент имеет d - размерное среднее значение (d является положительным целым числом), d-by-d ковариационная матрица и смесительная пропорция. Смешивание пропорции j определяет пропорцию генеральной совокупности, составленной j компонента, j = 1..., k.

Можно создать Гауссов объект распределения смеси gmdistribution с помощью gmdistribution или fitgmdist. Используйте gmdistribution, чтобы создать полностью заданный объект GMM путем определения средних значений компонента, ковариаций и пропорций смеси. Используйте fitgmdist, чтобы соответствовать объекту GMM к n-by-d матрица данных X путем определения количества компонентов смеси k. Столбцы X соответствуют предикторам, функциям или атрибутам. Строки X соответствуют наблюдениям или примерам. По умолчанию fitgmdist соответствует полным ковариационным матрицам, которые отличаются среди компонентов (или не разделены).

fitgmdist соответствует GMMs к данным с помощью итеративного Expectation-Maximization (EM) алгоритм. Используя начальные значения для средних значений компонента, ковариационных матриц и смешивания пропорций, доходы алгоритма EM с помощью этих шагов.

  1. Для каждого наблюдения алгоритм вычисляет апостериорные вероятности членств компонента. Можно думать о результате как о n-by-k матрица, где элемент (i, j) содержит апостериорную вероятность, что наблюдение i от j компонента. Это - E - шаг алгоритма EM.

  2. Используя апостериорные вероятности членства компонента как веса, алгоритм оценивает средние значения компонента, ковариационные матрицы и смешивание пропорций путем применения наибольшего правдоподобия. Это - M - шаг алгоритма EM.

Алгоритм выполняет итерации по этим шагам до сходимости. Поверхность вероятности является комплексной, и алгоритм может сходиться к локальному оптимуму. Кроме того, получившийся локальный оптимум может зависеть от начальных условий. fitgmdist имеет несколько опций для выбора начальных условий, включая случайные присвоения компонента для наблюдений и k - средние значения ++ алгоритм.

fitgmdist возвращает подходящий объект модели gmdistribution. Объект содержит свойства, которые хранят результаты оценки, которые включают предполагаемые параметры, информацию о сходимости и информационные критерии (Akaike и критерии информации о Bayesian). Можно использовать запись через точку, чтобы получить доступ к свойствам.

Если у вас есть подходящий GMM, можно кластеризировать данные о запросе с помощью него. Кластеризация использования GMM иногда рассматривается мягким методом кластеризации. Апостериорные вероятности для каждой точки указывают, что каждая точка данных имеет некоторую вероятность принадлежности каждому кластеру. Для получения дополнительной информации о кластеризации с GMM смотрите, что Кластер Использует Гауссовы Модели Смеси.

Смотрите также

| |

Похожие темы