Анализ главных компонентов (PCA)

Одна из трудностей, свойственных от многомерной статистики, является проблемой визуализации данных, которые имеют много переменных. Функция plot отображает график отношения между двумя переменными. plot3 и surf команды отображают различные 3D представления. Но когда существует больше чем три переменные, это больше затрудняет, чтобы визуализировать их отношения.

К счастью, в наборах данных со многими переменными, группы переменных часто двигаются вместе. Одна причина этого состоит в том, что больше чем одна переменная сила измеряет тот же ведущий принцип, управляющий поведением системы. Во многих системах существует только несколько таких движущих сил. Но распространенность инструментирования позволяет вам измерить десятки системных переменных. Когда это происходит, можно использовать в своих интересах это сокращение информации. Можно упростить проблему, заменив группу переменных с одной новой переменной.

Анализ главных компонентов является количественно строгим методом для достижения этого упрощения. Метод генерирует новый набор переменных, названных основными компонентами. Каждый основной компонент является линейной комбинацией исходных переменных. Все основные компоненты являются ортогональными друг другу, таким образом, нет никакой избыточной информации. Основные компоненты в целом формируют ортогональный базис для пробела данных.

Существует бесконечное число способов создать ортогональный базис для нескольких столбцов данных. Что является настолько особенным о базисе основного компонента?

Первый основной компонент является одной осью на пробеле. Когда вы проектируете каждое наблюдение относительно той оси, получившиеся значения формируют новую переменную. И отклонение этой переменной является максимумом среди всех возможных элементов для выбора первой оси.

Второй основной компонент является другой осью на пробеле, перпендикуляре к первому. Проектирование наблюдений относительно этой оси генерирует другую новую переменную. Отклонение этой переменной является максимумом среди всех возможных элементов для выбора этой второй оси.

Полный набор основных компонентов является столь же большим как исходный набор переменных. Но это распространено за сумму отклонений первых нескольких основных компонентов, чтобы превысить 80% общего отклонения исходных данных. Путем исследования графиков этих немногих новых переменных исследователи часто разрабатывают более глубокое понимание движущих сил, которые сгенерировали исходные данные.

Можно использовать функцию pca найти основные компоненты. Использовать pca, у вас должны быть фактические результаты измерений, которые вы хотите анализировать. Однако, если вы испытываете недостаток в фактических данных, но имеете выборочную ковариацию или корреляционную матрицу для данных, можно все еще использовать функциональный pcacov выполнять анализ основных компонентов. Смотрите страницу с описанием для pcacov для описания его вводов и выводов.

Смотрите также

| | |

Похожие темы