Анализ основных компонентов (PCA)

Одной из трудностей, присущих многомерной статистике, является проблема визуализации данных, которая имеет много переменных. Функция plot отображает график связи между двумя переменными. plot3 и surf команды отображают различные трехмерные виды. Но когда существует более трех переменных, сложнее визуализировать их отношения.

К счастью, в наборах данных со многими переменными группы переменных часто перемещаются вместе. Одна из причин этого состоит в том, что более чем одной переменной может быть измерение одного и того же принципа вождения, регулирующего поведение системы. Во многих системах таких движущих сил всего несколько. Но обилие инструментирования позволяет вам измерить десятки системных переменных. Когда это происходит, вы можете воспользоваться такой избыточностью информации. Можно упростить задачу, заменив группу переменных на одну новую переменную.

Анализ основных компонентов является количественно строгим методом для достижения этого упрощения. Метод генерирует новый набор переменных, называемых главными компонентами. Каждый главный компонент является линейной комбинацией исходных переменных. Все основные компоненты ортогональны друг другу, поэтому избыточная информация отсутствует. Основные компоненты в целом формируют ортогональный базис для пространства данных.

Существует бесконечное число способов создать ортогональный базис для нескольких столбцов данных. Что такого особенного в базисах основных компонентов?

Первый главный компонент является одной осью в пространстве. Когда вы проектируете каждое наблюдение на этой оси, полученные значения образуют новую переменную. И отклонение этой переменной является максимальной среди всех возможных элементов для выбора первой оси.

Второй главный компонент является другой осью в пространстве, перпендикулярной первой. Проецирование наблюдений на этой оси генерирует другую новую переменную. Отклонение этой переменной является максимальной среди всех возможных элементов для выбора этой второй оси.

Полный набор основных компонентов является таким же большим, как и исходный набор переменных. Но обычно сумма отклонений первых нескольких основных компонентов превышает 80% от общей дисперсии исходных данных. Исследуя графики этих нескольких новых переменных, исследователи часто разрабатывают более глубокое понимание движущих сил, которые генерировали исходные данные.

Вы можете использовать функцию pca для поиска основных компонентов. Как использовать pcaнеобходимо иметь фактические данные измерений, которые необходимо проанализировать. Однако, если вам не хватает фактических данных, но у вас есть выборочная ковариационная или корреляционная матрица для данных, вы все еще можете использовать функцию pcacov для выполнения анализа основных компонентов. Смотрите страницу с описанием для pcacov описание его входов и выходов.

См. также

| | |

Похожие темы