exponenta event banner

Анализ основных компонентов (PCA)

Одной из трудностей, присущих многомерной статистике, является проблема визуализации данных, имеющих множество переменных. Функция plot отображает график взаимосвязи между двумя переменными. plot3 и surf команды отображают различные трехмерные виды. Но когда существует более трех переменных, визуализировать их отношения сложнее.

К счастью, в наборах данных со многими переменными группы переменных часто перемещаются вместе. Одной из причин этого является то, что несколько переменных могут измерять один и тот же принцип управления, регулирующий поведение системы. Во многих системах существует лишь несколько таких движущих сил. Но изобилие приборов позволяет измерять десятки системных переменных. Когда это происходит, вы можете воспользоваться этой избыточностью информации. Проблему можно упростить, заменив группу переменных одной новой переменной.

Анализ основных компонентов является количественно строгим методом для достижения этого упрощения. Метод создает новый набор переменных, называемый главными компонентами. Каждый главный компонент представляет собой линейную комбинацию исходных переменных. Все основные компоненты ортогональны друг другу, поэтому избыточная информация отсутствует. Основные компоненты в целом образуют ортогональный базис для пространства данных.

Существует бесконечное количество способов построения ортогонального базиса для нескольких столбцов данных. Что такого особенного в основе основного компонента?

Первый главный компонент - это одна ось в пространстве. При проецировании каждого наблюдения на эту ось результирующие значения образуют новую переменную. И дисперсия этой переменной является максимальной среди всех возможных вариантов первой оси.

Второй главный компонент является другой осью в пространстве, перпендикулярном первой. Проецирование наблюдений на эту ось создает еще одну новую переменную. Дисперсия этой переменной является максимальной среди всех возможных вариантов этой второй оси.

Полный набор главных компонентов равен исходному набору переменных. Но обычно сумма отклонений первых нескольких главных компонентов превышает 80% от общей дисперсии исходных данных. Изучая графики этих нескольких новых переменных, исследователи часто развивают более глубокое понимание движущих сил, которые генерировали исходные данные.

Можно использовать функцию pca для поиска основных компонентов. Использовать pca, необходимо иметь фактические измеренные данные, которые требуется проанализировать. Однако, если отсутствуют фактические данные, но имеется выборка ковариации или корреляционная матрица для данных, вы по-прежнему можете использовать функцию pcacov для выполнения анализа основных компонентов. См. справочную страницу для pcacov для описания его входов и выходов.

См. также

| | |

Связанные темы