procrustes функция анализирует распределение набора фигур с помощью анализа Procrustes. Этот метод анализа сопоставляет данные ориентиров (геометрические местоположения, представляющие существенные элементы в данной форме) для вычисления наилучших сохраняющих форму евклидовых преобразований. Эти преобразования минимизируют различия в местоположении между сравниваемыми данными ориентиров.
Анализ Procrustes также полезен в сочетании с многомерным масштабированием. При построении карты с использованием многомерного масштабирования наблюдается, что ориентация восстановленных точек является произвольной. Два различных применения многомерного масштабирования могут дать реконструированные точки, которые в принципе очень похожи, но выглядят по-разному, потому что они имеют разные ориентации. procrustes функция преобразует один набор точек, чтобы сделать их более сопоставимыми с другим.
procrustes функция принимает две матрицы в качестве входных данных:
Матрица X целевой формы имеет размер n × p, где n - количество ориентиров в форме и p - количество измерений на ориентир.
Матрица Y формы сравнения имеет размер n × q с q ≤ p. При меньшем количестве измерений на ориентир для формы сравнения, чем для целевой формы (q < p), функция добавляет столбцы нулей к Y, получая n × p матрица.
Уравнение для получения преобразованной формы Z равно
| + c | (1) |
где:
b - коэффициент масштабирования, который растягивает (b > 1) или сжимает (b < 1) точки.
T - матрица ортогонального вращения и отражения.
c - матрица с постоянными значениями в каждом столбце, используемая для сдвига точек.
procrustes функция выбирает b, T и c, чтобы минимизировать расстояние между целевой формой X и преобразованной формой Z, измеренное критерием наименьших квадратов:
Zij) 2
Анализ Procrustes подходит, когда все p размеры измерений имеют сходные масштабы. Анализ был бы неточным, например, если бы столбцы Z имели различные масштабы:
Первую колонку измеряют в миллилитрах в диапазоне от 2000 до 6000.
Вторую колонку измеряют в градусах Цельсия в диапазоне от 10 до 25.
Третий столбик измеряется в килограммах в диапазоне от 50 до 230.
В таких случаях стандартизируйте переменные следующим образом:
Вычитание среднего значения выборки из каждой переменной.
Деление каждой результирующей переменной на стандартное отклонение образца.
Используйте zscore для выполнения этой стандартизации.