pdist

Попарное расстояние между парами наблюдений

свернуть все на странице

Синтаксис

D = pdist(X)

D = pdist(X,Distance)

D = pdist(X,Distance,DistParameter)

Описание

пример

D = pdist(X) возвращает Евклидово расстояние между парами наблюдений в X.

пример

D = pdist(X,Distance) возвращает расстояние при помощи метода, заданного Distance.

пример

D = pdist(X,Distance,DistParameter) возвращает расстояние при помощи метода, заданного Distance и DistParameter. Можно задать DistParameter только, когда Distance 'seuclidean', 'minkowski', или 'mahalanobis'.

Примеры

свернуть все

Вычислите евклидово расстояние и преобразуйте вектор расстояния в матрицу

Скрипт Open Live Script

Вычислите Евклидово расстояние между парами наблюдений и преобразуйте вектор расстояния в матрицу с помощью squareform.

Создайте матрицу с тремя наблюдениями и двумя переменными.

rng('default') % For reproducibility
X = rand(3,2);

Вычислите Евклидово расстояние.

D = pdist(X)

D = 1×3

    0.2954    1.0670    0.9448

Попарные расстояния располагаются в порядке (2,1), (3,1), (3,2). Можно легко определить местоположение расстояния между наблюдениями i и j при помощи squareform.

Z = squareform(D)

Z = 3×3

         0    0.2954    1.0670
    0.2954         0    0.9448
    1.0670    0.9448         0

squareform возвращает симметрическую матрицу где Z(i,j) соответствует попарному расстоянию между наблюдениями i и j. Например, можно найти расстояние между наблюдениями 2 и 3.

Z(2,3)

ans = 0.9448

Передайте Z к squareform функция, чтобы воспроизвести выход pdist функция.

y = squareform(Z)

y = 1×3

    0.2954    1.0670    0.9448

Выходные параметры y от squareform и D от pdist то же самое.

Вычислите расстояние Минковскего

Скрипт Open Live Script

Создайте матрицу с тремя наблюдениями и двумя переменными.

rng('default') % For reproducibility
X = rand(3,2);

Вычислите расстояние Минковскего с экспонентой по умолчанию 2.

D1 = pdist(X,'minkowski')

D1 = 1×3

    0.2954    1.0670    0.9448

Вычислите расстояние Минковскего с экспонентой 1, который равен расстоянию городского квартала.

D2 = pdist(X,'minkowski',1)

D2 = 1×3

    0.3721    1.5036    1.3136

D3 = pdist(X,'cityblock')

D3 = 1×3

    0.3721    1.5036    1.3136

Вычислите попарное расстояние с Недостающими элементами Используя пользовательскую функцию расстояния

Скрипт Open Live Script

Задайте пользовательскую функцию расстояния, которая игнорирует координаты с NaN значения, и вычисляют попарное расстояние при помощи пользовательской функции расстояния.

Создайте матрицу с тремя наблюдениями и двумя переменными.

rng('default') % For reproducibility
X = rand(3,2);

Примите, что первый элемент первого наблюдения отсутствует.

X(1,1) = NaN;

Вычислите Евклидово расстояние.

D1 = pdist(X)

D1 = 1×3

       NaN       NaN    0.9448

Если наблюдение i или j содержит NaN значения, функциональный pdist возвращает NaN для попарного расстояния между i и j. Поэтому D1 (1) и D1 (2), попарные расстояния (2,1) и (3,1), является NaN значения.

Задайте пользовательскую функцию расстояния naneucdist это игнорирует координаты с NaN значения и возвращают Евклидово расстояние.

function D2 = naneucdist(XI,XJ)  
%NANEUCDIST Euclidean distance ignoring coordinates with NaNs
n = size(XI,2);
sqdx = (XI-XJ).^2;
nstar = sum(~isnan(sqdx),2); % Number of pairs that do not contain NaNs
nstar(nstar == 0) = NaN; % To return NaN if all pairs include NaNs
D2squared = sum(sqdx,2,'omitnan').*n./nstar; % Correction for missing coordinates
D2 = sqrt(D2squared);

Вычислите расстояние с naneucdist путем передачи указателя на функцию как входного параметра pdist.

D2 = pdist(X,@naneucdist)

D2 = 1×3

    0.3974    1.1538    0.9448

Входные параметры

свернуть все

`X` — Входные данные
числовая матрица

Входные данные в виде числовой матрицы размера m-by-n. Строки соответствуют отдельным наблюдениям, и столбцы соответствуют отдельным переменным.

Типы данных: single | double

`Distance` — Метрика расстояния
вектор символов | строковый скаляр | указатель на функцию

Метрика расстояния в виде вектора символов, строкового скаляра или указателя на функцию, как описано в следующей таблице.

Значение	Описание
`'euclidean'`	Евклидово расстояние (значение по умолчанию).
`'squaredeuclidean'`	Придал Евклидову расстоянию квадратную форму. (Эта возможность предоставляется для КПД только. Это не удовлетворяет треугольному неравенству.)
`'seuclidean'`	Стандартизированное Евклидово расстояние. Каждое координатное различие между наблюдениями масштабируется путем деления на соответствующий элемент стандартного отклонения, `S = std(X,'omitnan')`. Используйте `DistParameter` задавать другое значение для `S`.
`'mahalanobis'`	Расстояние Mahalanobis с помощью выборочной ковариации `X`, `C = cov(X,'omitrows')`. Используйте `DistParameter` задавать другое значение для `C`, где матричный `C` симметрично и положительный определенный.
`'cityblock'`	Расстояние городского квартала.
`'minkowski'`	Расстояние Минковскего. Экспонента по умолчанию равняется 2. Используйте `DistParameter` задавать различную экспоненту `P`, где `P` значение положительной скалярной величины экспоненты.
`'chebychev'`	Расстояние Чебычева (максимум координируют различие).
`'cosine'`	Один минус косинус включенного угла между точками (обработанный как векторы).
`'correlation'`	Один минус корреляция выборки между точками (обработанный как последовательности значений).
`'hamming'`	Расстояние Хемминга, которое является процентом координат, которые отличаются.
`'jaccard'`	Один минус коэффициент Jaccard, который является процентом ненулевых координат, которые отличаются.
`'spearman'`	Один минус порядковая корреляция демонстрационного Копьеносца между наблюдениями (обработанный как последовательности значений).
`@distfun`	Пользовательский указатель на функцию расстояния. Функция расстояния имеет форму function D2 = distfun(ZI,ZJ) % calculation of distance ... где `ZI` `1`- `n` вектор, содержащий одно наблюдение. `ZJ` `m2`- `n` матрица, содержащая несколько наблюдений. `distfun` должен принять матричный `ZJ` с произвольным числом наблюдений. `D2` `m2`- `1` вектор из расстояний и `D2(k)` расстояние между наблюдениями `ZI` и `ZJ(k,:)`. Если ваши данные не разреженны, можно обычно вычислять расстояние более быстро при помощи встроенного расстояния вместо указателя на функцию.

Для определений смотрите Метрики Расстояния.

Когда вы используете 'seuclidean', 'minkowski', или 'mahalanobis', можно задать дополнительный входной параметр DistParameter управлять этими метриками. Можно также использовать эти метрики таким же образом в качестве других метрик со значением по умолчанию DistParameter.

Пример: 'minkowski'

`DistParameter` — Метрические значения параметров расстояния
положительная скалярная величина | числовой вектор | числовая матрица

Метрические значения параметров расстояния в виде положительной скалярной величины, числового вектора или числовой матрицы. Этот аргумент допустим только, когда вы задаете Distance как 'seuclidean', 'minkowski', или 'mahalanobis'.

Если Distance 'seuclidean', DistParameter вектор из масштабных коэффициентов для каждой размерности в виде положительного вектора. Значением по умолчанию является std(X,'omitnan').
Если Distance 'minkowski', DistParameter экспонента расстояния Минковскего в виде положительной скалярной величины. Значение по умолчанию равняется 2.
Если Distance 'mahalanobis', DistParameter ковариационная матрица в виде числовой матрицы. Значением по умолчанию является cov(X,'omitrows'). DistParameter должно быть симметричным и положительный определенный.

Пример: 'minkowski',3

Типы данных: single | double

Выходные аргументы

свернуть все

`D` — Попарные расстояния
числовой вектор-строка

Попарные расстояния, возвращенные как числовой вектор-строка из длины m (m –1)/2, соответствуя парам наблюдений, где m является количеством наблюдений в X.

Расстояния располагаются в порядке (2,1), (3,1)..., (m, 1), (3,2)..., (m, 2)..., (m, m –1), т.е. нижний левый треугольник m-by-m матрица расстояния в порядке следования столбцов. Попарное расстояние между наблюдениями i и j находится в D((i-1)*(m-i/2)+j-i) для i ≤j.

Можно преобразовать D в симметрическую матрицу при помощи squareform функция. Z = squareform(D) возвращает m-by-m матрица где Z(i,j) соответствует попарному расстоянию между наблюдениями i и j.

Если наблюдение i или j содержит NaNs, затем соответствующее значение в D isnan для встроенных функций расстояния.

D обычно используется в качестве матрицы несходства в кластеризации или многомерном масштабировании. Для получения дополнительной информации смотрите Иерархическую Кластеризацию и страницы ссылки на функцию для cmdscale, cophenet, linkage, mdscale, и optimalleaforder. Эти функции берут D как входной параметр.

Больше о

свернуть все

Метрики расстояния

Метрика расстояния является функцией, которая задает расстояние между двумя наблюдениями. pdist поддержки различные метрики расстояния: Евклидово расстояние, стандартизированное Евклидово расстояние, расстояние Mahalanobis, расстояние городского квартала, расстояние Минковскего, расстояние Чебычева, расстояние косинуса, расстояние корреляции, Расстояние Хемминга, расстояние Jaccard и расстояние Копьеносца.

Учитывая m-by-n матрица данных X, который обработан как m (1 n) векторы-строки _x1, _x2..., _xm, различные расстояния между векторным _xs и _xt определяются следующим образом:

Евклидово расстояние
$d_{s t}^{2} = (x_{s} - x_{t}) (x_{s} - x_{t})^{'} .$
Евклидово расстояние является особым случаем расстояния Минковскего, где p = 2.
Стандартизированное Евклидово расстояние
$d_{s t}^{2} = (x_{s} - x_{t}) V^{- 1} (x_{s} - x_{t})^{'},$
где V является n-by-n диагональная матрица, j которой th диагональный элемент (S (j)) ², где S является вектором из масштабных коэффициентов для каждой размерности.
Расстояние Mahalanobis
$d_{s t}^{2} = (x_{s} - x_{t}) C^{- 1} (x_{s} - x_{t})^{'},$
где C является ковариационной матрицей.
Расстояние городского квартала
$d_{s t} = \sum_{j = 1}^{n} | x_{s j} - x_{t j} | .$
Расстояние городского квартала является особым случаем расстояния Минковскего, где p = 1.
Расстояние Минковскего
$d_{s t} = \sqrt[p]{\sum_{j = 1}^{n} {| x_{s j} - x_{t j} |}^{p}} .$
Для особого случая p = 1, расстояние Минковскего дает расстояние городского квартала. Для особого случая p = 2, расстояние Минковскего дает Евклидово расстояние. Для особого случая p = ∞, расстояние Минковскего дает расстояние Чебычева.
Расстояние Чебычева
$d_{s t} = \max_{j} {| x_{s j} - x_{t j} |} .$
Расстояние Чебычева является особым случаем расстояния Минковскего, где p = ∞.
Расстояние косинуса
$d_{s t} = 1 - \frac{x_{s} {x^{'}}_{t}}{\sqrt{(x_{s} {x^{'}}_{s}) (x_{t} {x^{'}}_{t})}} .$
Расстояние корреляции
$d_{s t} = 1 - \frac{(x_{s} - {\bar{x}}_{s}) {(x_{t} - {\bar{x}}_{t})}^{'}}{\sqrt{(x_{s} - {\bar{x}}_{s}) {(x_{s} - {\bar{x}}_{s})}^{'}} \sqrt{(x_{t} - {\bar{x}}_{t}) {(x_{t} - {\bar{x}}_{t})}^{'}}},$
где
${\bar{x}}_{s} = \frac{1}{n} \sum_{j} x_{s j}$ и ${\bar{x}}_{t} = \frac{1}{n} \sum_{j} x_{t j}$ .
Расстояние Хемминга
$d_{s t} = (# (x_{s j} \neq x_{t j}) / n) .$
Расстояние Jaccard
$d_{s t} = \frac{# [(x_{s j} \neq x_{t j}) \cap ((x_{s j} \neq 0) \cup (x_{t j} \neq 0))]}{# [(x_{s j} \neq 0) \cup (x_{t j} \neq 0)]} .$
Расстояние копьеносца
$d_{s t} = 1 - \frac{(r_{s} - {\bar{r}}_{s}) {(r_{t} - {\bar{r}}_{t})}^{'}}{\sqrt{(r_{s} - {\bar{r}}_{s}) {(r_{s} - {\bar{r}}_{s})}^{'}} \sqrt{(r_{t} - {\bar{r}}_{t}) {(r_{t} - {\bar{r}}_{t})}^{'}}},$
где
- _rsj является рангом _xsj, принятого x ₁_j, x ₂_j... _xmj, как вычислено tiedrank.
- _rs и _rt являются координатно-мудрыми векторами ранга из _xs и _xt, т.е. _rs = (_rs ₁, _rs ₂... _rsn).
- ${\bar{r}}_{s} = \frac{1}{n} \sum_{j} r_{s j} = \frac{(n + 1)}{2}$ .
- ${\bar{r}}_{t} = \frac{1}{n} \sum_{j} r_{t j} = \frac{(n + 1)}{2}$ .

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Указания и ограничения по применению:

Значение входного параметра расстояния (Distance) должно быть постоянное время компиляции. Например, чтобы использовать расстояние Минковскего, включайте coder.Constant('Minkowski') в -args значение codegen.
Значение входного параметра расстояния (Distance) не может быть пользовательская функция расстояния.
Сгенерированный код pdist использование parfor (MATLAB Coder), чтобы создать циклы, которые запускают параллельно на поддерживаемой общей памяти многожильные платформы в сгенерированном коде. Если ваш компилятор не поддерживает интерфейс приложения Open Multiprocessing (OpenMP), или вы отключаете библиотеку OpenMP, MATLAB^® Coder™ обрабатывает parfor- циклы как for- циклы. Чтобы найти поддерживаемые компиляторы, см. Поддерживаемые Компиляторы. Чтобы отключить библиотеку OpenMP, установите EnableOpenMP свойство настройки возражает против false. Для получения дополнительной информации смотрите coder.CodeConfig (MATLAB Coder).

Для получения дополнительной информации о генерации кода смотрите Введение в Генерацию кода и Общий Рабочий процесс Генерации кода.

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Указания и ограничения по применению:

Поддерживаемые значения входного параметра расстояния (Distance) поскольку оптимизированным кодом CUDA является 'euclidean', 'squaredeuclidean', 'seuclidean', 'cityblock', 'minkowski', 'chebychev', 'cosine'Корреляция, 'hamming', и 'jaccard'.
Distance не может быть пользовательская функция расстояния.
Distance должно быть постоянное время компиляции.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Указания и ограничения по применению:

Distance аргумент должен быть задан как вектор символов.

Для получения дополнительной информации смотрите функции MATLAB Запуска на графическом процессоре (Parallel Computing Toolbox).

Темы

Представлено до R2006a

Документация

pdist

Синтаксис

Описание

Примеры

Вычислите евклидово расстояние и преобразуйте вектор расстояния в матрицу

Вычислите расстояние Минковскего

Вычислите попарное расстояние с Недостающими элементами Используя пользовательскую функцию расстояния

Входные параметры

`X` — Входные данные
числовая матрица

`Distance` — Метрика расстояния
вектор символов | строковый скаляр | указатель на функцию

`DistParameter` — Метрические значения параметров расстояния
положительная скалярная величина | числовой вектор | числовая матрица

Выходные аргументы

`D` — Попарные расстояния
числовой вектор-строка

Больше о

Метрики расстояния

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

pdist

Синтаксис

Описание

Примеры

Вычислите евклидово расстояние и преобразуйте вектор расстояния в матрицу

Вычислите расстояние Минковскего

Вычислите попарное расстояние с Недостающими элементами Используя пользовательскую функцию расстояния

Входные параметры

X — Входные данные числовая матрица

Distance — Метрика расстояния вектор символов | строковый скаляр | указатель на функцию

DistParameter — Метрические значения параметров расстояния положительная скалярная величина | числовой вектор | числовая матрица

Выходные аргументы

D — Попарные расстояния числовой вектор-строка

Больше о

Метрики расстояния

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`X` — Входные данные
числовая матрица

`Distance` — Метрика расстояния
вектор символов | строковый скаляр | указатель на функцию

`DistParameter` — Метрические значения параметров расстояния
положительная скалярная величина | числовой вектор | числовая матрица

`D` — Попарные расстояния
числовой вектор-строка

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Генерация кода графического процессора
Сгенерируйте код CUDA® для NVIDIA® графические процессоры с помощью GPU Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.