Вычисление попарного расстояния между последовательностями
D = seqpdist(Seqs)
D = seqpdist(Seqs, ...'PropertyName', PropertyValue, ...)
D = seqpdist(Seqs, ...'Method', MethodValue, ...)
D = seqpdist(Seqs, ...'Indels', IndelsValue, ...)
D = seqpdist(Seqs, ...'OptArgs', OptArgsValue, ...)
D = seqpdist(Seqs, ...'PairwiseAlignment', PairwiseAlignmentValue, ...)
D = seqpdist(Seqs, ...'UseParallel', UseParallelValue, ...)
D = seqpdist(Seqs, ...'SquareForm', SquareFormValue ...)
D = seqpdist(Seqs, ...'Alphabet', AlphabetValue, ...)
D = seqpdist(Seqs, ...'ScoringMatrix', ScoringMatrixValue, ...)
D = seqpdist(Seqs, ...'Scale', ScaleValue, ...)
D = seqpdist(Seqs, ...'GapOpen', GapOpenValue, ...)
D = seqpdist(Seqs, ...'ExtendGap', ExtendGapValue, ...)
Seqs | Любое из следующих действий:
|
MethodValue | Символьный вектор или строка, задающая метод вычисления попарных расстояний. По умолчанию: 'Jukes-Cantor'. |
IndelsValue | Символьный вектор или строка, указывающая, как обрабатывать сайты с пробелами. По умолчанию: 'score'. |
OptArgsValue | Символьный вектор или массив ячеек, указывающий один или несколько входных аргументов, требуемых или принятых методом расстояния, указанным Method собственность. |
PairwiseAlignmentValue | Управляет глобальным попарным выравниванием входных последовательностей (с помощью nwalign функция), игнорируя множественное выравнивание входных последовательностей (если таковое имеется). Варианты: true или false. Значение по умолчанию:
Совет Если входные последовательности имеют одинаковую длину,
|
UseParallelValue | Управляет расчетом попарных расстояний с помощью parfor-контуры. Когда trueи установлена Toolbox™ параллельных вычислений и parpool открыт, вычисления выполняются параллельно. При отсутствии открытых parpool, но автоматическое создание включено в настройках параллелизма, пул по умолчанию будет автоматически открыт и вычисления будут выполняться параллельно. Если установлена панель инструментов параллельных вычислений, но нет открытых parpool и автоматическое создание отключено, то вычисление использует parfor- петли в последовательном режиме. Если панель инструментов параллельных вычислений не установлена, то при вычислении используется parfor- петли в последовательном режиме. По умолчанию: false, который использует for-loops в последовательном режиме. |
SquareFormValue | Управляет преобразованием выходных данных в квадратную матрицу. Варианты: |
AlphabetValue | Символьный вектор или строка, указывающая тип последовательности (нуклеотид или аминокислота). Варианты: 'NT' или 'AA' (по умолчанию). |
ScoringMatrixValue | Одно из следующих действий:
Примечание Если нужно скомпилировать |
ScaleValue | Положительное значение, указывающее масштабный коэффициент, используемый для возврата оценки в произвольных единицах. Если информация матрицы оценки также предоставляет масштабный коэффициент, то используются оба. |
GapOpenValue | Положительное целое число, указывающее штраф за открытие промежутка в трассе. По умолчанию: 8. |
ExtendedGapValue | Положительное целое число, указывающее штраф за увеличение промежутка. Значение по умолчанию равно GapOpenValue. |
D | Вектор, который содержит биологические расстояния между каждой парой последовательностей, хранящихся в M элементы Seqs. |
прибыль D = seqpdist(Seqs)Dвектор, содержащий биологические расстояния между каждой парой последовательностей, хранящихся в M последовательности Seqs, клеточный массив последовательностей, вектор структур или матрица или последовательности.
является D1около-(M*(M-1)/2) вектор строки, соответствующий M*(M-1)/2 пары последовательностей в Seqs. Продукция расположен в порядке D((2,1),(3,1),..., (M,1),(3,2),...(M,2),...(M,M-1)). Это нижний левый треугольник полного Mоколо-M матрица расстояний. Чтобы получить расстояние между Iи Jth последовательности для I > J, используйте формулу D((J-1)*(M-J/2)+I-J).
требования D = seqpdist(Seqs, ...'PropertyName', PropertyValue, ...)seqpdist с необязательными свойствами, использующими пары имя/значение свойства. Укажите одно или несколько свойств в любом порядке. Заключить каждый PropertyName в одинарных кавычках. Каждый PropertyName нечувствителен к регистру. Эти пары имя/значение свойства следующие:
задает метод для вычисления расстояний между каждой парой последовательностей. Варианты выбора показаны в следующих таблицах.D = seqpdist(Seqs, ...'Method', MethodValue, ...)
Методы для нуклеотидов и аминокислот
| Метод | Описание |
|---|---|
p-distance | Доля сайтов, в которых две последовательности различны. p близок к 1 для плохо связанных последовательностей, и p близок к 0 для аналогичных последовательностей.d = p |
Jukes-Cantor (по умолчанию) | Оценка максимального правдоподобия количества замен между двумя последовательностями. Для нуклеотидов: Для аминокислот: |
alignment-score | Расстояние (d) между двумя последовательностями (1, 2) вычисляется по парной шкале выравнивания между двумя последовательностями (score12) и парный балл выравнивания между каждой последовательностью и собой (score11, score22) следующим образом:d = (1-score12/score11)* (1-score12/score22) d = 0 |
Методы без оценки пробелов (только нуклеотиды)
| Метод | Описание |
|---|---|
Tajima-Nei | Оценка максимального правдоподобия с учетом фоновых нуклеотидных частот. Его можно вычислить по входным последовательностям или задать путем установки OptArgs кому [gA gC gG gT]. gA, gC, gG, gT скалярные значения для нуклеотидных частот. |
Kimura | Рассматривает отдельно переходное нуклеотидное замещение и поперечное нуклеотидное замещение. |
Tamura | Рассматривает отдельно переходное нуклеотидное замещение, поперечное нуклеотидное замещение и содержание ГХ. Содержимое GC можно вычислить из входных последовательностей или задать путем установки OptArgs к доле содержимого GC (скалярное значение от 0 кому 1). |
Hasegawa | Отдельно рассматривает переходное нуклеотидное замещение, поперечное нуклеотидное замещение и фоновые нуклеотидные частоты. Фоновые частоты могут быть вычислены из входных последовательностей или заданы путем установки OptArgs свойство для [gA gC gG gT]. |
Nei-Tamura | Отдельно рассматривает переходное нуклеотидное замещение между пуринами, переходное нуклеотидное замещение между пиримидинами, поперечное нуклеотидное замещение и фоновые нуклеотидные частоты. Фоновые частоты могут быть вычислены из входных последовательностей или заданы путем установки OptArgs свойство для [gA gC gG gT]. |
Методы без оценки пробелов (только аминокислоты)
| Метод | Описание |
|---|---|
Poisson | Предполагает, что количество аминокислотных замен в каждом сайте имеет распределение Пуассона. |
Gamma | Предполагает, что количество аминокислотных замен в каждом сайте имеет гамма-распределение с параметром a. Набор a с использованием OptArgs собственность. По умолчанию: 2. |
Можно также указать пользовательскую функцию расстояния с помощью @, например, @distfun. Функция расстояния должна иметь вид:
function D = distfun(S1, S2, OptArgsValue)
distfun функция принимает следующие аргументы:
S1 , S2 - Две последовательности одинаковой длины (нуклеотид или аминокислота).
OptArgsValue - Необязательные аргументы, зависящие от проблемы.
distfun функция возвращает скаляр, представляющий расстояние между S1 и S2.
указывает, как обрабатывать сайты с пробелами. Возможны следующие варианты:D = seqpdist(Seqs, ...'Indels', IndelsValue, ...)
score (по умолчанию) - оценивает эти сайты либо как точечную мутацию, либо с параметрами выравнивания, в зависимости от выбранного метода.
pairwise-del - При каждом попарном сравнении он игнорирует сайты с пробелами.
complete-del - игнорирует все столбцы в нескольких трассах, содержащие промежуток. Эта опция доступна, только если в качестве входных данных указано несколько трасс Seqs.
передает один или несколько аргументов, требуемых или принятых методом расстояния, указанным D = seqpdist(Seqs, ...'OptArgs', OptArgsValue, ...)Method собственность. Используйте символьный вектор или массив ячеек для передачи одного или нескольких входных аргументов. Например, предоставить нуклеотидные частоты для Tajima-Nei метод расстояния, вместо того, чтобы вычислять их по входным последовательностям.
управляет глобальным попарным выравниванием входных последовательностей (с помощью D = seqpdist(Seqs, ...'PairwiseAlignment', PairwiseAlignmentValue, ...)nwalign функция), игнорируя множественное выравнивание входных последовательностей (если таковое имеется). Значение по умолчанию:
true - Когда все входные последовательности не имеют одинаковой длины.
false - Когда все входные последовательности имеют одинаковую длину.
Совет
Если входные последовательности имеют одинаковую длину, seqpdist предполагает, что они выровнены. Если они не выровнены, выполните одно из следующих действий.
Выровнять последовательности перед их передачей seqpdist, например, с использованием multialign функция.
Набор PairwiseAlignment кому true при использовании seqpdist.
указывает, следует ли использовать D = seqpdist(Seqs, ...'UseParallel', UseParallelValue, ...)parfor- петли при вычислении попарных расстояний. Когда trueи установлена панель инструментов параллельных вычислений и parpool открыт, вычисления выполняются параллельно. При отсутствии открытых parpool, но автоматическое создание включено в настройках параллелизма, пул по умолчанию будет автоматически открыт и вычисления будут выполняться параллельно. Если установлена панель инструментов параллельных вычислений, но нет открытых parpool и автоматическое создание отключено, то вычисление использует parfor- петли в последовательном режиме. Если панель инструментов параллельных вычислений не установлена, то при вычислении используется parfor- петли в последовательном режиме. По умолчанию: false, который использует for-loops в последовательном режиме.
управляет преобразованием выходного сигнала в квадратную матрицу, такую, что D = seqpdist(Seqs, ...'SquareForm', SquareFormValue ...) обозначает расстояние между D(I,J)Iи J3-я последовательность. Квадратная матрица симметрична и имеет нулевую диагональ. Варианты: true или false (по умолчанию). Настройка Squareform кому true совпадает с использованием squareform функция в Toolbox™ статистики и машинного обучения.
определяет тип последовательности (нуклеотид или аминокислота). Варианты: D = seqpdist(Seqs, ...'Alphabet', AlphabetValue, ...)'NT' или 'AA' (по умолчанию).
Остальные входные свойства доступны, если Method свойство равно 'alignment-score' или PairwiseAlignment свойство равно true.
задает матрицу оценки, используемую для глобального попарного выравнивания. Значение по умолчанию:D = seqpdist(Seqs, ...'ScoringMatrix', ScoringMatrixValue, ...)
'NUC44' - Когда AlphabetValue равняется 'NT'.
'BLOSUM50' - Когда AlphabetValue равняется 'AA'.
задает масштабный коэффициент, используемый для возврата оценки в произвольных единицах. Выбор - это любое положительное значение. Если информация матрицы оценки также предоставляет масштабный коэффициент, то используются оба.D = seqpdist(Seqs, ...'Scale', ScaleValue, ...)
определяет штраф за открытие промежутка на трассе. Варианты представляют собой любое положительное целое число. По умолчанию: D = seqpdist(Seqs, ...'GapOpen', GapOpenValue, ...)8.
задает штраф за удлинение промежутка на трассе. Варианты представляют собой любое положительное целое число. Значение по умолчанию равно D = seqpdist(Seqs, ...'ExtendGap', ExtendGapValue, ...)GapOpenValue.
Считывание данных выравнивания аминокислот в структуру MATLAB.
seqs = fastaread('pf00002.fa');Для каждой возможной пары последовательностей в множественном выравнивании игнорируйте сайты с пробелами и оцените с помощью матрицы оценки PAM250.
dist = seqpdist(seqs,'Method','alignment-score',...
'Indels','pairwise-delete',...
'ScoringMatrix','pam250');Принудительное перераспределение каждой пары последовательностей, игнорирующее предоставленное множественное выравнивание.
dist = seqpdist(seqs,'Method','alignment-score',...
'Indels','pairwise-delete',...
'ScoringMatrix','pam250',...
'PairwiseAlignment',true);Измерьте попарные расстояния Джукса - Кантора после перегруппировки каждой пары последовательностей, считая промежутки как точечные мутации.
dist = seqpdist(seqs,'Method','jukes-cantor',...
'Indels','score',...
'Scoringmatrix','pam250',...
'PairwiseAlignment',true);