Выравнивание нескольких последовательностей с помощью прогрессивного метода
SeqsMultiAligned = multialign(Seqs)
SeqsMultiAligned = multialign(Seqs, Tree)
multialign(..., 'PropertyName', PropertyValue,...)
multialign(..., 'Weights', WeightsValue)
multialign(..., 'ScoringMatrix', ScoringMatrixValue)
multialign(..., 'SMInterp', SMInterpValue)
multialign(..., 'GapOpen', GapOpenValue)
multialign(..., 'ExtendGap', ExtendGapValue)
multialign(..., 'DelayCutoff', DelayCutoffValue)
multialign(..., 'UseParallel', UseParallelValue)
multialign(..., 'Verbose', VerboseValue)
multialign(..., 'ExistingGapAdjust', ExistingGapAdjustValue)
multialign(..., 'TerminalGapAdjust', TerminalGapAdjustValue)
Seqs | Вектор структур с полями
|
Tree | Филогенетическое дерево, рассчитанное с помощью seqlinkage или seqneighjoin функция. |
WeightsValue | Свойство для выбора метода взвешивания последовательности. Введите 'THG' (по умолчанию) или 'equal'. |
ScoringMatrixValue | Одно из следующих:
Примечание Если вам нужно скомпилироваться |
SMInterpValue | Свойство, чтобы указать, включена или отключена линейная интерполяция матриц скоринга falseМатрица оценки назначается фиксированной области значений в зависимости от расстояний между двумя выравниваемыми профилями (или последовательностями). По умолчанию это true. |
GapOpenValue | Скаляр или функция, заданная с помощью @. Если вы вводите функцию, multialign передает функции четыре значения: средний счет для двух совпадающих остатков (sm), средний счет для двух несовпадающих остатков (sx), и, длина обоих профилей или последовательностей (len1, len2). По умолчанию это @(sm,sx,len1,len2) 5*sm. |
ExtendGapValue | Скаляр или функция, заданная с помощью @. Если вы вводите функцию, multiialign передает функции четыре значения: средний счет для двух совпадающих остатков (sm), средний счет для двух несовпадающих остатков (sx), и длина обоих профилей или последовательностей (len1, len2). По умолчанию это @(sm,sx,len1,len2) sm/4. |
DelayCutoffValue | Свойство для задания пороговой задержки расхождения последовательностей. По умолчанию является единицей, где последовательности с самой близкой последовательностью дальше медианного расстояния задерживаются. |
UseParallelValue | Управляет расчетом парных выравниваний с помощью parfor-циклы. Когда true, и Parallel Computing Toolbox™ установлен и parpool открыт, расчет происходит параллельно. Если нет открытых parpool, но автоматическое создание включено в Parallel Preferences, пул по умолчанию будет автоматически открыт, а расчеты происходят параллельно. Если установлен Parallel Computing Toolbox, но нет открытых parpool и автоматическое создание отключено, затем в расчетах используются parfor-циклы в последовательном режиме. Если Parallel Computing Toolbox не установлен, то при расчетах используются parfor-циклы в последовательном режиме. По умолчанию это false, который использует петли for в последовательном режиме. |
VerboseValue | Свойство для управления отображением последовательностей с информацией о последовательности. По умолчанию это false. |
ExistingGapAdjustValue | Свойство для управления автоматической регулировкой на основе существующих погрешностей. По умолчанию это true. |
TerminalGapAdjustValue | Свойство для корректировки штрафа за открытие зазора в концах последовательности. По умолчанию это false. |
| Вектор структур (такой же, как Когда |
выполняет прогрессивное множественное выравнивание для набора последовательностей (SeqsMultiAligned = multialign(Seqs)Seqs). Парные расстояния между последовательностями вычисляются после парного выравнивания с матрицей оценки Гоннета и затем путем подсчета доли сайтов, в которых каждая пара последовательностей различна (игнорируя погрешности). Дерево руководства вычисляется методом соединения соседей, принимая равные отклонения и независимость эволюционных оценок расстояния.
использует дерево (SeqsMultiAligned = multialign(Seqs, Tree)Tree) как руководство для прогрессивного выравнивания. Последовательности (Seqs) должен иметь тот же порядок, что и листья в дереве (Tree) или использовать поле ('Header' или 'Name') для идентификации последовательностей.
multialign(..., ' вводит необязательные аргументы в виде пар имя свойства/property значение. Задайте одно или несколько свойств в любом порядке. Заключайте каждую PropertyName', PropertyValue,...)PropertyName в одинарных кавычках. Каждый PropertyName является нечувствительным к регистру. Эти имена свойства/пары значения свойств следующие:
multialign(..., 'Weights', выбирает метод взвешивания последовательности. Веса подчеркивают сильно расхождения последовательностей путем масштабирования матрицы подсчета и штрафов за разрыв. Более близкие последовательности получают меньшие веса. WeightsValue)
Значения свойства Weights являются:
'THG' (по умолчанию) - метод Томпсона-Хиггинса-Гибсона с использованием филогенетических расстояний древовидной ветви, взвешенных по их толщине.
'equal' - Присваивает одинаковый вес каждой последовательности.
multialign(..., 'ScoringMatrix', выбирает матрицу оценки (ScoringMatrixValue)ScoringMatrixValue) для прогрессивного выравнивания. Счета соответствия и несоответствия интерполируются из ряда матриц оценки путем принятия к сведению расстояний между двумя выравниваемыми профилями или последовательностями. Первая матрица соответствует наименьшему расстоянию, а последняя - наибольшему расстоянию. Промежуточные расстояния вычисляются с помощью линейной интерполяции.
multialign(..., 'SMInterp', , когда SMInterpValue)SMInterpValue является false, отключает линейную интерполяцию матриц оценки. Вместо этого каждая поставленная матрица оценки присваивается фиксированной области значений в зависимости от расстояний между двумя выравниваемыми профилями или последовательностями.
multialign(..., 'GapOpen', задает начальный штраф за открытие зазора. GapOpenValue)
multialign(..., 'ExtendGap', задает начальный штраф за расширение зазора. ExtendGapValue)
multialign(..., 'DelayCutoff', задает порог, чтобы задержать выравнивание расходящихся последовательностей, ближайший соседний узел которых находится дальше, чем DelayCutoffValue)
(DelayCutoffValue) * (median patristic distance between sequences)
multialign(..., 'UseParallel', определяет, используется ли UseParallelValue)parfor- циклы при вычислении парных выравниваний. Когда true, и Parallel Computing Toolbox установлен и parpool открыт, расчет происходит параллельно. Если нет открытых parpool, но автоматическое создание включено в Parallel Preferences, пул по умолчанию будет автоматически открыт, а расчеты происходят параллельно. Если установлен Parallel Computing Toolbox, но нет открытых parpool и автоматическое создание отключено, затем в расчетах используются parfor-циклы в последовательном режиме. Если Parallel Computing Toolbox не установлен, то при расчетах используются parfor-циклы в последовательном режиме. По умолчанию это false, который использует петли for в последовательном режиме.
multialign(..., 'Verbose', , когда VerboseValue)VerboseValue является true, включает подробность.
Остальные необязательные входные аргументы аналогичны функции profalign и используются на каждом шаге прогрессивного выравнивания профилей.
multialign(..., 'ExistingGapAdjust', , когда ExistingGapAdjustValue)ExistingGapAdjustValue является false, отключает автоматическую регулировку, основанную на существующих погрешностях штрафов за открытие промежутка.
Когда ExistingGapAdjustValue является true, для каждой позиции профиля, profalign пропорционально уменьшает штраф за открытие зазора в сторону штрафа за расширение зазора на основе пропорции зазоров, обнаруженных в смежных символах, и веса входного профиля.
multialign(..., 'TerminalGapAdjust', , когда TerminalGapAdjustValue)TerminalGapAdjustValue является true, корректирует штраф за открытие зазора в концах последовательности, чтобы равняться штрафу за расширение зазора.
Этот пример показывает, как выровнять несколько белковых последовательностей.
Используйте fastaread функция для чтения p53samples.txt, FASTA-форматированный файл, включенный в Bioinformatics Toolbox™, который содержит p53 белковых последовательностей семи видов.
p53 = fastaread('p53samples.txt')p53=7×1 struct array with fields:
Header
Sequence
Вычислите парные расстояния между каждой парой последовательностей с помощью матрицы оценки 'GONNET'.
dist = seqpdist(p53,'ScoringMatrix','GONNET');
Создайте филогенетическое дерево с помощью невзвешенного среднего расстояния (UPGMA) метода. Это дерево будет использоваться в качестве направляющего дерева на следующем этапе постепенного выравнивания.
tree = seqlinkage(dist,'average',p53)Phylogenetic tree object with 7 leaves (6 branches)
Выполните прогрессивное выравнивание с помощью матриц оценки семейства PAM.
ma = multialign(p53,tree,'ScoringMatrix',... {'pam150','pam200','pam250'})
ma=7×1 struct array with fields:
Header
Sequence
Введите массив последовательностей.
seqs = {'CACGTAACATCTC','ACGACGTAACATCTTCT','AAACGTAACATCTCGC'};
Продвигайте разрывы в выравнивании.
multialign(seqs,'terminalGapAdjust',true) ans = --CACGTAACATCTC-- ACGACGTAACATCTTCT -AAACGTAACATCTCGC
Сравните выравнивание без регулировки разрыва.
multialign(seqs) ans = CA--CGTAACATCT--C ACGACGTAACATCTTCT AA-ACGTAACATCTCGC
align2cigar | hmmprofalign | multialignread | multialignwrite | nwalign | profalign | seqconsensus | seqneighjoin | seqprofile