Выравнивание нескольких последовательностей с помощью прогрессивного метода
SeqsMultiAligned
= multialign(Seqs
)
SeqsMultiAligned
= multialign(Seqs
, Tree
)
multialign(..., 'PropertyName
', PropertyValue,
...)
multialign(..., 'Weights', WeightsValue
)
multialign(..., 'ScoringMatrix', ScoringMatrixValue
)
multialign(..., 'SMInterp', SMInterpValue
)
multialign(..., 'GapOpen', GapOpenValue
)
multialign(..., 'ExtendGap', ExtendGapValue
)
multialign(..., 'DelayCutoff', DelayCutoffValue
)
multialign(..., 'UseParallel', UseParallelValue
)
multialign(..., 'Verbose', VerboseValue
)
multialign(..., 'ExistingGapAdjust', ExistingGapAdjustValue
)
multialign(..., 'TerminalGapAdjust', TerminalGapAdjustValue
)
Seqs | Вектор структур с полями
|
Tree | Филогенетическое дерево, рассчитанное с помощью seqlinkage или seqneighjoin функция. |
WeightsValue | Свойство для выбора метода взвешивания последовательности. Введите 'THG' (по умолчанию) или 'equal' . |
ScoringMatrixValue | Одно из следующих:
Примечание Если вам нужно скомпилироваться |
SMInterpValue | Свойство, чтобы указать, включена или отключена линейная интерполяция матриц скоринга false Матрица оценки назначается фиксированной области значений в зависимости от расстояний между двумя выравниваемыми профилями (или последовательностями). По умолчанию это true . |
GapOpenValue | Скаляр или функция, заданная с помощью @ . Если вы вводите функцию, multialign передает функции четыре значения: средний счет для двух совпадающих остатков (sm ), средний счет для двух несовпадающих остатков (sx ), и, длина обоих профилей или последовательностей (len1 , len2 ). По умолчанию это @(sm,sx,len1,len2) 5*sm . |
ExtendGapValue | Скаляр или функция, заданная с помощью @ . Если вы вводите функцию, multiialign передает функции четыре значения: средний счет для двух совпадающих остатков (sm ), средний счет для двух несовпадающих остатков (sx ), и длина обоих профилей или последовательностей (len1 , len2 ). По умолчанию это @(sm,sx,len1,len2) sm/4 . |
DelayCutoffValue | Свойство для задания пороговой задержки расхождения последовательностей. По умолчанию является единицей, где последовательности с самой близкой последовательностью дальше медианного расстояния задерживаются. |
UseParallelValue | Управляет расчетом парных выравниваний с помощью parfor -циклы. Когда true , и Parallel Computing Toolbox™ установлен и parpool открыт, расчет происходит параллельно. Если нет открытых parpool , но автоматическое создание включено в Parallel Preferences, пул по умолчанию будет автоматически открыт, а расчеты происходят параллельно. Если установлен Parallel Computing Toolbox, но нет открытых parpool и автоматическое создание отключено, затем в расчетах используются parfor -циклы в последовательном режиме. Если Parallel Computing Toolbox не установлен, то при расчетах используются parfor -циклы в последовательном режиме. По умолчанию это false , который использует петли for в последовательном режиме. |
VerboseValue | Свойство для управления отображением последовательностей с информацией о последовательности. По умолчанию это false . |
ExistingGapAdjustValue | Свойство для управления автоматической регулировкой на основе существующих погрешностей. По умолчанию это true . |
TerminalGapAdjustValue | Свойство для корректировки штрафа за открытие зазора в концах последовательности. По умолчанию это false . |
| Вектор структур (такой же, как Когда |
выполняет прогрессивное множественное выравнивание для набора последовательностей (SeqsMultiAligned
= multialign(Seqs
)Seqs
). Парные расстояния между последовательностями вычисляются после парного выравнивания с матрицей оценки Гоннета и затем путем подсчета доли сайтов, в которых каждая пара последовательностей различна (игнорируя погрешности). Дерево руководства вычисляется методом соединения соседей, принимая равные отклонения и независимость эволюционных оценок расстояния.
использует дерево (SeqsMultiAligned
= multialign(Seqs
, Tree
)Tree
) как руководство для прогрессивного выравнивания. Последовательности (Seqs
) должен иметь тот же порядок, что и листья в дереве (Tree
) или использовать поле ('Header'
или 'Name'
) для идентификации последовательностей.
multialign(..., '
вводит необязательные аргументы в виде пар имя свойства/property значение. Задайте одно или несколько свойств в любом порядке. Заключайте каждую PropertyName
', PropertyValue,
...)PropertyName
в одинарных кавычках. Каждый PropertyName
является нечувствительным к регистру. Эти имена свойства/пары значения свойств следующие:
multialign(..., 'Weights',
выбирает метод взвешивания последовательности. Веса подчеркивают сильно расхождения последовательностей путем масштабирования матрицы подсчета и штрафов за разрыв. Более близкие последовательности получают меньшие веса. WeightsValue
)
Значения свойства Weights
являются:
'THG'
(по умолчанию) - метод Томпсона-Хиггинса-Гибсона с использованием филогенетических расстояний древовидной ветви, взвешенных по их толщине.
'equal'
- Присваивает одинаковый вес каждой последовательности.
multialign(..., 'ScoringMatrix',
выбирает матрицу оценки (ScoringMatrixValue
)ScoringMatrixValue
) для прогрессивного выравнивания. Счета соответствия и несоответствия интерполируются из ряда матриц оценки путем принятия к сведению расстояний между двумя выравниваемыми профилями или последовательностями. Первая матрица соответствует наименьшему расстоянию, а последняя - наибольшему расстоянию. Промежуточные расстояния вычисляются с помощью линейной интерполяции.
multialign(..., 'SMInterp',
, когда SMInterpValue
)SMInterpValue
является false
, отключает линейную интерполяцию матриц оценки. Вместо этого каждая поставленная матрица оценки присваивается фиксированной области значений в зависимости от расстояний между двумя выравниваемыми профилями или последовательностями.
multialign(..., 'GapOpen',
задает начальный штраф за открытие зазора. GapOpenValue
)
multialign(..., 'ExtendGap',
задает начальный штраф за расширение зазора. ExtendGapValue
)
multialign(..., 'DelayCutoff',
задает порог, чтобы задержать выравнивание расходящихся последовательностей, ближайший соседний узел которых находится дальше, чем DelayCutoffValue
)
(DelayCutoffValue) * (median patristic distance between sequences)
multialign(..., 'UseParallel',
определяет, используется ли UseParallelValue
)parfor
- циклы при вычислении парных выравниваний. Когда true
, и Parallel Computing Toolbox установлен и parpool
открыт, расчет происходит параллельно. Если нет открытых parpool
, но автоматическое создание включено в Parallel Preferences, пул по умолчанию будет автоматически открыт, а расчеты происходят параллельно. Если установлен Parallel Computing Toolbox, но нет открытых parpool
и автоматическое создание отключено, затем в расчетах используются parfor
-циклы в последовательном режиме. Если Parallel Computing Toolbox не установлен, то при расчетах используются parfor
-циклы в последовательном режиме. По умолчанию это false
, который использует петли for в последовательном режиме.
multialign(..., 'Verbose',
, когда VerboseValue
)VerboseValue
является true
, включает подробность.
Остальные необязательные входные аргументы аналогичны функции profalign
и используются на каждом шаге прогрессивного выравнивания профилей.
multialign(..., 'ExistingGapAdjust',
, когда ExistingGapAdjustValue
)ExistingGapAdjustValue
является false
, отключает автоматическую регулировку, основанную на существующих погрешностях штрафов за открытие промежутка.
Когда ExistingGapAdjustValue
является true
, для каждой позиции профиля, profalign
пропорционально уменьшает штраф за открытие зазора в сторону штрафа за расширение зазора на основе пропорции зазоров, обнаруженных в смежных символах, и веса входного профиля.
multialign(..., 'TerminalGapAdjust',
, когда TerminalGapAdjustValue
)TerminalGapAdjustValue
является true
, корректирует штраф за открытие зазора в концах последовательности, чтобы равняться штрафу за расширение зазора.
Этот пример показывает, как выровнять несколько белковых последовательностей.
Используйте fastaread
функция для чтения p53samples.txt, FASTA-форматированный файл, включенный в Bioinformatics Toolbox™, который содержит p53 белковых последовательностей семи видов.
p53 = fastaread('p53samples.txt')
p53=7×1 struct array with fields:
Header
Sequence
Вычислите парные расстояния между каждой парой последовательностей с помощью матрицы оценки 'GONNET'.
dist = seqpdist(p53,'ScoringMatrix','GONNET');
Создайте филогенетическое дерево с помощью невзвешенного среднего расстояния (UPGMA) метода. Это дерево будет использоваться в качестве направляющего дерева на следующем этапе постепенного выравнивания.
tree = seqlinkage(dist,'average',p53)
Phylogenetic tree object with 7 leaves (6 branches)
Выполните прогрессивное выравнивание с помощью матриц оценки семейства PAM.
ma = multialign(p53,tree,'ScoringMatrix',... {'pam150','pam200','pam250'})
ma=7×1 struct array with fields:
Header
Sequence
Введите массив последовательностей.
seqs = {'CACGTAACATCTC','ACGACGTAACATCTTCT','AAACGTAACATCTCGC'};
Продвигайте разрывы в выравнивании.
multialign(seqs,'terminalGapAdjust',true) ans = --CACGTAACATCTC-- ACGACGTAACATCTTCT -AAACGTAACATCTCGC
Сравните выравнивание без регулировки разрыва.
multialign(seqs) ans = CA--CGTAACATCT--C ACGACGTAACATCTTCT AA-ACGTAACATCTCGC
align2cigar
| hmmprofalign
| multialignread
| multialignwrite
| nwalign
| profalign
| seqconsensus
| seqneighjoin
| seqprofile