seq2regexp

Преобразуйте последовательность с неоднозначными символами к регулярному выражению

Синтаксис

RegExp = seq2regexp(Seq)
RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...)
RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)

Входные параметры

Seq

Любое из следующего:

  • Вектор символов или коды строки, содержащей, задающие аминокислоту или последовательность нуклеотида.

  • Структура, содержащая Sequence поле, которое содержит аминокислоту или последовательность нуклеотида, такой, как возвращено fastaread, fastqread, getembl, getgenbank, getgenpept, или getpdb.

AlphabetValue

Вектор символов или строка, задающая алфавит последовательности. Выбор:

  • 'NT' (значение по умолчанию) — Нуклеотид

  • 'AA' — Аминокислота

AmbiguousValue

Средства управления, включены ли неоднозначные символы в RegExp, возвращаемое значение регулярного выражения. Выбор:

  • true (значение по умолчанию) — Включает неоднозначные символы в возвращаемое значение

  • false — Возвратите только однозначные символы

Выходные аргументы

RegExp

Вектор символов кодов, задающих аминокислоту или последовательность нуклеотида в формате регулярного выражения с помощью кодов IUB/IUPAC.

Описание

RegExp = seq2regexp(Seq) преобразует неоднозначную аминокислоту или символы нуклеотида в последовательности к формату регулярного выражения с помощью кодов IUB/IUPAC.

RegExp = seq2regexp (SeqPropertyName ', PropertyValue, ...) вызовы seq2regexp с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) задает алфавит последовательности. AlphabetValue может быть любой 'NT' для последовательностей нуклеотида или 'AA' для последовательностей аминокислот. Значением по умолчанию является 'NT'.

RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...) средства управления, включены ли неоднозначные символы в RegExp, возвращаемое значение регулярного выражения. Выбором является true (значение по умолчанию) или false. Например:

  • Если Seq = 'ACGTK', и AmbiguousValue true , MATLAB возвращает ACGT[GTK] с однозначными символами G и T и неоднозначный символьный K.

  • Если Seq = 'ACGTK', и AmbiguousValue false, программное обеспечение MATLAB возвращает ACGT[GT] только с однозначными символами.

Преобразование нуклеотида

Код нуклеотидаНуклеотидПреобразование
A Аденозин A
C Цитозин C
G Гуанин G
T Тимидин T
U Уридин U
R Пурин [AG]
Y Пиримидин[TC]
K Keto[GT]
M Аминопласт[AC]
S Сильное взаимодействие (3 связи H) [GC]
W Слабое взаимодействие (2 связи H)[AT]
B Не A[CGT]
D Не C[AGT]
H Не G[ACT]
V Не T или U[ACG]
N Любой нуклеотид [ACGT]
- Разрыв неопределенной длины -
? Неизвестный ?

Преобразование аминокислоты

Код аминокислотыАминокислотаПреобразование
B Аспарагин или кислота Аспарагиновой кислоты (Аспартат) [DN]
Z Glutamine или Glutamic acid (Глутамат) [EQ]
X Любая аминокислота[A R N D C Q E G H I L K M F P S T W Y V]

Примеры

  1. Преобразуйте последовательность нуклеотида в регулярное выражение.

    seq2regexp('ACWTMAN')
    
    ans =
    AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
  2. Преобразуйте ту же последовательность нуклеотида, но удалите неоднозначные символы из регулярного выражения.

    seq2regexp('ACWTMAN', 'ambiguous', false)
    
    ans =
    AC[AT]T[AC]A[ACGT]

Смотрите также

| | |

Представлено до R2006a