seq2regexp

Преобразуйте последовательность с неоднозначными символами в регулярное выражение

Синтаксис

RegExp = seq2regexp(Seq)
RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...)
RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)

Входные параметры

Seq

Одно из следующих:

  • Вектор символов или строка, содержащая коды, задающие аминокислотную или нуклеотидную последовательность.

  • Структура, содержащая Sequence поле, которое содержит аминокислоту или нуклеотидную последовательность, такую как возвращенная fastaread, fastqread, getembl, getgenbank, getgenpept, или getpdb.

AlphabetValue

Вектор символов или строка, задающая алфавит последовательности. Варианты:

  • 'NT' (по умолчанию) - Нуклеотид

  • 'AA' - Аминокислота

AmbiguousValue

Определяет, включены ли в RegExp неоднозначные символы, регулярное выражение возврата значение. Варианты:

  • true (по умолчанию) - включать неоднозначные символы в возвращаемое значение

  • false - Возвращает только однозначные символы

Выходные аргументы

RegExp

Вектор символов кодов, задающих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC.

Описание

RegExp = seq2regexp(Seq) преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в регулярный формат экспрессии с использованием кодов IUB/IUPAC.

RegExp = seq2regexp (Seq... 'PropertyName', PropertyValue, ...) вызывает seq2regexp с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) задает алфавит последовательности. AlphabetValue может быть либо 'NT' для нуклеотидных последовательностей или 'AA' для аминокислотных последовательностей. По умолчанию это 'NT'.

RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...) управляет тем, включены ли в RegExp неоднозначные символы, регулярное выражение возврата значение. Варианты true (по умолчанию) или false. Для примера:

  • Если Seq = 'ACGTK', и AmbiguousValue является true , MATLAB® программное обеспечение возвращает ACGT[GTK] с однозначными символами G и T и неоднозначный символ K.

  • Если Seq = 'ACGTK', и AmbiguousValue является false, программное обеспечение MATLAB возвращает ACGT[GT] только с однозначными символами.

Преобразование нуклеотидов

Нуклеотидный кодНуклеотидПреобразование
A Аденозин A
C Цитозин C
G Гуанин G
T Тимидин T
U Уридин U
R Пурин [AG]
Y Пиримидин[TC]
K Keto[GT]
M Аминопласт[AC]
S Сильное взаимодействие (связи 3 H) [GC]
W Слабое взаимодействие (связи 2 H)[AT]
B Не A[CGT]
D Не C[AGT]
H Не G[ACT]
V Не T или U[ACG]
N Любой нуклеотид [ACGT]
- Зазор неопределенной длины -
? Неизвестный ?

Аминокислотное преобразование

Аминокислотный кодАминокислотаПреобразование
B Аспарагин или аспарагиновая кислота (аспартат) [DN]
Z Глутамин или глутаминовая кислота (глутамат) [EQ]
X Любая аминокислота[A R N D C Q E G H I L K M F P S T W Y V]

Примеры

  1. Преобразуйте нуклеотидную последовательность в регулярную экспрессию.

    seq2regexp('ACWTMAN')
    
    ans =
    AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
  2. Преобразуйте ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярной экспрессии.

    seq2regexp('ACWTMAN', 'ambiguous', false)
    
    ans =
    AC[AT]T[AC]A[ACGT]

См. также

| | |

Представлено до R2006a