exponenta event banner

seq2regexp

Преобразование последовательности с неоднозначными символами в регулярное выражение

Синтаксис

RegExp = seq2regexp(Seq)
RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...)
RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)

Входные аргументы

Seq

Одно из следующих действий:

  • Символьный вектор или строка, содержащая коды, определяющие аминокислотную или нуклеотидную последовательность.

  • Структура, содержащая Sequence поле, которое содержит аминокислотную или нуклеотидную последовательность, такую как возвращенная fastaread, fastqread, getembl, getgenbank, getgenpept, или getpdb.

AlphabetValue

Символьный вектор или строка, задающая алфавит последовательности. Возможны следующие варианты:

  • 'NT' (по умолчанию) - Нуклеотид

  • 'AA' - Аминокислота

AmbiguousValue

Управляет включением неоднозначных символов в RegExp, возвращаемое значение регулярного выражения. Возможны следующие варианты:

  • true (по умолчанию) - включение неоднозначных символов в возвращаемое значение;

  • false - Возвращать только однозначные символы

Выходные аргументы

RegExp

Символьный вектор кодов, определяющих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC.

Описание

RegExp = seq2regexp(Seq) преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в формат регулярной экспрессии с использованием кодов IUB/IUPAC.

RegExp = seq2regexp(Seq, ...'PropertyName', PropertyValue, ...) требования seq2regexp с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) задает алфавит последовательности. AlphabetValue может быть либо 'NT' для нуклеотидных последовательностей или 'AA' для аминокислотных последовательностей. По умолчанию: 'NT'.

RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...) управляет включением неоднозначных символов в RegExp, возвращаемое значение регулярного выражения. Варианты: true (по умолчанию) или false. Например:

  • Если Seq = 'ACGTK', и AmbiguousValue является true , возвращается программное обеспечение MATLAB ® ACGT[GTK] с однозначными символами G и T и многозначный символ K.

  • Если Seq = 'ACGTK', и AmbiguousValue является false, возвращается программное обеспечение MATLAB ACGT[GT] только с однозначными символами.

Превращение нуклеотидов

Нуклеотидный кодНуклеотидПреобразование
A Аденозин A
C Цитозин C
G Гуанин G
T Тимидин T
U Уридин U
R Пурин [AG]
Y Пиримидин[TC]
K Keto[GT]
M Аминопласт[AC]
S Сильное взаимодействие (связи 3H) [GC]
W Слабое взаимодействие (связи 2Н)[AT]
B Нет A[CGT]
D Нет C[AGT]
H Нет G[ACT]
V Нет T или U[ACG]
N Любой нуклеотид [ACGT]
- Разрыв неопределенной длины -
? Неизвестный ?

Превращение аминокислот

Аминокислотный кодАминокислотаПреобразование
B Аспарагин или аспарагиновая кислота (аспартат) [DN]
Z Глутамин или глутаминовая кислота (глутамат) [EQ]
X Любая аминокислота[A R N D C Q E G H I L K M F P S T W Y V]

Примеры

  1. Превращают нуклеотидную последовательность в регулярную экспрессию.

    seq2regexp('ACWTMAN')
    
    ans =
    AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
  2. Преобразуйте одну и ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярного выражения.

    seq2regexp('ACWTMAN', 'ambiguous', false)
    
    ans =
    AC[AT]T[AC]A[ACGT]

См. также

| | |

Представлен до R2006a