Преобразование последовательности с неоднозначными символами в регулярное выражение
RegExp = seq2regexp(Seq)
RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...)
RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)
Seq | Одно из следующих действий:
|
AlphabetValue | Символьный вектор или строка, задающая алфавит последовательности. Возможны следующие варианты:
|
AmbiguousValue | Управляет включением неоднозначных символов в
|
RegExp | Символьный вектор кодов, определяющих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC. |
преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в формат регулярной экспрессии с использованием кодов IUB/IUPAC.RegExp = seq2regexp(Seq)
требования RegExp = seq2regexp(Seq, ...'PropertyName', PropertyValue, ...)seq2regexp с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:
задает алфавит последовательности. RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...)AlphabetValue может быть либо 'NT' для нуклеотидных последовательностей или 'AA' для аминокислотных последовательностей. По умолчанию: 'NT'.
управляет включением неоднозначных символов в RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)RegExp, возвращаемое значение регулярного выражения. Варианты: true (по умолчанию) или false. Например:
Если Seq = 'ACGTK', и AmbiguousValue является true , возвращается программное обеспечение MATLAB ® ACGT[GTK] с однозначными символами G и T и многозначный символ K.
Если Seq = 'ACGTK', и AmbiguousValue является false, возвращается программное обеспечение MATLAB ACGT[GT] только с однозначными символами.
Превращение нуклеотидов
| Нуклеотидный код | Нуклеотид | Преобразование |
|---|---|---|
A | Аденозин | A |
C | Цитозин | C |
G | Гуанин | G |
T | Тимидин | T |
U | Уридин | U |
R | Пурин | [AG] |
Y | Пиримидин | [TC] |
K | Keto | [GT] |
M | Аминопласт | [AC] |
S | Сильное взаимодействие (связи 3H) | [GC] |
W | Слабое взаимодействие (связи 2Н) | [AT] |
B | Нет A | [CGT] |
D | Нет C | [AGT] |
H | Нет G | [ACT] |
V | Нет T или U | [ACG] |
N | Любой нуклеотид | [ACGT] |
- | Разрыв неопределенной длины | - |
? | Неизвестный | ? |
Превращение аминокислот
| Аминокислотный код | Аминокислота | Преобразование |
|---|---|---|
B | Аспарагин или аспарагиновая кислота (аспартат) | [DN] |
Z | Глутамин или глутаминовая кислота (глутамат) | [EQ] |
X | Любая аминокислота | [A R N D C Q E G H I L K M F P S T W Y V] |
Превращают нуклеотидную последовательность в регулярную экспрессию.
seq2regexp('ACWTMAN')
ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]Преобразуйте одну и ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярного выражения.
seq2regexp('ACWTMAN', 'ambiguous', false) ans = AC[AT]T[AC]A[ACGT]
regexp | regexpi | restrict | seqwordcount