Преобразуйте последовательность с неоднозначными символами в регулярное выражение
RegExp = seq2regexp(Seq)
RegExp = seq2regexp(Seq,
...'Alphabet', AlphabetValue, ...)
RegExp = seq2regexp(Seq,
...'Ambiguous', AmbiguousValue, ...)
Seq | Одно из следующих:
|
AlphabetValue | Вектор символов или строка, задающая алфавит последовательности. Варианты:
|
AmbiguousValue | Определяет, включены ли в
|
RegExp | Вектор символов кодов, задающих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC. |
преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в регулярный формат экспрессии с использованием кодов IUB/IUPAC.RegExp = seq2regexp(Seq)
вызывает RegExp = seq2regexp (Seq... 'PropertyName', PropertyValue, ...)seq2regexp с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:
задает алфавит последовательности. RegExp = seq2regexp(Seq,
...'Alphabet', AlphabetValue, ...)AlphabetValue может быть либо 'NT' для нуклеотидных последовательностей или 'AA' для аминокислотных последовательностей. По умолчанию это 'NT'.
управляет тем, включены ли в RegExp = seq2regexp(Seq,
...'Ambiguous', AmbiguousValue, ...)RegExp неоднозначные символы, регулярное выражение возврата значение. Варианты true (по умолчанию) или false. Для примера:
Если Seq = 'ACGTK', и AmbiguousValue является true , MATLAB® программное обеспечение возвращает ACGT[GTK] с однозначными символами G и T и неоднозначный символ K.
Если Seq = 'ACGTK', и AmbiguousValue является false, программное обеспечение MATLAB возвращает ACGT[GT] только с однозначными символами.
Преобразование нуклеотидов
| Нуклеотидный код | Нуклеотид | Преобразование |
|---|---|---|
A | Аденозин | A |
C | Цитозин | C |
G | Гуанин | G |
T | Тимидин | T |
U | Уридин | U |
R | Пурин | [AG] |
Y | Пиримидин | [TC] |
K | Keto | [GT] |
M | Аминопласт | [AC] |
S | Сильное взаимодействие (связи 3 H) | [GC] |
W | Слабое взаимодействие (связи 2 H) | [AT] |
B | Не A | [CGT] |
D | Не C | [AGT] |
H | Не G | [ACT] |
V | Не T или U | [ACG] |
N | Любой нуклеотид | [ACGT] |
- | Зазор неопределенной длины | - |
? | Неизвестный | ? |
Аминокислотное преобразование
| Аминокислотный код | Аминокислота | Преобразование |
|---|---|---|
B | Аспарагин или аспарагиновая кислота (аспартат) | [DN] |
Z | Глутамин или глутаминовая кислота (глутамат) | [EQ] |
X | Любая аминокислота | [A R N D C Q E G H I L K M F P S T W Y V] |
Преобразуйте нуклеотидную последовательность в регулярную экспрессию.
seq2regexp('ACWTMAN')
ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]Преобразуйте ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярной экспрессии.
seq2regexp('ACWTMAN', 'ambiguous', false) ans = AC[AT]T[AC]A[ACGT]
regexp | regexpi | restrict | seqwordcount