Преобразуйте последовательность с неоднозначными символами в регулярное выражение
RegExp
= seq2regexp(Seq
)
RegExp
= seq2regexp(Seq
,
...'Alphabet', AlphabetValue
, ...)
RegExp
= seq2regexp(Seq
,
...'Ambiguous', AmbiguousValue
, ...)
Seq | Одно из следующих:
|
AlphabetValue | Вектор символов или строка, задающая алфавит последовательности. Варианты:
|
AmbiguousValue | Определяет, включены ли в
|
RegExp | Вектор символов кодов, задающих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC. |
преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в регулярный формат экспрессии с использованием кодов IUB/IUPAC.RegExp
= seq2regexp(Seq
)
вызывает RegExp
= seq2regexp (Seq
... 'PropertyName
', PropertyValue
, ...)seq2regexp
с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName
должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:
задает алфавит последовательности. RegExp
= seq2regexp(Seq
,
...'Alphabet', AlphabetValue
, ...)AlphabetValue
может быть либо 'NT'
для нуклеотидных последовательностей или 'AA'
для аминокислотных последовательностей. По умолчанию это 'NT'
.
управляет тем, включены ли в RegExp
= seq2regexp(Seq
,
...'Ambiguous', AmbiguousValue
, ...)RegExp
неоднозначные символы, регулярное выражение возврата значение. Варианты
true
(по умолчанию) или false
. Для примера:
Если Seq
= 'ACGTK'
, и AmbiguousValue
является true
, MATLAB® программное обеспечение возвращает ACGT[GTK]
с однозначными символами G
и T
и неоднозначный символ K
.
Если Seq
= 'ACGTK'
, и AmbiguousValue
является false
, программное обеспечение MATLAB возвращает ACGT[GT]
только с однозначными символами.
Преобразование нуклеотидов
Нуклеотидный код | Нуклеотид | Преобразование |
---|---|---|
A | Аденозин | A |
C | Цитозин | C |
G | Гуанин | G |
T | Тимидин | T |
U | Уридин | U |
R | Пурин | [AG] |
Y | Пиримидин | [TC] |
K | Keto | [GT] |
M | Аминопласт | [AC] |
S | Сильное взаимодействие (связи 3 H) | [GC] |
W | Слабое взаимодействие (связи 2 H) | [AT] |
B | Не A | [CGT] |
D | Не C | [AGT] |
H | Не G | [ACT] |
V | Не T или U | [ACG] |
N | Любой нуклеотид | [ACGT] |
- | Зазор неопределенной длины | - |
? | Неизвестный | ? |
Аминокислотное преобразование
Аминокислотный код | Аминокислота | Преобразование |
---|---|---|
B | Аспарагин или аспарагиновая кислота (аспартат) | [DN] |
Z | Глутамин или глутаминовая кислота (глутамат) | [EQ] |
X | Любая аминокислота | [A R N D C Q E G H I L K M F P S T W Y V] |
Преобразуйте нуклеотидную последовательность в регулярную экспрессию.
seq2regexp('ACWTMAN')
ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
Преобразуйте ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярной экспрессии.
seq2regexp('ACWTMAN', 'ambiguous', false) ans = AC[AT]T[AC]A[ACGT]
regexp
| regexpi
| restrict
| seqwordcount