Преобразуйте последовательность с неоднозначными символами к регулярному выражению
RegExp
= seq2regexp(Seq
)
RegExp
= seq2regexp(Seq
,
...'Alphabet', AlphabetValue
, ...)
RegExp
= seq2regexp(Seq
,
...'Ambiguous', AmbiguousValue
, ...)
Seq | Любое из следующего:
|
AlphabetValue | Вектор символов или строка, задающая алфавит последовательности. Выбор:
|
AmbiguousValue | Средства управления, включены ли неоднозначные символы в
|
RegExp | Вектор символов кодов, задающих аминокислоту или последовательность нуклеотида в формате регулярного выражения с помощью кодов IUB/IUPAC. |
преобразует неоднозначную аминокислоту или символы нуклеотида в последовательности к формату регулярного выражения с помощью кодов IUB/IUPAC.RegExp
= seq2regexp(Seq
)
вызовы RegExp
= seq2regexp (Seq
PropertyName
', PropertyValue
, ...)seq2regexp
с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName
должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:
задает алфавит последовательности. RegExp
= seq2regexp(Seq
,
...'Alphabet', AlphabetValue
, ...)AlphabetValue
может быть любой 'NT'
для последовательностей нуклеотида или 'AA'
для последовательностей аминокислот. Значением по умолчанию является 'NT'
.
средства управления, включены ли неоднозначные символы в RegExp
= seq2regexp(Seq
,
...'Ambiguous', AmbiguousValue
, ...)RegExp
, возвращаемое значение регулярного выражения. Выбором является true
(значение по умолчанию) или false
. Например:
Если Seq
= 'ACGTK'
, и AmbiguousValue
true
, MATLAB® программное обеспечение возвращает ACGT[GTK]
с однозначными символами G
и T
и неоднозначный символьный K
.
Если Seq
= 'ACGTK'
, и AmbiguousValue
false
, программное обеспечение MATLAB возвращает ACGT[GT]
только с однозначными символами.
Преобразование нуклеотида
Код нуклеотида | Нуклеотид | Преобразование |
---|---|---|
A | Аденозин | A |
C | Цитозин | C |
G | Гуанин | G |
T | Тимидин | T |
U | Уридин | U |
R | Пурин | [AG] |
Y | Пиримидин | [TC] |
K | Keto | [GT] |
M | Аминопласт | [AC] |
S | Сильное взаимодействие (3 связи H) | [GC] |
W | Слабое взаимодействие (2 связи H) | [AT] |
B | Не A | [CGT] |
D | Не C | [AGT] |
H | Не G | [ACT] |
V | Не T или U | [ACG] |
N | Любой нуклеотид | [ACGT] |
- | Разрыв неопределенной длины | - |
? | Неизвестный | ? |
Преобразование аминокислоты
Код аминокислоты | Аминокислота | Преобразование |
---|---|---|
B | Аспарагин или кислота Аспарагиновой кислоты (Аспартат) | [DN] |
Z | Glutamine или Glutamic acid (Глутамат) | [EQ] |
X | Любая аминокислота | [A R N D C Q E G H I L K M F P S T W Y V] |
Преобразуйте последовательность нуклеотида в регулярное выражение.
seq2regexp('ACWTMAN')
ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
Преобразуйте ту же последовательность нуклеотида, но удалите неоднозначные символы из регулярного выражения.
seq2regexp('ACWTMAN', 'ambiguous', false) ans = AC[AT]T[AC]A[ACGT]
restrict
| seqwordcount
| regexp
| regexpi