seq2regexp

Преобразование последовательности с неоднозначными символами в регулярное выражение

Синтаксис

RegExp = seq2regexp(Seq) RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)

Входные аргументы

`Seq`	Одно из следующих действий: Символьный вектор или строка, содержащая коды, определяющие аминокислотную или нуклеотидную последовательность. Структура, содержащая `Sequence` поле, которое содержит аминокислотную или нуклеотидную последовательность, такую как возвращенная `fastaread`, `fastqread`, `getembl`, `getgenbank`, `getgenpept`, или `getpdb`.
`AlphabetValue`	Символьный вектор или строка, задающая алфавит последовательности. Возможны следующие варианты: `'NT'` (по умолчанию) - Нуклеотид `'AA'` - Аминокислота
`AmbiguousValue`	Управляет включением неоднозначных символов в `RegExp`, возвращаемое значение регулярного выражения. Возможны следующие варианты: `true` (по умолчанию) - включение неоднозначных символов в возвращаемое значение; `false` - Возвращать только однозначные символы

Выходные аргументы

RegExp

Символьный вектор кодов, определяющих аминокислотную или нуклеотидную последовательность в формате регулярной экспрессии с использованием кодов IUB/IUPAC.

Описание

RegExp = seq2regexp(Seq) преобразует неоднозначные аминокислотные или нуклеотидные символы в последовательности в формат регулярной экспрессии с использованием кодов IUB/IUPAC.

RegExp = seq2regexp(Seq, ...'PropertyName', PropertyValue, ...) требования seq2regexp с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) задает алфавит последовательности. AlphabetValue может быть либо 'NT' для нуклеотидных последовательностей или 'AA' для аминокислотных последовательностей. По умолчанию: 'NT'.

RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...) управляет включением неоднозначных символов в RegExp, возвращаемое значение регулярного выражения. Варианты: true (по умолчанию) или false. Например:

Если Seq = 'ACGTK', и AmbiguousValue является true , возвращается программное обеспечение MATLAB ® ACGT[GTK] с однозначными символами G и T и многозначный символ K.
Если Seq = 'ACGTK', и AmbiguousValue является false, возвращается программное обеспечение MATLAB ACGT[GT] только с однозначными символами.

Превращение нуклеотидов

Нуклеотидный код	Нуклеотид	Преобразование
`A`	Аденозин	`A`
`C`	Цитозин	`C`
`G`	Гуанин	`G`
`T`	Тимидин	`T`
`U`	Уридин	`U`
`R`	Пурин	`[AG]`
`Y`	Пиримидин	`[TC]`
`K`	Keto	`[GT]`
`M`	Аминопласт	`[AC]`
`S`	Сильное взаимодействие (связи 3H)	`[GC]`
`W`	Слабое взаимодействие (связи 2Н)	`[AT]`
`B`	Нет `A`	`[CGT]`
`D`	Нет `C`	`[AGT]`
`H`	Нет `G`	`[ACT]`
`V`	Нет `T` или `U`	`[ACG]`
`N`	Любой нуклеотид	`[ACGT]`
`-`	Разрыв неопределенной длины	`-`
`?`	Неизвестный	`?`

Превращение аминокислот

Аминокислотный код	Аминокислота	Преобразование
`B`	Аспарагин или аспарагиновая кислота (аспартат)	`[DN]`
`Z`	Глутамин или глутаминовая кислота (глутамат)	`[EQ]`
`X`	Любая аминокислота	`[A R N D C Q E G H I L K M F P S T W Y V]`

Примеры

Превращают нуклеотидную последовательность в регулярную экспрессию.
```
seq2regexp('ACWTMAN')

ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
```
Преобразуйте одну и ту же нуклеотидную последовательность, но удалите неоднозначные символы из регулярного выражения.
```
seq2regexp('ACWTMAN', 'ambiguous', false)

ans =
AC[AT]T[AC]A[ACGT]
```

См. также

regexp | regexpi | restrict | seqwordcount

Представлен до R2006a

Документация