seq2regexp

Преобразуйте последовательность с неоднозначными символами к регулярному выражению

Синтаксис

RegExp = seq2regexp(Seq) RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...)

Входные параметры

`Seq`	Любое из следующего: Вектор символов или коды строки, содержащей, задающие аминокислоту или последовательность нуклеотида. Структура, содержащая поле `Sequence`, которое содержит аминокислоту или последовательность нуклеотида, такой, как возвращено `fastaread`, `fastqread`, `getembl`, `getgenbank`, `getgenpept` или `getpdb`.
`AlphabetValue`	Вектор символов или строка, задающая алфавит последовательности. Выбор: `'NT'` (значение по умолчанию) — Нуклеотид `'AA'` — Аминокислота
`AmbiguousValue`	Средства управления, включены ли неоднозначные символы в `RegExp`, возвращаемое значение регулярного выражения. Выбор: `true` (значение по умолчанию) — Включает неоднозначные символы в возвращаемое значение `ложь` Возвратите только однозначные символы

Выходные аргументы

RegExp

Вектор символов кодов, задающих аминокислоту или последовательность нуклеотида в формате регулярного выражения с помощью кодов IUB/IUPAC.

Описание

RegExp = seq2regexp(Seq) преобразовывает неоднозначную аминокислоту или символы нуклеотида в последовательности к формату регулярного выражения с помощью кодов IUB/IUPAC.

RegExp = seq2regexp(Seq, ...'PropertyName', PropertyValue, ...) вызывает seq2regexp с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

RegExp = seq2regexp(Seq, ...'Alphabet', AlphabetValue, ...) задает алфавит последовательности. AlphabetValue может быть или 'NT' для последовательностей нуклеотида или 'AA' для последовательностей аминокислот. Значением по умолчанию является 'NT'.

RegExp = seq2regexp(Seq, ...'Ambiguous', AmbiguousValue, ...) средства управления, включены ли неоднозначные символы в RegExp, возвращаемое значение регулярного выражения. Выбором является true (значение по умолчанию) или false. Например:

Если Seq, = 'ACGTK' и AmbiguousValue является true, ^MATLAB, возвращает ACGT[GTK] с однозначными символами G и T и неоднозначный символьный K.
Если Seq, = 'ACGTK' и AmbiguousValue является false, программное обеспечение MATLAB, возвращает ACGT[GT] только с однозначными символами.

Преобразование нуклеотида

Код нуклеотида	Нуклеотид	Преобразование
`A`	Аденозин	`A`
`C`	Цитозин	`C`
`G`	Гуанин	`G`
`T`	Тимидин	`T`
`U`	Уридин	`U`
`R`	Пурин	`[AG]`
`Y`	Пиримидин	`[TC]`
`K`	Keto	`[GT]`
`M`	Аминопласт	`[AC]`
`S`	Сильное взаимодействие (3 связи H)	`[GC]`
`W`	Слабое взаимодействие (2 связи H)	`[AT]`
`B`	Не `A`	`[CGT]`
`D`	Не `C`	`[AGT]`
`H`	Не `G`	`[ACT]`
`V`	Не `T` или `U`	`[ACG]`
`N`	Любой нуклеотид	`[ACGT]`
`-`	Разрыв неопределенной длины	`-`
`?`	Неизвестный	`?`

Преобразование аминокислоты

Код аминокислоты	Аминокислота	Преобразование
`B`	Аспарагин или кислота Аспарагиновой кислоты (Аспартат)	`[DN]`
`Z`	Glutamine или Glutamic acid (Глутамат)	`[EQ]`
`X`	Любая аминокислота	`[A R N D C Q E G H I L K M F P S T W Y V]`

Примеры

Преобразуйте последовательность нуклеотида в регулярное выражение.
```
seq2regexp('ACWTMAN')

ans =
AC[ATW]T[ACM]A[ACGTRYKMSWBDHVN]
```
Преобразуйте ту же последовательность нуклеотида, но удалите неоднозначные символы из регулярного выражения.
```
seq2regexp('ACWTMAN', 'ambiguous', false)

ans =
AC[AT]T[AC]A[ACGT]
```

Документация

seq2regexp

Синтаксис

Входные параметры

Выходные аргументы

Описание

Примеры

Смотрите также

Представлено до R2006a

Документация Bioinformatics Toolbox

Поддержка