nt2int

Преобразование нуклеотидной последовательности из буквенного в целочисленное представление

Синтаксис

SeqInt = nt2int(SeqChar) SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...) SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...)

Входные аргументы

`SeqChar`	Одно из следующих: Символьный вектор или строка, задающая нуклеотидную последовательность. Допустимые коды букв см. в таблице Отображение кодов нуклеотидных букв на целые числа. Целые числа произвольно присваиваются буквам IUB/IUPAC. Структура MATLAB ®, содержащая `Sequence` поле, которое содержит нуклеотидную последовательность, такую как возвращенная `fastaread`, `fastqread`, `emblread`, `getembl`, `genbankread`, или `getgenbank`.
`UnknownValue`	Целое число для представления неизвестных нуклеотидов. Варианты целые числа ≥ `0` и ≤ `255`. По умолчанию: `0`.
`ACGTOnlyValue`	Контролирует запрет неоднозначных нуклеотидов. Варианты: `true` или `false` (по умолчанию). Если `ACGTOnlyValue` является `true`, можно вводить только символы `A`, `C`, `G`, `T`, и `U`.

Выходные аргументы

SeqInt Нуклеотидная последовательность, определенная вектором ряда целых чисел.

Описание

SeqInt = nt2int(SeqChar) новообращенные SeqChar, символьный вектор или строка, задающая нуклеотидную последовательность, SeqInt, вектор ряда целых чисел, указывающий одну и ту же нуклеотидную последовательность. Допустимые коды см. в таблице Отображение кодов нуклеотидных букв на целые числа. Неизвестные символы (символы, отсутствующие в таблице) сопоставляются с 0. Промежутки, представленные дефисами, сопоставляются с 16.

SeqInt = nt2int(SeqChar, ...'PropertyName', PropertyValue, ...) требования nt2int с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...) задает целое число для представления неизвестных нуклеотидов. UnknownValue может быть целым числом ≥ 0 и ≤ 255. По умолчанию: 0.

SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...) контролирует запрет неоднозначных нуклеотидов (N, R, Y, K, M, S, W, B, D, H, и V). Варианты: true или false (по умолчанию). Если ACGTOnlyValue является true, можно вводить только символы A, C, G, T, и U.

Отображение кодов нуклеотидных букв на целые числа

Нуклеотид	Кодекс	Целое число
Аденозин	`A`	`1`
Цитидин	`C`	`2`
Гуанин	`G`	`3`
Тимидин	`T`	`4`
Уридин (если `'Alphabet'` установить в значение `'RNA'`)	`U`	`4`
Пурине (`A` или `G`)	`R`	`5`
Пиримидин (`T` или `C`)	`Y`	`6`
Кето (`G` или `T`)	`K`	`7`
Амино (`A` или `C`)	`M`	`8`
Сильное взаимодействие (связи 3Н) (`G` или `C`)	`S`	`9`
Слабое взаимодействие (связи 2Н) (`A` или `T`)	`W`	`10`
Нет `A` (`C` или `G` или `T`)	`B`	`11`
Нет `C` (`A` или `G` или `T`)	`D`	`12`
Нет `G` (`A` или `C` или `T`)	`H`	`13`
Нет `T` или `U` (`A` или `C` или `G`)	`V`	`14`
Любой нуклеотид (`A` или `C` или `G` или `T` или `U`)	`N`	`15`
Разрыв неопределенной длины	`-`	`16`
Неизвестный (любой символ, отсутствующий в таблице)	`*`	`0` (по умолчанию)

Примеры

Пример 51. Преобразование простой последовательности

Преобразование нуклеотидной последовательности из букв в целые числа.

s = nt2int('ACTGCTAGC') 

s = 
     1    2    4    3    2    4    1    3    2

Пример 52. Преобразование случайной последовательности

Создайте вектор случайных символов для представления нуклеотидной последовательности.
```
SeqChar = randseq(20)

SeqChar =

TTATGACGTTATTCTACTTT
```

Преобразование нуклеотидной последовательности из буквенного в целочисленное представление.

SeqInt = nt2int(SeqChar)

SeqInt =

  Columns 1 through 13
     4    4    1    4    3    1    2    3    4    4    1    4    4

  Columns 14 through 20 
     2    4    1    2    4    4    4

См. также

aa2int | baselookup | int2aa | int2nt

Представлен до R2006a

Документация