Преобразование нуклеотидной последовательности из буквенного в целочисленное представление
SeqInt = nt2int(SeqChar)
SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...)
SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...)
SeqChar | Одно из следующих:
|
UnknownValue | Целое число для представления неизвестных нуклеотидов. Варианты целые числа ≥ 0 и ≤ 255. По умолчанию: 0. |
ACGTOnlyValue | Контролирует запрет неоднозначных нуклеотидов. Варианты: true или false (по умолчанию). Если ACGTOnlyValue является true, можно вводить только символы A, C, G, T, и U. |
SeqInt | Нуклеотидная последовательность, определенная вектором ряда целых чисел. |
новообращенные SeqInt = nt2int(SeqChar)SeqChar, символьный вектор или строка, задающая нуклеотидную последовательность, SeqInt, вектор ряда целых чисел, указывающий одну и ту же нуклеотидную последовательность. Допустимые коды см. в таблице Отображение кодов нуклеотидных букв на целые числа. Неизвестные символы (символы, отсутствующие в таблице) сопоставляются с 0. Промежутки, представленные дефисами, сопоставляются с 16.
требования SeqInt = nt2int(SeqChar, ...'PropertyName', PropertyValue, ...)nt2int с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:
задает целое число для представления неизвестных нуклеотидов. SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...)UnknownValue может быть целым числом ≥ 0 и ≤ 255. По умолчанию: 0.
контролирует запрет неоднозначных нуклеотидов (SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...)N, R, Y, K, M, S, W, B, D, H, и V). Варианты: true или false (по умолчанию). Если ACGTOnlyValue является true, можно вводить только символы A, C, G, T, и U.
Отображение кодов нуклеотидных букв на целые числа
| Нуклеотид | Кодекс | Целое число |
|---|---|---|
| Аденозин | A | 1 |
| Цитидин | C | 2 |
| Гуанин | G | 3 |
| Тимидин | T | 4 |
Уридин (если 'Alphabet' установить в значение 'RNA') | U | 4 |
Пурине (A или G) | R | 5 |
Пиримидин (T или C) | Y | 6 |
Кето (G или T) | K | 7 |
Амино (A или C) | M | 8 |
Сильное взаимодействие (связи 3Н) (G или C) | S | 9 |
Слабое взаимодействие (связи 2Н) (A или T) | W | 10 |
Нет A (C или G или T) | B | 11 |
Нет C (A или G или T) | D | 12 |
Нет G (A или C или T) | H | 13 |
Нет T или U (A или C или G) | V | 14 |
Любой нуклеотид (A или C или G или T или U) | N | 15 |
| Разрыв неопределенной длины | - | 16 |
| Неизвестный (любой символ, отсутствующий в таблице) | * | 0 (по умолчанию) |
Преобразование нуклеотидной последовательности из букв в целые числа.
s = nt2int('ACTGCTAGC')
s =
1 2 4 3 2 4 1 3 2
Создайте вектор случайных символов для представления нуклеотидной последовательности.
SeqChar = randseq(20) SeqChar = TTATGACGTTATTCTACTTT
Преобразование нуклеотидной последовательности из буквенного в целочисленное представление.
SeqInt = nt2int(SeqChar)
SeqInt =
Columns 1 through 13
4 4 1 4 3 1 2 3 4 4 1 4 4
Columns 14 through 20
2 4 1 2 4 4 4
aa2int | baselookup | int2aa | int2nt