exponenta event banner

nt2int

Преобразование нуклеотидной последовательности из буквенного в целочисленное представление

Синтаксис

SeqInt = nt2int(SeqChar)
SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...)
SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...)

Входные аргументы

SeqChar

Одно из следующих:

UnknownValue Целое число для представления неизвестных нуклеотидов. Варианты целые числа ≥ 0 и ≤ 255. По умолчанию: 0.
ACGTOnlyValueКонтролирует запрет неоднозначных нуклеотидов. Варианты: true или false (по умолчанию). Если ACGTOnlyValue является true, можно вводить только символы A, C, G, T, и U.

Выходные аргументы

SeqInt Нуклеотидная последовательность, определенная вектором ряда целых чисел.

Описание

SeqInt = nt2int(SeqChar) новообращенные SeqChar, символьный вектор или строка, задающая нуклеотидную последовательность, SeqInt, вектор ряда целых чисел, указывающий одну и ту же нуклеотидную последовательность. Допустимые коды см. в таблице Отображение кодов нуклеотидных букв на целые числа. Неизвестные символы (символы, отсутствующие в таблице) сопоставляются с 0. Промежутки, представленные дефисами, сопоставляются с 16.

SeqInt = nt2int(SeqChar, ...'PropertyName', PropertyValue, ...) требования nt2int с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...) задает целое число для представления неизвестных нуклеотидов. UnknownValue может быть целым числом ≥ 0 и ≤ 255. По умолчанию: 0.

SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...) контролирует запрет неоднозначных нуклеотидов (N, R, Y, K, M, S, W, B, D, H, и V). Варианты: true или false (по умолчанию). Если ACGTOnlyValue является true, можно вводить только символы A, C, G, T, и U.

Отображение кодов нуклеотидных букв на целые числа

НуклеотидКодексЦелое число
Аденозин A 1
Цитидин C2
Гуанин G 3
Тимидин T4
Уридин (если 'Alphabet' установить в значение 'RNA') U 4
Пурине (A или G) R 5
Пиримидин (T или C) Y 6
Кето (G или T) K 7
Амино (A или C) M 8
Сильное взаимодействие (связи 3Н) (G или C) S 9
Слабое взаимодействие (связи 2Н) (A или T) W 10
Нет A (C или G или T)B 11
Нет C (A или G или T)D 12
Нет G (A или C или T)H 13
Нет T или U (A или C или G)V 14
Любой нуклеотид (A или C или G или T или U) N 15
Разрыв неопределенной длины- 16
Неизвестный (любой символ, отсутствующий в таблице)*0 (по умолчанию)

Примеры

Пример 51. Преобразование простой последовательности

Преобразование нуклеотидной последовательности из букв в целые числа.

s = nt2int('ACTGCTAGC') 

s = 
     1    2    4    3    2    4    1    3    2
Пример 52. Преобразование случайной последовательности
  1. Создайте вектор случайных символов для представления нуклеотидной последовательности.

    SeqChar = randseq(20)
    
    SeqChar =
    
    TTATGACGTTATTCTACTTT
  2. Преобразование нуклеотидной последовательности из буквенного в целочисленное представление.

    SeqInt = nt2int(SeqChar)
    
    SeqInt =
    
      Columns 1 through 13
         4    4    1    4    3    1    2    3    4    4    1    4    4
    
      Columns 14 through 20 
         2    4    1    2    4    4    4
    

См. также

| | |

Представлен до R2006a