nt2int

Преобразуйте последовательность нуклеотида от буквы до целочисленного представления

Синтаксис

SeqInt = nt2int(SeqChar)
SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...)
SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...)

Входные параметры

SeqChar

Одно из следующего:

  • Вектор символов или строка, задающая последовательность нуклеотида. Для допустимых алфавитных кодов см. таблицу Mapping Nucleotide Letter Codes to Integers. Целые числа произвольно присвоены буквам IUB/IUPAC.

  • MATLAB® структура, содержащая Sequence поле, которое содержит последовательность нуклеотида, такой, как возвращено fastaread, fastqread, emblread, getembl, genbankread, или getgenbank.

UnknownValue Целое число, чтобы представлять неизвестные нуклеотиды. Выбором являются целые числа ≥ 0 и ≤ 255. Значением по умолчанию является 0.
ACGTOnlyValueУправляет запретом на неоднозначные нуклеотиды. Выбором является true или false (значение по умолчанию). Если ACGTOnlyValue true, можно ввести только символы ACGT, и U.

Выходные аргументы

SeqInt Последовательность нуклеотида задана вектором-строкой из целых чисел.

Описание

SeqInt = nt2int(SeqChar) преобразует SeqChar, вектор символов или строка, задающая последовательность нуклеотида, к SeqInt, вектор-строка из целых чисел, задающих ту же последовательность нуклеотида. Для допустимых кодов см. таблицу Mapping Nucleotide Letter Codes to Integers. Неизвестные символы (символы не в таблице) сопоставлены с 0. Разрывы, представленные дефисами, сопоставлены с 16.

SeqInt = nt2int (SeqCharPropertyName ', PropertyValue, ...) вызовы nt2int с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

SeqInt = nt2int(SeqChar, ...'Unknown', UnknownValue, ...) задает целое число, чтобы представлять неизвестные нуклеотиды. UnknownValue может быть целое число ≥ 0 и ≤ 255. Значением по умолчанию является 0.

SeqInt = nt2int(SeqChar, ...'ACGTOnly', ACGTOnlyValue, ...) управляет запретом на неоднозначные нуклеотиды (NRYKMSWBDH, и V). Выбором является true или false (значение по умолчанию). Если ACGTOnlyValue true, можно ввести только символы ACGT, и U.

Отображение алфавитных кодов нуклеотида к Целым числам

НуклеотидКодЦелое число
Аденозин A 1
Цитидин C2
Гуанин G 3
Тимидин T4
Уридин (если 'Alphabet' установите на 'RNA') U 4
Пурин (A или G) R 5
Пиримидин (T или C) Y 6
Keto (G или T) K 7
Аминопласт (A или C) M 8
Сильное взаимодействие (3 связи H) (G или C) S 9
Слабое взаимодействие (2 связи H) (A или T) W 10
Не A C или G или T)B 11
Не C A или G или T)D 12
Не G A или C или T)H 13
Не T или U A или C или G)V 14
Любой нуклеотид (A или C или G или T или U) N 15
Разрыв неопределенной длины- 16
Неизвестный (любой символ не в таблице)*0 (значение по умолчанию)

Примеры

Пример 44. Преобразование простой последовательности

Преобразуйте последовательность нуклеотида от букв до целых чисел.

s = nt2int('ACTGCTAGC') 

s = 
     1    2    4    3    2    4    1    3    2
Пример 45. Преобразование случайной последовательности
  1. Создайте случайный вектор символов, чтобы представлять последовательность нуклеотида.

    SeqChar = randseq(20)
    
    SeqChar =
    
    TTATGACGTTATTCTACTTT
  2. Преобразуйте последовательность нуклеотида от буквы до целочисленного представления.

    SeqInt = nt2int(SeqChar)
    
    SeqInt =
    
      Columns 1 through 13
         4    4    1    4    3    1    2    3    4    4    1    4    4
    
      Columns 14 through 20 
         2    4    1    2    4    4    4
    

Смотрите также

| | |

Представлено до R2006a