nt2aa

Преобразуйте последовательность нуклеотида в последовательность аминокислот

Синтаксис

SeqAA = nt2aa(SeqNT)
SeqAA = nt2aa(..., 'Frame', FrameValue, ...)
SeqAA = nt2aa(..., 'GeneticCode', GeneticCodeValue, ...)
SeqAA = nt2aa(..., 'AlternativeStartCodons', AlternativeStartCodonsValue, ...)
SeqAA = nt2aa(..., 'ACGTOnly', ACGTOnlyValue, ...)

Входные параметры

SeqNT

Одно из следующего:

Примечание

Дефисы допустимы, только если кодон, которому это принадлежит, представляет разрыв, то есть, кодон содержит все дефисы. Пример: ACT---TGA

Совет

Не используйте последовательность с дефисами, если вы задаете 'all' для FrameValue.

FrameValue

Целое число, вектор символов или строка, задающая рамку считывания в последовательности нуклеотида. Выбором является 1, 2, 3 или 'all'. Значением по умолчанию является 1.

Если FrameValue является 'all', то SeqAA является массивом ячеек 3 на 1.

GeneticCodeValue

Целое число, вектор символов или строка, задающая номер генетического кода или кодовое название из таблицы Genetic Code. Значением по умолчанию является 1 или 'Standard'.

Совет

Если вы используете кодовое название, можно обрезать имя к первым двум буквам имени.

AlternativeStartCodonsValue

Управляет переводом альтернативных кодонов. Выбором является true (значение по умолчанию) или false.

ACGTOnlyValue

Управляет поведением неоднозначных символов нуклеотида (R, Y, K, M, S, W, B, D, H, V и N) и неизвестных символов. ACGTOnlyValue может быть true (значение по умолчанию) или false.

  • Если true, то функциональные ошибки, если любой из этих символов присутствует.

  • Если false, то функция пытается разрешить неоднозначности. Если это не может, это возвратить X для затронутого кодона.

Выходные аргументы

SeqAAПоследовательность аминокислот задана вектором символов однобуквенных кодов.

Описание

SeqAA = nt2aa(SeqNT) преобразовывает последовательность нуклеотида, заданную SeqNT, к последовательности аминокислот, возвращенной в SeqAA, с помощью стандартного генетического кода.

SeqAA = nt2aa(SeqNT, ...'PropertyName', PropertyValue, ...) вызывает nt2aa с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

SeqAA = nt2aa(..., 'Frame', FrameValue, ...) преобразовывает последовательность нуклеотида для определенной рамки считывания к последовательности аминокислот. Выбором является 1, 2, 3 или 'all'. Значением по умолчанию является 1. Если FrameValue является 'all', то вывод SeqAA является массивом ячеек 3 на 1.

SeqAA = nt2aa(..., 'GeneticCode', GeneticCodeValue, ...) задает генетический код, чтобы использовать при преобразовании последовательности нуклеотида в последовательность аминокислот. GeneticCodeValue может быть целым числом, вектором символов или строкой, задающей номер кода или кодовое название из таблицы Genetic Code. Значением по умолчанию является 1 или 'Standard'. Аминокислоту к отображению кодона нуклеотида для Стандартного генетического кода показывают в таблице Standard Genetic Code.

Совет

Если вы используете кодовое название, можно обрезать имя к первым двум буквам имени.

SeqAA = nt2aa(..., 'AlternativeStartCodons', AlternativeStartCodonsValue, ...) управляет переводом альтернативных кодонов запуска. По умолчанию AlternativeStartCodonsValue установлен в true, и если первый кодон последовательности является известным альтернативным кодоном запуска, кодон переводится в метионин.

Если эта опция установлена в false, то альтернативный кодон запуска в начале последовательности переводится в свою соответствующую аминокислоту в генетическом коде, который вы задаете, который не может обязательно быть метионином. Например, в человеческом митохондриальном генетическом коде, AUA и AUU, как известно, являются альтернативными кодонами запуска. Для получения дополнительной информации об альтернативных кодонах запуска посетите https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=t#SG1.

Для получения дополнительной информации об альтернативных кодонах запуска, см.:

Генетический код

Номер кодаКодовое название
1Standard
2Vertebrate Mitochondrial
3Yeast Mitochondrial
4Mold, Protozoan, Coelenterate Mitochondrial и Mycoplasma/Spiroplasma
5Invertebrate Mitochondrial
6Ciliate, Dasycladacean и Hexamita Nuclear
9Echinoderm Mitochondrial
10Euplotid Nuclear
11Bacterial и Plant Plastid
12Alternative Yeast Nuclear
13Ascidian Mitochondrial
14Flatworm Mitochondrial
15Blepharisma Nuclear
16Chlorophycean Mitochondrial
21Trematode Mitochondrial
22Scenedesmus Obliquus Mitochondrial
23Thraustochytrium Mitochondrial

Стандартный генетический код

Имя аминокислотыКод аминокислотыКодон нуклеотида
Аланин AGCT GCC GCA GCG
АргининRCGT CGC CGA CGG AGA AGG
АспарагинNAAT AAC
Кислота аспарагиновой кислоты (Аспартат) DGAT GAC
ЦистеинCTGT TGC
GlutamineQCAA CAG
Глутаминовая кислота (Глутамат) EGAA GAG
ГлицинGGGT GGC GGA GGG
ГистидинHCAT CAC
ИзолейцинIATT ATC ATA
ЛейцинLTTA TTG CTT CTC CTA CTG
ЛизинKAAA AAG
МетионинMATG
ФенилаланинFTTT TTC
Пролин PCCT CCC CCA CCG
СеринSTCT TCC TCA TCG AGT AGC
ТреонинTACT ACC ACA ACG
ТриптофанWTGG
ТирозинYTAT, TAC
ValineVGTT GTC GTA GTG
Аспарагин или кислота Аспарагиновой кислоты (Аспартат) B Случайный кодон от D и N
Glutamine или Glutamic acid (Глутамат) ZСлучайный кодон от E и Q
Неизвестная аминокислота (любая аминокислота) XСлучайный кодон
Остановка перевода *TAA TAG TGA
Разрыв неопределенной длины ----
Неизвестный символ (любой символ или символ не в таблице) ????

SeqAA = nt2aa(..., 'ACGTOnly', ACGTOnlyValue, ...) управляет поведением неоднозначных символов нуклеотида (R, Y, K, M, S, W, B, D, H, V и N) и неизвестных символов. ACGTOnlyValue может быть true (значение по умолчанию) или false. Если true, то функциональные ошибки, если любой из этих символов присутствует. Если false, то функция пытается разрешить неоднозначности. Если это не может, это возвратить X для затронутого кодона.

Примеры

Пример 62. Преобразование гена ND1
  1. Используйте функцию getgenbank, чтобы получить геномную информацию для человеческой митохондрии от базы данных GenBank® и сохранить его в структуре MATLAB.

    mitochondria = getgenbank('NC_012920')
    
    mitochondria = 
    
                    LocusName: 'NC_012920'
          LocusSequenceLength: '16569'
         LocusNumberofStrands: ''
                LocusTopology: 'circular'
            LocusMoleculeType: 'DNA'
         LocusGenBankDivision: 'PRI'
        LocusModificationDate: '05-MAR-2010'
                   Definition: 'Homo sapiens mitochondrion, complete genome.'
                    Accession: 'NC_012920 AC_000021'
                      Version: 'NC_012920.1'
                           GI: '251831106'
                      Project: []
                       DBLink: 'Project:30353'
                     Keywords: []
                      Segment: []
                       Source: 'mitochondrion Homo sapiens (human)'
               SourceOrganism: [4x65 char]
                    Reference: {1x7 cell}
                      Comment: [24x67 char]
                     Features: [933x74 char]
                          CDS: [1x13 struct]
                     Sequence: [1x16569 char]
                    SearchURL: [1x70 char]
                  RetrieveURL: [1x104 char]
  2. Определите название и местоположение первого гена в человеческой митохондрии.

    mitochondria.CDS(1).gene
    
    ans =
    
    ND1
    mitochondria.CDS(1).location
    ans =
    
    3307..4262
  3. Извлеките последовательность для гена ND1 от последовательности нуклеотида.

    ND1gene = mitochondria.Sequence(3307:4262);
    
  4. Преобразуйте ген ND1 на человеческом геноме митохондрий к последовательности аминокислот с помощью Позвоночного Митохондриального генетического кода.

    protein1 = nt2aa(ND1gene,'GeneticCode', 2);
    
  5. Используйте функцию getgenpept, чтобы получить ту же последовательность аминокислот из базы данных GenPept.

    protein2 = getgenpept('YP_003024026', 'SequenceOnly', true);
    
  6. Используйте функцию isequal, чтобы сравнить эти две последовательности аминокислот.

    isequal (protein1, protein2)
    
    ans =
    
         1
Пример 63. Преобразование гена ND2
  1. Используйте функцию getgenbank, чтобы получить последовательность нуклеотида для человеческой митохондрии от базы данных GenBank.

    mitochondria = getgenbank('NC_012920');
    
  2. Определите название и местоположение второго гена в человеческой митохондрии.

    mitochondria.CDS(2).gene
    
    ans =
    
    ND2
    mitochondria.CDS(2).location
    ans =
    
    4470..5511
  3. Извлеките последовательность для гена ND2 от последовательности нуклеотида.

    ND2gene = mitochondria.Sequence(4470:5511);
    
  4. Преобразуйте ген ND2 на человеческом геноме митохондрий к последовательности аминокислот с помощью Позвоночного Митохондриального генетического кода.

    protein1 = nt2aa(ND2gene,'GeneticCode', 2);
    

    Примечание

    В последовательности нуклеотида ND2gene первым кодоном является ATT, который переводится в M, в то время как последующие кодоны ATT переводятся в I. Если вы устанавливаете 'AlternativeStartCodons' на false, то первый кодон ATT переводится в I, соответствующую аминокислоту в Позвоночном Митохондриальном генетическом коде.

  5. Используйте функцию getgenpept, чтобы получить ту же последовательность аминокислот из базы данных GenPept.

    protein2 = getgenpept('YP_003024027', 'SequenceOnly', true);
    
  6. Используйте функцию isequal, чтобы сравнить эти две последовательности аминокислот.

    isequal (protein1, protein2)
    
    ans =
    
         1
Пример 64. Преобразование последовательности с неоднозначными символами

Если у вас есть последовательность с неоднозначными или неизвестными символами нуклеотида, можно установить свойство 'ACGTOnly' на false иметь попытку функции nt2aa разрешить их:

nt2aa('agttgccgacgcgcncar','ACGTOnly', false)

ans =

SCRRAQ

Представлено до R2006a