Исследование последовательности нуклеотида Используя командную строку

Обзор примера

После упорядочивания части DNA одна из первых задач состоит в том, чтобы исследовать содержимое нуклеотида в последовательности. Начиная с последовательности DNA этот пример использует функции статистики последовательности, чтобы определить моно - di-и trinucleotide содержимое, и определить местоположение открытых рамок считывания.

Искание в Интернете информации о последовательности

Следующая процедура иллюстрирует, как использовать Браузер документации MATLAB®, чтобы искать в Интернете информацию. В этом примере вы интересуетесь изучением человеческого митохондриального генома. В то время как много генов, которыми код для митохондриальных белков найден в ядре клетки, митохондриальное, имеют гены, что код для белков раньше производил энергию.

Первая исследовательская информация о человеческих митохондриях и находит последовательность нуклеотида для генома. Затем, посмотрите на содержимое нуклеотида для целой последовательности. И наконец, определите открытые рамки считывания и извлеките определенные последовательности генов.

  1. Используйте Браузер документации MATLAB, чтобы исследовать сеть. В Окне Команды MATLAB ввести

    web('http://www.ncbi.nlm.nih.gov/')
    

    Отдельное окно браузера открывается домашней страницей для веб-сайта NCBI.

  2. Ищите веб-сайт NCBI об информации. Например, чтобы искать человеческий геном митохондрии, из списка Search, выбирают Genome, и в списке Search, вводят mitochondrion homo sapiens.

    Веб-поиск NCBI возвращает список ссылок на соответствующие страницы.

  3. Выберите страницу результатов. Например, щелкните по ссылке, маркировал NC_012920.

    Браузер документации MATLAB отображает страницу NCBI для человеческого митохондриального генома.

Чтение информации последовательности из сети

Следующая процедура иллюстрирует, как найти последовательность нуклеотида в общедоступной базе данных и считать информации последовательности в среду MATLAB. Много общедоступных баз данных для последовательностей нуклеотида доступны с сети. Окно Команды MATLAB обеспечивает интегрированную среду для обеспечения информации о последовательности в среду MATLAB.

Последовательность согласия для человеческого митохондриального генома имеет инвентарный номер GenBank® NC_012920. Поскольку целая запись GenBank является довольно большой, и вы можете только интересоваться последовательностью, можно получить только информацию последовательности.

  1. Получите информацию последовательности от базы данных Web. Например, чтобы получить информацию о последовательности для человеческого митохондриального генома, в Окне Команды MATLAB, типе

    mitochondria = getgenbank('NC_012920','SequenceOnly',true)
    

    Функция getgenbank получает последовательность нуклеотида из базы данных GenBank и создает символьный массив.

    mitochondria = 
    GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCAT
    TTGGTATTTTCGTCTGGGGGGTGTGCACGCGATAGCATTGCGAGACGCTG
    GAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTCCTGCCTCATT
    CTATTATTTATCGCACCTACGTTCAATATTACAGGCGAACATACCTACTA
    AAGT . . . 
    

  2. Если у вас нет веб-подключения, можно загрузить данные из файла MAT, включенного с программным обеспечением Bioinformatics Toolbox™, с помощью команды

    load mitochondria
    

    Функция load загружает последовательность mitochondria в рабочее пространство MATLAB.

  3. Получите информацию о последовательности. Ввод

    whos mitochondria
    

    Информация о размере последовательности отображается в Окне Команды MATLAB.

     Name              Size               Bytes  Class    Attributes
    
     mitochondria      1x16569            33138  char               
    

Определение состава нуклеотида

Следующая процедура иллюстрирует, как определить мономеры и димеры, и затем визуализировать данные в графиках и столбиковых диаграммах. Разделы последовательности DNA с высоким процентом нуклеотидов A+T обычно указывают на межгенные части последовательности, в то время как низкий A+T, и выше проценты нуклеотида G+C указывают на возможные гены. Много раз высокое содержимое динуклеотида CG расположено перед геном.

После того, как вы читаете последовательность в среду MATLAB, можно использовать функции статистики последовательности, чтобы определить, имеет ли последовательность характеристики кодирующей белок области. Эта процедура использует человеческий митохондриальный геном в качестве примера. Смотрите информацию Последовательности Чтения из сети.

  1. Постройте плотность мономера и объединенную плотность мономера в графике. В Окне Команды MATLAB ввести

    ntdensity(mitochondria)
    

    Этот график показывает, что геном является богатыми A+T.

  2. Считайте нуклеотиды с помощью функции basecount.

    basecount(mitochondria)
    

    Список количеств нуклеотида показывают для 5 '-3' скрутки.

    ans = 
        A: 5124
        C: 5181
        G: 2169
        T: 4094
    
    
  3. Считайте нуклеотиды в противоположном дополнении последовательности с помощью функции seqrcomplement.

    basecount(seqrcomplement(mitochondria))
    

    Как ожидалось нуклеотид рассчитывает на противоположную дополнительную скрутку, дополнительны к 5 '-3' скрутки.

    ans = 
        A: 4094
        C: 2169
        G: 5181
        T: 5124
    
  4. Используйте функциональный basecount с опцией chart, чтобы визуализировать распределение нуклеотида.

    figure
    basecount(mitochondria,'chart','pie');
    

    Круговая диаграмма отображается в окне MATLAB Figure.

  5. Считайте димеры в последовательности и отобразите информацию в столбчатой диаграмме.

    figure
    dimercount(mitochondria,'chart','bar')
    
    ans = 
    
        AA: 1604
        AC: 1495
        AG: 795
        AT: 1230
        CA: 1534
        CC: 1771
        CG: 435
        CT: 1440
        GA: 613
        GC: 711
        GG: 425
        GT: 419
        TA: 1373
        TC: 1204
        TG: 513
        TT: 1004

Определение состава кодона

Следующая процедура иллюстрирует, как посмотреть на кодоны для этих шести рамок считывания. Trinucleotides (кодон) код для аминокислоты, и существуют 64 возможных кодона в последовательности нуклеотида. Знание процента кодонов в вашей последовательности может быть полезным, когда вы соответствуете таблицам для ожидаемого использования кодона.

После того, как вы считаете последовательность в среду MATLAB, можно анализировать последовательность для состава кодона. Эта процедура использует человеческий геном митохондрий в качестве примера. Смотрите информацию Последовательности Чтения из сети.

  1. Считайте кодоны в последовательности нуклеотида. В Окне Команды MATLAB ввести

    codoncount(mitochondria)
    

    Кодон значит отображения кадра первого чтения.

    AAA - 167     AAC - 171     AAG -  71     AAT - 130     
    ACA - 137     ACC - 191     ACG -  42     ACT - 153     
    AGA -  59     AGC -  87     AGG -  51     AGT -  54     
    ATA - 126     ATC - 131     ATG -  55     ATT - 113     
    CAA - 146     CAC - 145     CAG -  68     CAT - 148     
    CCA - 141     CCC - 205     CCG -  49     CCT - 173     
    CGA -  40     CGC -  54     CGG -  29     CGT -  27     
    CTA - 175     CTC - 142     CTG -  74     CTT - 101     
    GAA -  67     GAC -  53     GAG -  49     GAT -  35     
    GCA -  81     GCC - 101     GCG -  16     GCT -  59     
    GGA -  36     GGC -  47     GGG -  23     GGT -  28     
    GTA -  43     GTC -  26     GTG -  18     GTT -  41     
    TAA - 157     TAC - 118     TAG -  94     TAT - 107     
    TCA - 125     TCC - 116     TCG -  37     TCT - 103     
    TGA -  64     TGC -  40     TGG -  29     TGT -  26     
    TTA -  96     TTC - 107     TTG -  47     TTT -  78

  2. Считайте кодоны во всех шести рамках считывания и постройте результаты в картах тепла.

    for frame = 1:3
        figure
        subplot(2,1,1);
        codoncount(mitochondria,'frame',frame,'figure',true,...
                   'geneticcode','Vertebrate Mitochondrial');
        title(sprintf('Codons for frame %d',frame));
        subplot(2,1,2);
        codoncount(mitochondria,'reverse',true,'frame',frame,...
                   'figure',true,'geneticcode','Vertebrate Mitochondrial');
        title(sprintf('Codons for reverse frame %d',frame)); 
    end
    

    Нагрейтесь карты отображают все 64 кодона в этих 6 рамках считывания.

Открытые рамки считывания

Следующая процедура иллюстрирует, как определить местоположение открытых рамок считывания с помощью определенного генетического кода. Определение кодирующей белок последовательности для эукариотического гена может быть трудной задачей, потому что интроны (не кодирующий разделы) смешаны с экзонами. Однако прокариотические гены обычно не имеют интронов, и mRNA последовательностям удалили интроны. Идентификация запуска и кодонов остановки для перевода определяет кодирующий белок раздел или открытую рамку считывания (ORF), в последовательности. Если вы знаете ORF для гена или mRNA, можно перевести последовательность нуклеотида в ее соответствующую последовательность аминокислот.

После того, как вы считаете последовательность в среду MATLAB, можно анализировать последовательность для открытых рамок считывания. Эта процедура использует человеческий геном митохондрий в качестве примера. Смотрите информацию Последовательности Чтения из сети.

  1. Отобразите открытые рамки считывания (ORFs) в последовательности нуклеотида. В Окне Команды MATLAB введите:

    seqshoworfs(mitochondria);
    

    Если вы сравниваете этот вывод с генами, показанными на странице NCBI для NC_012920, чем ожидалось существует меньше генов. Это вызвано тем, что позвоночные митохондрии используют генетический код, немного отличающийся от стандартного генетического кода. Для списка генетических кодов см. таблицу Genetic Code на странице с описанием aa2nt.

  2. Отобразите ORFs использование кода Vertebrate Mitochondrial.

    orfs= seqshoworfs(mitochondria,...
                      'GeneticCode','Vertebrate Mitochondrial',...
                      'alternativestart',true);
    

    Заметьте, что существует теперь два больших ORFs на третьей рамке считывания. Каждый запускает в положении 4470 и других запусках в 5 904. Они соответствуют генам ND2 (подблок дегидрогеназы NADH 2 [Человек разумный]) и COX1 (цитохром c подблок оксидазы I) гены.

  3. Найдите соответствующий кодон остановки. Запуск и положения остановки для ORFs имеют те же индексы как положения запуска в полях Start и Stop.

    ND2Start = 4470;
    StartIndex = find(orfs(3).Start == ND2Start)
    ND2Stop = orfs(3).Stop(StartIndex)
    

    Отображения положения остановки.

    ND2Stop =
    
            5511
  4. Используя индексы последовательности для запуска и остановки гена, извлеките подпоследовательность от последовательности.

    ND2Seq = mitochondria(ND2Start:ND2Stop)
    

    Подпоследовательность (кодирующая белок область) хранится в ND2Seq и отображенный на экране.

    attaatcccctggcccaacccgtcatctactctaccatctttgcaggcac
    actcatcacagcgctaagctcgcactgattttttacctgagtaggcctag
    aaataaacatgctagcttttattccagttctaaccaaaaaaataaaccct
    cgttccacagaagctgccatcaagtatttcctcacgcaagcaaccgcatc
    cataatccttc . . .
  5. Определите распределение кодона.

    codoncount (ND2Seq)
    

    Количество кодона показывает большое количество ACC, ATA, CTA и ATC.

    AAA - 10     AAC - 14     AAG -  2     AAT -  6     
    ACA - 11     ACC - 24     ACG -  3     ACT -  5     
    AGA -  0     AGC -  4     AGG -  0     AGT -  1     
    ATA - 23     ATC - 24     ATG -  1     ATT -  8     
    CAA -  8     CAC -  3     CAG -  2     CAT -  1     
    CCA -  4     CCC - 12     CCG -  2     CCT -  5     
    CGA -  0     CGC -  3     CGG -  0     CGT -  1     
    CTA - 26     CTC - 18     CTG -  4     CTT -  7     
    GAA -  5     GAC -  0     GAG -  1     GAT -  0     
    GCA -  8     GCC -  7     GCG -  1     GCT -  4     
    GGA -  5     GGC -  7     GGG -  0     GGT -  1     
    GTA -  3     GTC -  2     GTG -  0     GTT -  3     
    TAA -  0     TAC -  8     TAG -  0     TAT -  2     
    TCA -  7     TCC - 11     TCG -  1     TCT -  4     
    TGA - 10     TGC -  0     TGG -  1     TGT -  0     
    TTA -  8     TTC -  7     TTG -  1     TTT -  8  
  6. Ищите аминокислоты для кодонов ATA, CTA, ACC и ATC.

    aminolookup('code',nt2aa('ATA'))
    aminolookup('code',nt2aa('CTA'))
    aminolookup('code',nt2aa('ACC'))
    aminolookup('code',nt2aa('ATC'))
    

    Следующие отображения:

    Ile	isoleucine
    Leu	leucine
    Thr	threonine
    Ile	isoleucine
    

Преобразование аминокислоты и состав

Следующая процедура иллюстрирует, как извлечь кодирующую белок последовательность от последовательности генов и преобразовать ее в последовательность аминокислот для белка. Определение относительного состава аминокислоты белка даст вам характеристический профиль для белка. Часто, этот профиль является достаточной информацией, чтобы идентифицировать белок. Используя состав аминокислоты, атомарный состав и молекулярную массу, можно также искать общедоступные базы данных подобные белки.

После того, как вы определите местоположение открытой рамки считывания (ORF) в гене, можно преобразовать его в последовательность аминопласта и определить ее состав аминокислоты. Эта процедура использует человеческий геном митохондрий в качестве примера. Смотрите Открытые Рамки считывания.

  1. Преобразуйте последовательность нуклеотида в последовательность аминокислот. В этом примере только преобразована кодирующая белок последовательность между запуском и кодонами остановки.

    ND2AASeq = nt2aa(ND2Seq,'geneticcode',...
                     'Vertebrate Mitochondrial')
    

    Последовательность преобразована с помощью генетического кода Vertebrate Mitochondrial. Поскольку свойство AlternativeStartCodons установлено в 'true' по умолчанию, первый кодон, att преобразован в M вместо I.

    MNPLAQPVIYSTIFAGTLITALSSHWFFTWVGLEMNMLAFIPVLTKKMNP
    RSTEAAIKYFLTQATASMILLMAILFNNMLSGQWTMTNTTNQYSSLMIMM
    AMAMKLGMAPFHFWVPEVTQGTPLTSGLLLLTWQKLAPISIMYQISPSLN
    VSLLLTLSILSIMAGSWGGLNQTQLRKILAYSSITHMGWMMAVLPYNPNM
    TILNLTIYIILTTTAFLLLNLNSSTTTLLLSRTWNKLTWLTPLIPSTLLS
    LGGLPPLTGFLPKWAIIEEFTKNNSLIIPTIMATITLLNLYFYLRLIYST
    SITLLPMSNNVKMKWQFEHTKPTPFLPTLIALTTLLLPISPFMLMIL
    
  2. Сравните свое преобразование с опубликованным преобразованием в базе данных GenPept.

    ND2protein = getgenpept('YP_003024027','sequenceonly',true)
    

    Функция getgenpept получает опубликованное преобразование из базы данных NCBI и читает его в рабочее пространство MATLAB.

  3. Считайте аминокислоты в последовательности белка.

    aacount(ND2AASeq, 'chart','bar')
    

    Гистограмма отображается. Заметьте высокое содержимое для лейцина, треонина и изолейцина, и также заметьте отсутствие кислоты аспарагиновой кислоты и цистеина.

  4. Определите атомарный состав и молекулярную массу белка.

    atomiccomp(ND2AASeq)
    molweight (ND2AASeq)
    

    Следующие отображения в рабочем пространстве MATLAB:

    ans = 
    
        C: 1818
        H: 2882
        N: 420
        O: 471
        S: 25
    ans =
    
      3.8960e+004
    

    Если бы эта последовательность была неизвестна, вы могли бы использовать эту информацию, чтобы идентифицировать белок путем сравнения ее с атомарным составом других белков в базе данных.