Предсказание и визуализация вторичной структуры последовательностей RNA

Этот пример иллюстрирует, как использовать rnafold и функции rnaplot, чтобы предсказать и построить вторичную структуру последовательности RNA.

Введение

RNA играет важную роль в ячейке, и как поставщик услуг генетической информации (mRNA) и как функциональный элемент (тРНК, rRNA). Поскольку функция последовательности RNA в основном сопоставлена с ее структурой, предсказав, что структура RNA от ее последовательности стала все больше важной. Поскольку базовое соединение и основная укладка представляют большинство свободного энергетического вклада в сворачивание, хорошая оценка вторичной структуры может быть очень полезной не только в интерпретации функции и реактивности, но также и в анализе третичной структуры молекулы RNA.

RNA вторичный прогноз структуры Используя термодинамическую модель ближайшего соседа

Вторичная структура последовательности RNA определяется взаимодействием между его основами, включая связывание водорода и основную укладку. Один из многих методов для RNA вторичный прогноз структуры использует модель ближайшего соседа и минимизирует общую свободную энергию, сопоставленную со структурой RNA. Минимальная свободная энергия оценивается путем подведения итогов отдельных энергетических вкладов от укладки пары оснований, шпилек, выпуклости, внутренних циклов и многоотраслевых циклов. Энергетические вклады этих элементов являются последовательностью - и зависимый длины и были экспериментально определены [1]. Функция rnafold использует термодинамическую модель ближайшего соседа, чтобы предсказать минимальную свободную энергию вторичная структура последовательности RNA. А именно, алгоритм, реализованный в rnafold, использует динамическое программирование, чтобы вычислить энергетические вклады всех возможных элементарных подструктур и затем предсказывает вторичную структуру путем рассмотрения комбинации элементарных подструктур, общая свободная энергия которых минимальна. В этом вычислении не составляется вклад коаксиально сложенного helices, и формирование псевдоузлов (невложенные структурные элементы) запрещается.

Вторичная структура фенилаланина RNA передачи

тРНК являются маленькими молекулами (73-93 нуклеотида), которые во время перевода передают определенные аминокислоты растущей полипептидной цепочке на рибосомном сайте. Несмотря на то, что по крайней мере одна молекула тРНК существует для каждого типа аминокислоты, и вторичные и третичные структуры хорошо сохраняются среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Мы рассматриваем следующую последовательность тРНК-Phe от Saccharomyces cerevisiae и предсказываем минимальную свободную энергию вторичная структура с помощью функционального rnafold.

% === Predict secondary structure in bracket notation
phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA';
phe_str = rnafold(phe_seq)
phe_str =

    '(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'

В обозначении скобки каждая точка представляет непарную основу, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет пару оснований. Альтернативные представления RNA вторичные структуры могут чертиться с помощью функционального rnaplot. Например, структура, предсказанная выше, может быть отображена как внедренное дерево, где вершины соответствуют непарным остаткам, и внутренние узлы (кроме корня) соответствуют парам оснований. Можно отобразить положение и тип каждого остатка путем нажатия на соответствующий узел.

% === Plot RNA secondary structure as tree
rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');

ТРНК вторичная структура обычно представляется в схеме, строит, и напоминает транспортную развязку типа клеверный лист. Это отображает четыре соединенных основой основы (или "руки") и три цикла. Каждая из четырех основ была экстенсивно изучена и охарактеризована: акцепторная основа (положения 1-7 и 66-72), D-основа (положения 10-13 и 22-25), основа антикодона (положения 27-31 и 39-43) и T-основа (положения 49-53 и 61-65). Мы можем чертить тРНК вторичная структура как двумерный график, где каждый остаток идентифицирован точкой и магистралью, и водородные связи представлены как строки между точками. Основы состоят из последовательных фрагментов соединенных остатков основы (синие точки), в то время как циклы формируются непарными остатками (красные точки).

% === Plot the secondary structure using the dot diagram representation
rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot');

text(500, 200, 'T-stem');
text(100, 600, 'Anticodon stem');
text(550, 650, 'D-stem stem');
text(700, 400, 'Acceptor stem');

В то время как все основы важны для соответствующего 3D сворачивания молекулы и успешного взаимодействия с рибосомой и синтетазами тРНК, акцепторная основа и основа антикодона особенно интересны, потому что они включают прикрепляемый сайт и триплет антикодона. Прикрепляемый сайт (положения 74-76) происходит в 3' концах цепочек RNA и состоит из CCA последовательности во всех акцепторных основах аминокислоты. Триплет антикодона состоит из 3 основ что пара с дополнительным кодоном в RNA средства рассылки. В случае Phe-тРНК, последовательность антикодона A-G (положения 34-36) пары с mRNA кодоном U-U-C, кодируя фенилаланин аминокислоты. Мы можем перерисовать структуру и подсветить эти области в акцепторной основе и основе антикодона при помощи свойства selection:

aag_pos = 34:36;
cca_pos = 74:76;

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ...
    'selection', [aag_pos, cca_pos]);

Сегрегация последовательности в четыре отдельных основы лучше ценится путем отображения структуры как графика графика. Каждый остаток представлен на абсциссе и полуэллиптических основах подключения строк что пара друг с другом. Отсутствие псевдоузлов во вторичной структуре отражается отсутствием пересекающихся строк. Это ожидается в тРНК вторичные структуры и ожидается, потому что динамический используемый метод программирования не позволяет псевдоузлы.

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');

Подобные наблюдения могут чертиться путем отображения вторичной структуры как круга, где каждая основа представлена точкой на окружности круга произвольного размера и основами, что пара друг с другом соединяется строками. Строки визуально кластеризируются в четыре отличных группы, разделенные расширенными из непарных остатков. Мы можем скрыть непарные остатки при помощи H.Unpaired, указатель, возвращенный с набором свойств colorby в state.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ...
    'colorby', 'state');
H.Unpaired.Visible = 'off';
legend off;

Как вы видите, выходные параметры функции rnaplot включают структуру MATLAB® H, состоящий из указателей, которые могут использоваться, чтобы изменить свойства аспекта различных подмножеств остатка. Например, если вы устанавливаете цветовую схему с помощью набора свойств colorby для residue, точки окрашены согласно типу остатка, и можно изменить их свойство с помощью соответствующего указателя.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')
ha = 

  Axes (Bioinfo:rnaplot:circle) with properties:

             XLim: [-1 1]
             YLim: [-1 1.1000]
           XScale: 'linear'
           YScale: 'linear'
    GridLineStyle: '-'
         Position: [0.1156 0.1100 0.6891 0.8150]
            Units: 'normalized'

  Use GET to show all properties


H = 

  struct with fields:

           A: [1x1 Line]
           C: [1x1 Line]
           G: [1x1 Line]
           U: [1x1 Line]
    Selected: [0x1 Line]

H.G.Color = [0.5 0.5 0.5];
H.G.Marker = '*';
H.C.Color = [0.5 0.5 0.5];
H.C.Marker = '+';

Сохранение фенилаланина RNA передачи

Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют вторичный шаблон структуры, который хорошо сохраняется через три филогенетических области. Рассмотрите структуру тРНК-Phe одного представительного организма для каждой филогенетической области: Saccharomyces cerevisiae для Эукариотов, Haloarcula marismortui для Archaea и Thermus термофильный для Бактерий. Затем предскажите и постройте их вторичные структуры с помощью горного представления графика.

yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA';
halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA';
theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA';

yeast_str = rnafold(yeast);
theth_str = rnafold(theth);
halma_str = rnafold(halma);

h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain');
title(h1, 'tRNA-Phe Saccharomyces cerevisiae');
legend hide;

h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain');
title(h2, 'tRNA-Phe Haloarcula marismortui');
legend hide;

h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain');
title(h3, 'tRNA-Phe Thermus thermophilus');
legend hide;

Подобие среди получившихся структур поразительно, единственная разница, являющаяся одним дополнительным остатком в D-цикле Haloarcula marismortui, отображенного в первом плоском наклоне в горном графике.

Пара оснований колебания G-U

Помимо пар оснований Watson-растяжения-мышц (A-U, G-C), фактически каждый класс функционального RNA представляет пары оснований колебания G-U. Пары G-U имеют массив отличительных химических, структурных и конформационных свойств: у них есть высокое сродство к металлическим ионам, они почти термодинамически так же стабильны как пары оснований Watson-растяжения-мышц, и они представляют конформационную гибкость различным средам. Пара колебания в третьем положении акцепторной спирали тРНК очень высоко сохраняется почти во всех организмах. Это сохранение предполагает, что пара G-U обладает уникальными функциями, которые могут едва быть дублированы другими парами. Можно наблюдать распределение типа пары оснований относительно вторичной схемы структуры путем окраски пар оснований согласно их типу.

rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');

Ссылки

[1] Мэтьюс, D., Сабина, J., Zuker, M. и Токарь, D. "Расширенная зависимость последовательности термодинамических параметров улучшает прогноз RNA вторичная структура", Журнал Молекулярной биологии, 288 (5):911-40, 1999.