Предсказание и визуализация вторичной структуры РНК-последовательностей

Этот пример иллюстрирует, как использовать rnafold и rnaplot функции для предсказания и построения графика вторичной структуры РНК-последовательности.

Введение

РНК играет важную роль в клетке как в качестве генетического информационного носителя (мРНК), так и в качестве функционального элемента (тРНК, рРНК). Поскольку функция РНК-последовательности в значительной степени связана с ее структурой, предсказание структуры РНК по ее последовательности становится все более важным. Поскольку связывание основ и сложение оснований представляют большую часть вклада свободной энергии в складывание, хорошая оценка вторичной структуры может быть очень полезной не только в интерпретации функции и реактивности, но и в анализе третичной структуры молекулы РНК.

Предсказание вторичной структуры РНК с использованием ближайшей соседней термодинамической модели

Вторичная структура РНК-последовательности определяется взаимодействием между ее основами, включая водородную связь и укладку основания. Один из многих методов предсказания вторичной структуры РНК использует модель ближайшего соседа и минимизирует общую свободную энергию, связанную со структурой РНК. Минимальная свободная энергия оценивается путем суммирования индивидуальных энергетических вкладов от сложения базовой пары, шпильек, выпуклостей, внутренних циклов и многолучевых циклов. Энергетические вклады этих элементов зависят от последовательности и длины и были экспериментально определены [1]. The rnafold функция использует ближайшую соседнюю термодинамическую модель, чтобы предсказать минимальную свободноэнергетическую вторичную структуру РНК-последовательности. Более конкретно, алгоритм, реализованный в rnafold использует динамическое программирование для вычисления энергетических вкладов всех возможных элементарных подструктур, а затем предсказывает вторичную структуру, рассматривая комбинацию элементарных подструктур, общая свободная энергия которых минимальна. В этом расчете не учитывается вклад коаксиально сложенных спиралей, и запрещается образование псевдокнотов (не вложенных структурных элементов).

Вторичная структура РНК-переноса фенилаланина

тРНК представляют собой небольшие молекулы (73-93 нуклеотида), которые во время трансляции переносят специфические аминокислоты в растущую полипептидную цепь в рибосомальном сайте. Хотя для каждого типа аминокислот существует по меньшей мере одна молекула тРНК, как вторичная, так и третичная структуры хорошо консервативны среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Рассмотрим следующую последовательность tRNA-Phe из Saccharomyces cerevisiae и предсказываем минимальную вторичную структуру с свободной энергией с помощью функции rnafold.

% === Predict secondary structure in bracket notation
phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA';
phe_str = rnafold(phe_seq)
phe_str =

    '(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'

В обозначении скобок каждая точка представляет непарную основу, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет базовую пару. Альтернативные представления вторичных структур РНК могут быть нарисованы с помощью функции rnaplot. Для примера структура, предсказанная выше, может быть отображена как корневое дерево, где узлы листа соответствуют непарным остаткам, а внутренние узлы (кроме корня) соответствуют парам оснований. Вы можете просмотреть положение и тип каждого остатка, нажав на соответствующий узел.

% === Plot RNA secondary structure as tree
rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');

Вторичная структура tRNA обычно представлена на графике схемы и напоминает лист клевера. Он отображает четыре парных стебля (или «руки») и три циклов. Каждый из четырех стеблей был широко изучен и охарактеризован: акцепторный ствол (положения 1-7 и 66-72), D-стебель (положения 10-13 и 22-25), антикодонный ствол (положения 27-31 и 39-43) и T-ствол (положения 49-53 и 61-65). Мы можем нарисовать вторичную структуру тРНК как двумерный график, где каждый остаток идентифицируется точкой, и основная цепь и водородные связи представлены как линии между точками. Стебли состоят из последовательных растяжек парных остатков основы (синие точки), в то время как циклы образованы непарными остатками (красными точками).

% === Plot the secondary structure using the dot diagram representation
rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot');

text(500, 200, 'T-stem');
text(100, 600, 'Anticodon stem');
text(550, 650, 'D-stem stem');
text(700, 400, 'Acceptor stem');

Хотя все стебли важны для правильного трехмерного складывания молекулы и успешного взаимодействия с синтетазами рибосом и тРНК, акцепторный ствол и антикодоновый ствол особенно интересны, поскольку они включают сайт присоединения и триплет антикодонов. Сайт присоединения (положения 74-76) находится в 3 '-конце РНК-цепей и состоит из последовательности C-C-A во всех аминокислотных акцепторных стеблях. Триплет антикодонов состоит из 3 основ, которые соединяются с комплементарным кодоном в РНК мессенджера. В случае Phe-tRNA антикодонная последовательность A-A-G (положения 34-36) сопряжена с кодоном мРНК U-U-C, кодирующим аминокислоту фенилаланина. Мы можем перерисовать структуру и выделить эти области в стволе акцептора и стволе антикодона при помощи selection свойство:

aag_pos = 34:36;
cca_pos = 74:76;

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ...
    'selection', [aag_pos, cca_pos]);

Разделение последовательности на четыре отдельных стебля лучше понять, отображая структуру как график графика. Каждый остаток представлен на абсциссовых и полуэллиптических линиях, соединяющих основы, которые соединяются друг с другом. Отсутствие псевдокнотов во вторичной структуре отражается отсутствием пересекающихся линий. Это ожидается во вторичных структурах tRNA и ожидается, потому что используемый метод динамического программирования не допускает псевдокнотов.

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');

Подобные наблюдения могут быть проведены путем отображения вторичной структуры как окружности, где каждая основа представлена точкой на окружности окружности произвольного размера, а основы, которые соединяются друг с другом, соединены линиями. Линии визуально сгруппированы в четыре отдельные группы, разделенные растянутыми непарными остатками. Мы можем скрыть непарные остатки при помощи H.Unpaired, указатель, возвращенный с colorby значение свойства установлено в state.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ...
    'colorby', 'state');
H.Unpaired.Visible = 'off';
legend off;

Как видим, выходы rnaplot функция включает структуру MATLAB ® H состоящий из указателей, которые могут использоваться, чтобы изменить свойства аспектов различных подмножеств остатков. Например, если установить цветовую схему с помощью colorby значение свойства установлено в residue, точки окрашены в соответствии с типом остатка, и вы можете изменить их свойство с помощью соответствующего указателя.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')
ha = 

  Axes (Bioinfo:rnaplot:circle) with properties:

             XLim: [-1 1]
             YLim: [-1 1.1000]
           XScale: 'linear'
           YScale: 'linear'
    GridLineStyle: '-'
         Position: [0.1156 0.1100 0.6891 0.8150]
            Units: 'normalized'

  Use GET to show all properties


H = 

  struct with fields:

           A: [1x1 Line]
           C: [1x1 Line]
           G: [1x1 Line]
           U: [1x1 Line]
    Selected: [0x1 Line]

H.G.Color = [0.5 0.5 0.5];
H.G.Marker = '*';
H.C.Color = [0.5 0.5 0.5];
H.C.Marker = '+';

Сохранение РНК-переноса фенилаланина

Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют вторичную структуру шаблона которая хорошо сохранена в трех филогенетических областях. Рассмотрим структуру tRNA-Phe по одному представительному организму для каждой филогенетической области: Saccharomyces cerevisiae для Eukaryotes, Haloarcula marismortui для Archaea и Thermus thermophilus для Bacteria. Затем спрогнозируйте и постройте график их вторичных структур с помощью представления графика гор.

yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA';
halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA';
theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA';

yeast_str = rnafold(yeast);
theth_str = rnafold(theth);
halma_str = rnafold(halma);

h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain');
title(h1, 'tRNA-Phe Saccharomyces cerevisiae');
legend hide;

h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain');
title(h2, 'tRNA-Phe Haloarcula marismortui');
legend hide;

h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain');
title(h3, 'tRNA-Phe Thermus thermophilus');
legend hide;

Сходство между получившимися структурами поразительно, единственным различием является один дополнительный остаток в D-петле Haloarcula marismortui, отображаемый на первом плоском склоне на горном графике.

Пара Основы G-U

Кроме пар основы Уотсона-Крика (A-U, G-C), практически каждый класс функциональной РНК представляет G-U основы пар. Пары G-U имеют массив отличительных химических, структурных и конформационных свойств: они имеют высокое сродство к ионам металлов, они почти термодинамически так же устойчивы, как пары основ Ватсона-Крика, и они представляют конформационную гибкость к различным окружениям. Пара колебаний на третьем положении акцепторной спирали тРНК очень высоко консервативна практически у всех организмов. Это сохранение предполагает, что пара G-U обладает уникальными функциями, которые вряд ли могут быть дублированы другими парами. Вы можете наблюдать распределение типов базовой пары на вторичной схеме структуры, раскрашивая пары базы в соответствии с их типом.

rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');

Ссылки

[1] Matthews, D., Sabina, J., Zuker, M. and Turner, D. «Расширенная последовательная зависимость термодинамических параметров улучшает предсказание вторичной структуры РНК», Journal of Molecular Biology, 288 (5): 911-40, 1999.