Прогнозирование и визуализация вторичной структуры последовательностей РНК

Открыть сценарий

В этом примере показано, как использовать rnafold и rnaplot функции для прогнозирования и построения графика вторичной структуры последовательности РНК.

Введение

РНК играет важную роль в клетке, как в качестве носителя генетической информации (мРНК), так и в качестве функционального элемента (тРНК, рРНК). Поскольку функция последовательности РНК в значительной степени связана с её структурой, прогнозирование структуры РНК по её последовательности становится всё более важным. Поскольку спаривание оснований и штабелирование оснований представляют большую часть вклада свободной энергии в сворачивание, хорошая оценка вторичной структуры может быть очень полезна не только при интерпретации функции и реакционной способности, но и при анализе третичной структуры молекулы РНК.

Прогнозирование вторичной структуры РНК с использованием ближайшей соседней термодинамической модели

Вторичная структура последовательности РНК определяется взаимодействием между её основаниями, включая водородную связь и укладку оснований. Один из многих методов прогнозирования вторичной структуры РНК использует модель ближайшего соседа и минимизирует общую свободную энергию, связанную со структурой РНК. Минимальную свободную энергию оценивают путем суммирования индивидуальных энергетических вкладов от укладки пар оснований, шпилек, выпуклостей, внутренних петель и многоточечных петель. Энергетические вклады этих элементов зависят от последовательности и длины и были экспериментально определены [1]. rnafold функция использует ближайшую соседнюю термодинамическую модель для прогнозирования минимальной вторичной структуры свободной энергии последовательности РНК. Более конкретно, алгоритм, реализованный в rnafold использует динамическое программирование для вычисления энергетических вкладов всех возможных элементарных подструктур и затем предсказывает вторичную структуру, рассматривая комбинацию элементарных подструктур, общая свободная энергия которых минимальна. При этом вычислении вклад коаксиально сложенных спиралей не учитывается, а образование псевдокнотов (незакрытых структурных элементов) запрещено.

Вторичная структура трансферной РНК Фенилаланин

тРНК представляют собой небольшие молекулы (73-93 нуклеотида), которые во время трансляции переносят специфические аминокислоты в растущую полипептидную цепь в рибосомальном сайте. Хотя по меньшей мере одна молекула тРНК существует для каждого типа аминокислот, как вторичные, так и третичные структуры хорошо консервативны среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Рассмотрим следующую последовательность тРНК-Phe из Saccharomyces cerevisiae и прогнозируем минимальную вторичную структуру свободной энергии с помощью функции rnafold.

% === Predict secondary structure in bracket notation
phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA';
phe_str = rnafold(phe_seq)

phe_str =

    '(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'

В обозначении скобок каждая точка представляет непарное основание, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет собой пару оснований. Альтернативные представления РНК-вторичных структур могут быть нарисованы с помощью функции rnaplot. Например, структура, предсказанная выше, может быть отображена в виде корневого дерева, где листовые узлы соответствуют непарным остаткам, а внутренние узлы (за исключением корня) соответствуют базовым парам. Позицию и тип каждого остатка можно просмотреть, щелкнув соответствующий узел.

% === Plot RNA secondary structure as tree
rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');

Вторичная структура тРНК обычно представлена на графике диаграммы и напоминает клеверный лист. Он отображает четыре спаренных стебля (или «руки») и три петли. Каждый из четырёх стеблей был тщательно изучен и охарактеризован: акцепторный стебель (позиции 1-7 и 66-72), D-стебель (позиции 10-13 и 22-25), антикодонный стебель (позиции 27-31 и 39-43) и Т-стебель (позиции 49-53 и 61-65). Можно нарисовать вторичную структуру тРНК как двумерный график, где каждый остаток идентифицируется точкой, а остов и водородные связи представлены в виде линий между точками. Стебли состоят из последовательных отрезков основных парных остатков (синих точек), в то время как петли образованы непарными остатками (красными точками).

% === Plot the secondary structure using the dot diagram representation
rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot');

text(500, 200, 'T-stem');
text(100, 600, 'Anticodon stem');
text(550, 650, 'D-stem stem');
text(700, 400, 'Acceptor stem');

Хотя все стебли важны для правильного трехмерного сворачивания молекулы и успешного взаимодействия с рибосомой и тРНК-синтетазами, акцепторный стебель и антикодонный стебель особенно интересны, поскольку они включают сайт присоединения и антикодонный триплет. Сайт присоединения (положения 74-76) находится на 3 '-конце цепей РНК и состоит из последовательности C-C-A во всех аминокислотных акцепторных стеблях. Триплет антикодона состоит из 3 оснований, которые соединяются с комплементарным кодоном в РНК-мессенджере. В случае Phe-tRNA антикодонная последовательность A-A-G (положения 34-36) соединяется с кодоном мРНК U-U-C, кодирующим аминокислоту фенилаланин. Мы можем перерисовать структуру и выделить эти области в стволе акцептора и стволе антикодона, используя selection свойство:

aag_pos = 34:36;
cca_pos = 74:76;

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ...
    'selection', [aag_pos, cca_pos]);

Разделение последовательности на четыре отдельных стебля лучше оценить, отображая структуру в виде графика. Каждый остаток представлен на абсциссе и полуэллиптических линиях, соединяющих основания, которые соединяются между собой. Отсутствие псевдокнотов во вторичной структуре отражается отсутствием пересекающихся прямых. Это ожидается во вторичных структурах тРНК и ожидается, потому что используемый метод динамического программирования не допускает псевдокнотов.

rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');

Подобные наблюдения можно провести, отображая вторичную структуру в виде круга, где каждое основание представлено точкой на окружности круга произвольного размера, а основания, попарные друг с другом, соединены линиями. Линии визуально сгруппированы в четыре отдельные группы, разделенные растянутыми непарными остатками. Мы можем скрыть непарные остатки с помощью H.Unpaired, дескриптор возвращен вместе с colorby свойство имеет значение state.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ...
    'colorby', 'state');
H.Unpaired.Visible = 'off';
legend off;

Как вы можете видеть, выходы rnaplot функция включает структуру MATLAB ® H состоит из ручек, которые могут использоваться для изменения свойств аспектов различных подмножеств остатков. Например, если цветовая схема задана с помощью colorby свойство имеет значение residueточки окрашиваются в соответствии с типом остатка, и их свойство можно изменить с помощью соответствующего маркера.

[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')

ha = 

  Axes (Bioinfo:rnaplot:circle) with properties:

             XLim: [-1 1]
             YLim: [-1 1.1000]
           XScale: 'linear'
           YScale: 'linear'
    GridLineStyle: '-'
         Position: [0.1156 0.1100 0.6891 0.8150]
            Units: 'normalized'

  Use GET to show all properties


H = 

  struct with fields:

           A: [1x1 Line]
           C: [1x1 Line]
           G: [1x1 Line]
           U: [1x1 Line]
    Selected: [0x1 Line]

H.G.Color = [0.5 0.5 0.5];
H.G.Marker = '*';
H.C.Color = [0.5 0.5 0.5];
H.C.Marker = '+';

Сохранение трансферной РНК фенилаланин

Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют картину вторичной структуры, которая хорошо сохраняется в трех филогенетических доменах. Рассмотрим структуру тРНК-Phe одного репрезентативного организма для каждого филогенетического домена: Saccharomyces cerevisiae для эукариот, Haloarcula marismortui для архей и Thermus thermophilus для Бактерий. Затем спрогнозируйте и постройте график их вторичных структур, используя представление горного графика.

yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA';
halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA';
theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA';

yeast_str = rnafold(yeast);
theth_str = rnafold(theth);
halma_str = rnafold(halma);

h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain');
title(h1, 'tRNA-Phe Saccharomyces cerevisiae');
legend hide;

h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain');
title(h2, 'tRNA-Phe Haloarcula marismortui');
legend hide;

h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain');
title(h3, 'tRNA-Phe Thermus thermophilus');
legend hide;

Сходство между полученными структурами поразительно, единственным отличием является один дополнительный остаток в D-петле Haloarcula marismortui, отображаемой в первом плоском склоне на горном графике.

Базовая пара колебаний G-U

Помимо пар оснований Уотсона-Крика (A-U, G-C), практически каждый класс функциональной РНК представляет пары оснований G-U вобуляции. Пары G-U обладают рядом отличительных химических, структурных и конформационных свойств: они обладают высоким сродством к ионам металлов, они почти термодинамически так же стабильны, как пары оснований Уотсона-Крика, и они представляют конформационную гибкость для различных сред. Пара колебаний в третьем положении акцепторной спирали тРНК очень высоко консервативна почти у всех организмов. Такое сохранение предполагает, что пара G-U обладает уникальными характеристиками, которые вряд ли могут быть дублированы другими парами. Распределение типов базовых пар можно наблюдать на диаграмме вторичной структуры, раскрашивая базовые пары в соответствии с их типом.

rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');

Ссылки

[1] Мэтьюз, Д., Сабина, Дж., Зукер, М. и Тернер, Д. «Расширенная зависимость термодинамических параметров от последовательностей улучшает прогноз вторичной структуры РНК», Journal of Molecular Biology, 288 (5): 911-40, 1999.

Документация