В этом примере показано, как использовать rnafold и rnaplot функции для прогнозирования и построения графика вторичной структуры последовательности РНК.
РНК играет важную роль в клетке, как в качестве носителя генетической информации (мРНК), так и в качестве функционального элемента (тРНК, рРНК). Поскольку функция последовательности РНК в значительной степени связана с её структурой, прогнозирование структуры РНК по её последовательности становится всё более важным. Поскольку спаривание оснований и штабелирование оснований представляют большую часть вклада свободной энергии в сворачивание, хорошая оценка вторичной структуры может быть очень полезна не только при интерпретации функции и реакционной способности, но и при анализе третичной структуры молекулы РНК.
Вторичная структура последовательности РНК определяется взаимодействием между её основаниями, включая водородную связь и укладку оснований. Один из многих методов прогнозирования вторичной структуры РНК использует модель ближайшего соседа и минимизирует общую свободную энергию, связанную со структурой РНК. Минимальную свободную энергию оценивают путем суммирования индивидуальных энергетических вкладов от укладки пар оснований, шпилек, выпуклостей, внутренних петель и многоточечных петель. Энергетические вклады этих элементов зависят от последовательности и длины и были экспериментально определены [1]. rnafold функция использует ближайшую соседнюю термодинамическую модель для прогнозирования минимальной вторичной структуры свободной энергии последовательности РНК. Более конкретно, алгоритм, реализованный в rnafold использует динамическое программирование для вычисления энергетических вкладов всех возможных элементарных подструктур и затем предсказывает вторичную структуру, рассматривая комбинацию элементарных подструктур, общая свободная энергия которых минимальна. При этом вычислении вклад коаксиально сложенных спиралей не учитывается, а образование псевдокнотов (незакрытых структурных элементов) запрещено.
тРНК представляют собой небольшие молекулы (73-93 нуклеотида), которые во время трансляции переносят специфические аминокислоты в растущую полипептидную цепь в рибосомальном сайте. Хотя по меньшей мере одна молекула тРНК существует для каждого типа аминокислот, как вторичные, так и третичные структуры хорошо консервативны среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Рассмотрим следующую последовательность тРНК-Phe из Saccharomyces cerevisiae и прогнозируем минимальную вторичную структуру свободной энергии с помощью функции rnafold.
% === Predict secondary structure in bracket notation phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA'; phe_str = rnafold(phe_seq)
phe_str =
'(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'
В обозначении скобок каждая точка представляет непарное основание, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет собой пару оснований. Альтернативные представления РНК-вторичных структур могут быть нарисованы с помощью функции rnaplot. Например, структура, предсказанная выше, может быть отображена в виде корневого дерева, где листовые узлы соответствуют непарным остаткам, а внутренние узлы (за исключением корня) соответствуют базовым парам. Позицию и тип каждого остатка можно просмотреть, щелкнув соответствующий узел.
% === Plot RNA secondary structure as tree rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');

Вторичная структура тРНК обычно представлена на графике диаграммы и напоминает клеверный лист. Он отображает четыре спаренных стебля (или «руки») и три петли. Каждый из четырёх стеблей был тщательно изучен и охарактеризован: акцепторный стебель (позиции 1-7 и 66-72), D-стебель (позиции 10-13 и 22-25), антикодонный стебель (позиции 27-31 и 39-43) и Т-стебель (позиции 49-53 и 61-65). Можно нарисовать вторичную структуру тРНК как двумерный график, где каждый остаток идентифицируется точкой, а остов и водородные связи представлены в виде линий между точками. Стебли состоят из последовательных отрезков основных парных остатков (синих точек), в то время как петли образованы непарными остатками (красными точками).
% === Plot the secondary structure using the dot diagram representation rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot'); text(500, 200, 'T-stem'); text(100, 600, 'Anticodon stem'); text(550, 650, 'D-stem stem'); text(700, 400, 'Acceptor stem');

Хотя все стебли важны для правильного трехмерного сворачивания молекулы и успешного взаимодействия с рибосомой и тРНК-синтетазами, акцепторный стебель и антикодонный стебель особенно интересны, поскольку они включают сайт присоединения и антикодонный триплет. Сайт присоединения (положения 74-76) находится на 3 '-конце цепей РНК и состоит из последовательности C-C-A во всех аминокислотных акцепторных стеблях. Триплет антикодона состоит из 3 оснований, которые соединяются с комплементарным кодоном в РНК-мессенджере. В случае Phe-tRNA антикодонная последовательность A-A-G (положения 34-36) соединяется с кодоном мРНК U-U-C, кодирующим аминокислоту фенилаланин. Мы можем перерисовать структуру и выделить эти области в стволе акцептора и стволе антикодона, используя selection свойство:
aag_pos = 34:36; cca_pos = 74:76; rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ... 'selection', [aag_pos, cca_pos]);

Разделение последовательности на четыре отдельных стебля лучше оценить, отображая структуру в виде графика. Каждый остаток представлен на абсциссе и полуэллиптических линиях, соединяющих основания, которые соединяются между собой. Отсутствие псевдокнотов во вторичной структуре отражается отсутствием пересекающихся прямых. Это ожидается во вторичных структурах тРНК и ожидается, потому что используемый метод динамического программирования не допускает псевдокнотов.
rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');

Подобные наблюдения можно провести, отображая вторичную структуру в виде круга, где каждое основание представлено точкой на окружности круга произвольного размера, а основания, попарные друг с другом, соединены линиями. Линии визуально сгруппированы в четыре отдельные группы, разделенные растянутыми непарными остатками. Мы можем скрыть непарные остатки с помощью H.Unpaired, дескриптор возвращен вместе с colorby свойство имеет значение state.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ... 'colorby', 'state'); H.Unpaired.Visible = 'off'; legend off;

Как вы можете видеть, выходы rnaplot функция включает структуру MATLAB ® H состоит из ручек, которые могут использоваться для изменения свойств аспектов различных подмножеств остатков. Например, если цветовая схема задана с помощью colorby свойство имеет значение residueточки окрашиваются в соответствии с типом остатка, и их свойство можно изменить с помощью соответствующего маркера.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')
ha =
Axes (Bioinfo:rnaplot:circle) with properties:
XLim: [-1 1]
YLim: [-1 1.1000]
XScale: 'linear'
YScale: 'linear'
GridLineStyle: '-'
Position: [0.1156 0.1100 0.6891 0.8150]
Units: 'normalized'
Use GET to show all properties
H =
struct with fields:
A: [1x1 Line]
C: [1x1 Line]
G: [1x1 Line]
U: [1x1 Line]
Selected: [0x1 Line]

H.G.Color = [0.5 0.5 0.5]; H.G.Marker = '*'; H.C.Color = [0.5 0.5 0.5]; H.C.Marker = '+';

Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют картину вторичной структуры, которая хорошо сохраняется в трех филогенетических доменах. Рассмотрим структуру тРНК-Phe одного репрезентативного организма для каждого филогенетического домена: Saccharomyces cerevisiae для эукариот, Haloarcula marismortui для архей и Thermus thermophilus для Бактерий. Затем спрогнозируйте и постройте график их вторичных структур, используя представление горного графика.
yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA'; halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA'; theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA'; yeast_str = rnafold(yeast); theth_str = rnafold(theth); halma_str = rnafold(halma); h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain'); title(h1, 'tRNA-Phe Saccharomyces cerevisiae'); legend hide; h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain'); title(h2, 'tRNA-Phe Haloarcula marismortui'); legend hide; h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain'); title(h3, 'tRNA-Phe Thermus thermophilus'); legend hide;



Сходство между полученными структурами поразительно, единственным отличием является один дополнительный остаток в D-петле Haloarcula marismortui, отображаемой в первом плоском склоне на горном графике.
Помимо пар оснований Уотсона-Крика (A-U, G-C), практически каждый класс функциональной РНК представляет пары оснований G-U вобуляции. Пары G-U обладают рядом отличительных химических, структурных и конформационных свойств: они обладают высоким сродством к ионам металлов, они почти термодинамически так же стабильны, как пары оснований Уотсона-Крика, и они представляют конформационную гибкость для различных сред. Пара колебаний в третьем положении акцепторной спирали тРНК очень высоко консервативна почти у всех организмов. Такое сохранение предполагает, что пара G-U обладает уникальными характеристиками, которые вряд ли могут быть дублированы другими парами. Распределение типов базовых пар можно наблюдать на диаграмме вторичной структуры, раскрашивая базовые пары в соответствии с их типом.
rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');

[1] Мэтьюз, Д., Сабина, Дж., Зукер, М. и Тернер, Д. «Расширенная зависимость термодинамических параметров от последовательностей улучшает прогноз вторичной структуры РНК», Journal of Molecular Biology, 288 (5): 911-40, 1999.