Этот пример иллюстрирует, как использовать rnafold
и rnaplot
функции для предсказания и построения графика вторичной структуры РНК-последовательности.
РНК играет важную роль в клетке как в качестве генетического информационного носителя (мРНК), так и в качестве функционального элемента (тРНК, рРНК). Поскольку функция РНК-последовательности в значительной степени связана с ее структурой, предсказание структуры РНК по ее последовательности становится все более важным. Поскольку связывание основ и сложение оснований представляют большую часть вклада свободной энергии в складывание, хорошая оценка вторичной структуры может быть очень полезной не только в интерпретации функции и реактивности, но и в анализе третичной структуры молекулы РНК.
Вторичная структура РНК-последовательности определяется взаимодействием между ее основами, включая водородную связь и укладку основания. Один из многих методов предсказания вторичной структуры РНК использует модель ближайшего соседа и минимизирует общую свободную энергию, связанную со структурой РНК. Минимальная свободная энергия оценивается путем суммирования индивидуальных энергетических вкладов от сложения базовой пары, шпильек, выпуклостей, внутренних циклов и многолучевых циклов. Энергетические вклады этих элементов зависят от последовательности и длины и были экспериментально определены [1]. The rnafold
функция использует ближайшую соседнюю термодинамическую модель, чтобы предсказать минимальную свободноэнергетическую вторичную структуру РНК-последовательности. Более конкретно, алгоритм, реализованный в rnafold
использует динамическое программирование для вычисления энергетических вкладов всех возможных элементарных подструктур, а затем предсказывает вторичную структуру, рассматривая комбинацию элементарных подструктур, общая свободная энергия которых минимальна. В этом расчете не учитывается вклад коаксиально сложенных спиралей, и запрещается образование псевдокнотов (не вложенных структурных элементов).
тРНК представляют собой небольшие молекулы (73-93 нуклеотида), которые во время трансляции переносят специфические аминокислоты в растущую полипептидную цепь в рибосомальном сайте. Хотя для каждого типа аминокислот существует по меньшей мере одна молекула тРНК, как вторичная, так и третичная структуры хорошо консервативны среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Рассмотрим следующую последовательность tRNA-Phe из Saccharomyces cerevisiae и предсказываем минимальную вторичную структуру с свободной энергией с помощью функции rnafold
.
% === Predict secondary structure in bracket notation phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA'; phe_str = rnafold(phe_seq)
phe_str = '(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'
В обозначении скобок каждая точка представляет непарную основу, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет базовую пару. Альтернативные представления вторичных структур РНК могут быть нарисованы с помощью функции rnaplot
. Для примера структура, предсказанная выше, может быть отображена как корневое дерево, где узлы листа соответствуют непарным остаткам, а внутренние узлы (кроме корня) соответствуют парам оснований. Вы можете просмотреть положение и тип каждого остатка, нажав на соответствующий узел.
% === Plot RNA secondary structure as tree rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');
Вторичная структура tRNA обычно представлена на графике схемы и напоминает лист клевера. Он отображает четыре парных стебля (или «руки») и три циклов. Каждый из четырех стеблей был широко изучен и охарактеризован: акцепторный ствол (положения 1-7 и 66-72), D-стебель (положения 10-13 и 22-25), антикодонный ствол (положения 27-31 и 39-43) и T-ствол (положения 49-53 и 61-65). Мы можем нарисовать вторичную структуру тРНК как двумерный график, где каждый остаток идентифицируется точкой, и основная цепь и водородные связи представлены как линии между точками. Стебли состоят из последовательных растяжек парных остатков основы (синие точки), в то время как циклы образованы непарными остатками (красными точками).
% === Plot the secondary structure using the dot diagram representation rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot'); text(500, 200, 'T-stem'); text(100, 600, 'Anticodon stem'); text(550, 650, 'D-stem stem'); text(700, 400, 'Acceptor stem');
Хотя все стебли важны для правильного трехмерного складывания молекулы и успешного взаимодействия с синтетазами рибосом и тРНК, акцепторный ствол и антикодоновый ствол особенно интересны, поскольку они включают сайт присоединения и триплет антикодонов. Сайт присоединения (положения 74-76) находится в 3 '-конце РНК-цепей и состоит из последовательности C-C-A во всех аминокислотных акцепторных стеблях. Триплет антикодонов состоит из 3 основ, которые соединяются с комплементарным кодоном в РНК мессенджера. В случае Phe-tRNA антикодонная последовательность A-A-G (положения 34-36) сопряжена с кодоном мРНК U-U-C, кодирующим аминокислоту фенилаланина. Мы можем перерисовать структуру и выделить эти области в стволе акцептора и стволе антикодона при помощи selection
свойство:
aag_pos = 34:36; cca_pos = 74:76; rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ... 'selection', [aag_pos, cca_pos]);
Разделение последовательности на четыре отдельных стебля лучше понять, отображая структуру как график графика. Каждый остаток представлен на абсциссовых и полуэллиптических линиях, соединяющих основы, которые соединяются друг с другом. Отсутствие псевдокнотов во вторичной структуре отражается отсутствием пересекающихся линий. Это ожидается во вторичных структурах tRNA и ожидается, потому что используемый метод динамического программирования не допускает псевдокнотов.
rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');
Подобные наблюдения могут быть проведены путем отображения вторичной структуры как окружности, где каждая основа представлена точкой на окружности окружности произвольного размера, а основы, которые соединяются друг с другом, соединены линиями. Линии визуально сгруппированы в четыре отдельные группы, разделенные растянутыми непарными остатками. Мы можем скрыть непарные остатки при помощи H.Unpaired
, указатель, возвращенный с colorby
значение свойства установлено в state
.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ... 'colorby', 'state'); H.Unpaired.Visible = 'off'; legend off;
Как видим, выходы rnaplot
функция включает структуру MATLAB ® H
состоящий из указателей, которые могут использоваться, чтобы изменить свойства аспектов различных подмножеств остатков. Например, если установить цветовую схему с помощью colorby
значение свойства установлено в residue
, точки окрашены в соответствии с типом остатка, и вы можете изменить их свойство с помощью соответствующего указателя.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')
ha = Axes (Bioinfo:rnaplot:circle) with properties: XLim: [-1 1] YLim: [-1 1.1000] XScale: 'linear' YScale: 'linear' GridLineStyle: '-' Position: [0.1156 0.1100 0.6891 0.8150] Units: 'normalized' Use GET to show all properties H = struct with fields: A: [1x1 Line] C: [1x1 Line] G: [1x1 Line] U: [1x1 Line] Selected: [0x1 Line]
H.G.Color = [0.5 0.5 0.5]; H.G.Marker = '*'; H.C.Color = [0.5 0.5 0.5]; H.C.Marker = '+';
Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют вторичную структуру шаблона которая хорошо сохранена в трех филогенетических областях. Рассмотрим структуру tRNA-Phe по одному представительному организму для каждой филогенетической области: Saccharomyces cerevisiae для Eukaryotes, Haloarcula marismortui для Archaea и Thermus thermophilus для Bacteria. Затем спрогнозируйте и постройте график их вторичных структур с помощью представления графика гор.
yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA'; halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA'; theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA'; yeast_str = rnafold(yeast); theth_str = rnafold(theth); halma_str = rnafold(halma); h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain'); title(h1, 'tRNA-Phe Saccharomyces cerevisiae'); legend hide; h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain'); title(h2, 'tRNA-Phe Haloarcula marismortui'); legend hide; h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain'); title(h3, 'tRNA-Phe Thermus thermophilus'); legend hide;
Сходство между получившимися структурами поразительно, единственным различием является один дополнительный остаток в D-петле Haloarcula marismortui, отображаемый на первом плоском склоне на горном графике.
Кроме пар основы Уотсона-Крика (A-U, G-C), практически каждый класс функциональной РНК представляет G-U основы пар. Пары G-U имеют массив отличительных химических, структурных и конформационных свойств: они имеют высокое сродство к ионам металлов, они почти термодинамически так же устойчивы, как пары основ Ватсона-Крика, и они представляют конформационную гибкость к различным окружениям. Пара колебаний на третьем положении акцепторной спирали тРНК очень высоко консервативна практически у всех организмов. Это сохранение предполагает, что пара G-U обладает уникальными функциями, которые вряд ли могут быть дублированы другими парами. Вы можете наблюдать распределение типов базовой пары на вторичной схеме структуры, раскрашивая пары базы в соответствии с их типом.
rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');
[1] Matthews, D., Sabina, J., Zuker, M. and Turner, D. «Расширенная последовательная зависимость термодинамических параметров улучшает предсказание вторичной структуры РНК», Journal of Molecular Biology, 288 (5): 911-40, 1999.