Этот пример иллюстрирует, как использовать rnafold
и функции rnaplot
, чтобы предсказать и построить вторичную структуру последовательности RNA.
RNA играет важную роль в ячейке, и как поставщик услуг генетической информации (mRNA) и как функциональный элемент (тРНК, rRNA). Поскольку функция последовательности RNA в основном сопоставлена с ее структурой, предсказав, что структура RNA от ее последовательности стала все больше важной. Поскольку базовое соединение и основная укладка представляют большинство свободного энергетического вклада в сворачивание, хорошая оценка вторичной структуры может быть очень полезной не только в интерпретации функции и реактивности, но также и в анализе третичной структуры молекулы RNA.
Вторичная структура последовательности RNA определяется взаимодействием между его основами, включая связывание водорода и основную укладку. Один из многих методов для RNA вторичный прогноз структуры использует модель ближайшего соседа и минимизирует общую свободную энергию, сопоставленную со структурой RNA. Минимальная свободная энергия оценивается путем подведения итогов отдельных энергетических вкладов от укладки пары оснований, шпилек, выпуклости, внутренних циклов и многоотраслевых циклов. Энергетические вклады этих элементов являются последовательностью - и зависимый длины и были экспериментально определены [1]. Функция rnafold
использует термодинамическую модель ближайшего соседа, чтобы предсказать минимальную свободную энергию вторичная структура последовательности RNA. А именно, алгоритм, реализованный в rnafold
, использует динамическое программирование, чтобы вычислить энергетические вклады всех возможных элементарных подструктур и затем предсказывает вторичную структуру путем рассмотрения комбинации элементарных подструктур, общая свободная энергия которых минимальна. В этом вычислении не составляется вклад коаксиально сложенного helices, и формирование псевдоузлов (невложенные структурные элементы) запрещается.
тРНК являются маленькими молекулами (73-93 нуклеотида), которые во время перевода передают определенные аминокислоты растущей полипептидной цепочке на рибосомном сайте. Несмотря на то, что по крайней мере одна молекула тРНК существует для каждого типа аминокислоты, и вторичные и третичные структуры хорошо сохраняются среди различных типов тРНК, скорее всего, из-за необходимости поддержания надежного взаимодействия с рибосомой. Мы рассматриваем следующую последовательность тРНК-Phe от Saccharomyces cerevisiae и предсказываем минимальную свободную энергию вторичная структура с помощью функционального rnafold
.
% === Predict secondary structure in bracket notation phe_seq = 'GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA'; phe_str = rnafold(phe_seq)
phe_str = '(((((((..((((........)))).(((((.......))))).....(((((.......))))))))))))....'
В обозначении скобки каждая точка представляет непарную основу, в то время как пара одинаково вложенных, открывающих и закрывающих скобок представляет пару оснований. Альтернативные представления RNA вторичные структуры могут чертиться с помощью функционального rnaplot
. Например, структура, предсказанная выше, может быть отображена как внедренное дерево, где вершины соответствуют непарным остаткам, и внутренние узлы (кроме корня) соответствуют парам оснований. Можно отобразить положение и тип каждого остатка путем нажатия на соответствующий узел.
% === Plot RNA secondary structure as tree rnaplot(phe_str, 'seq', phe_seq, 'format', 'tree');
ТРНК вторичная структура обычно представляется в схеме, строит, и напоминает транспортную развязку типа клеверный лист. Это отображает четыре соединенных основой основы (или "руки") и три цикла. Каждая из четырех основ была экстенсивно изучена и охарактеризована: акцепторная основа (положения 1-7 и 66-72), D-основа (положения 10-13 и 22-25), основа антикодона (положения 27-31 и 39-43) и T-основа (положения 49-53 и 61-65). Мы можем чертить тРНК вторичная структура как двумерный график, где каждый остаток идентифицирован точкой и магистралью, и водородные связи представлены как строки между точками. Основы состоят из последовательных фрагментов соединенных остатков основы (синие точки), в то время как циклы формируются непарными остатками (красные точки).
% === Plot the secondary structure using the dot diagram representation rnaplot(phe_str, 'seq', phe_seq, 'format', 'dot'); text(500, 200, 'T-stem'); text(100, 600, 'Anticodon stem'); text(550, 650, 'D-stem stem'); text(700, 400, 'Acceptor stem');
В то время как все основы важны для соответствующего 3D сворачивания молекулы и успешного взаимодействия с рибосомой и синтетазами тРНК, акцепторная основа и основа антикодона особенно интересны, потому что они включают прикрепляемый сайт и триплет антикодона. Прикрепляемый сайт (положения 74-76) происходит в 3' концах цепочек RNA и состоит из CCA последовательности во всех акцепторных основах аминокислоты. Триплет антикодона состоит из 3 основ что пара с дополнительным кодоном в RNA средства рассылки. В случае Phe-тРНК, последовательность антикодона A-G (положения 34-36) пары с mRNA кодоном U-U-C, кодируя фенилаланин аминокислоты. Мы можем перерисовать структуру и подсветить эти области в акцепторной основе и основе антикодона при помощи свойства selection
:
aag_pos = 34:36; cca_pos = 74:76; rnaplot(phe_str, 'sequence', phe_seq, 'format', 'diagram', ... 'selection', [aag_pos, cca_pos]);
Сегрегация последовательности в четыре отдельных основы лучше ценится путем отображения структуры как графика графика. Каждый остаток представлен на абсциссе и полуэллиптических основах подключения строк что пара друг с другом. Отсутствие псевдоузлов во вторичной структуре отражается отсутствием пересекающихся строк. Это ожидается в тРНК вторичные структуры и ожидается, потому что динамический используемый метод программирования не позволяет псевдоузлы.
rnaplot(phe_str, 'sequence', phe_seq, 'format', 'graph');
Подобные наблюдения могут чертиться путем отображения вторичной структуры как круга, где каждая основа представлена точкой на окружности круга произвольного размера и основами, что пара друг с другом соединяется строками. Строки визуально кластеризируются в четыре отличных группы, разделенные расширенными из непарных остатков. Мы можем скрыть непарные остатки при помощи H.Unpaired
, указатель, возвращенный с набором свойств colorby
в state
.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', ... 'colorby', 'state'); H.Unpaired.Visible = 'off'; legend off;
Как вы видите, выходные параметры функции rnaplot
включают структуру MATLAB® H
, состоящий из указателей, которые могут использоваться, чтобы изменить свойства аспекта различных подмножеств остатка. Например, если вы устанавливаете цветовую схему с помощью набора свойств colorby
для residue
, точки окрашены согласно типу остатка, и можно изменить их свойство с помощью соответствующего указателя.
[ha, H] = rnaplot(phe_str, 'sequence', phe_seq, 'format', 'circle', 'colorby', 'residue')
ha = Axes (Bioinfo:rnaplot:circle) with properties: XLim: [-1 1] YLim: [-1 1.1000] XScale: 'linear' YScale: 'linear' GridLineStyle: '-' Position: [0.1156 0.1100 0.6891 0.8150] Units: 'normalized' Use GET to show all properties H = struct with fields: A: [1x1 Line] C: [1x1 Line] G: [1x1 Line] U: [1x1 Line] Selected: [0x1 Line]
H.G.Color = [0.5 0.5 0.5]; H.G.Marker = '*'; H.C.Color = [0.5 0.5 0.5]; H.C.Marker = '+';
Несмотря на некоторые различия в их первичных последовательностях, молекулы тРНК представляют вторичный шаблон структуры, который хорошо сохраняется через три филогенетических области. Рассмотрите структуру тРНК-Phe одного представительного организма для каждой филогенетической области: Saccharomyces cerevisiae для Эукариотов, Haloarcula marismortui для Archaea и Thermus термофильный для Бактерий. Затем предскажите и постройте их вторичные структуры с помощью горного представления графика.
yeast = 'GCGGACUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGGAGGUCCUGUGUUCGAUCCACAGAGUUCGCACCA'; halma = 'GCCGCCUUAGCUCAGACUGGGAGAGCACUCGACUGAAGAUCGAGCUGUCCCCGGUUCAAAUCCGGGAGGCGGCACCA'; theth = 'GCCGAGGUAGCUCAGUUGGUAGAGCAUGCGACUGAAAAUCGCAGUGUCGGCGGUUCGAUUCCGCCCCUCGGCACCA'; yeast_str = rnafold(yeast); theth_str = rnafold(theth); halma_str = rnafold(halma); h1 = rnaplot(yeast_str, 'sequence', yeast, 'format', 'mountain'); title(h1, 'tRNA-Phe Saccharomyces cerevisiae'); legend hide; h2 = rnaplot(halma_str, 'sequence', halma, 'format', 'mountain'); title(h2, 'tRNA-Phe Haloarcula marismortui'); legend hide; h3 = rnaplot(theth_str, 'sequence', theth, 'format', 'mountain'); title(h3, 'tRNA-Phe Thermus thermophilus'); legend hide;
Подобие среди получившихся структур поразительно, единственная разница, являющаяся одним дополнительным остатком в D-цикле Haloarcula marismortui, отображенного в первом плоском наклоне в горном графике.
Помимо пар оснований Watson-растяжения-мышц (A-U, G-C), фактически каждый класс функционального RNA представляет пары оснований колебания G-U. Пары G-U имеют массив отличительных химических, структурных и конформационных свойств: у них есть высокое сродство к металлическим ионам, они почти термодинамически так же стабильны как пары оснований Watson-растяжения-мышц, и они представляют конформационную гибкость различным средам. Пара колебания в третьем положении акцепторной спирали тРНК очень высоко сохраняется почти во всех организмах. Это сохранение предполагает, что пара G-U обладает уникальными функциями, которые могут едва быть дублированы другими парами. Можно наблюдать распределение типа пары оснований относительно вторичной схемы структуры путем окраски пар оснований согласно их типу.
rnaplot(yeast_str, 'sequence', yeast, 'format', 'diagram', 'colorby', 'pair');
[1] Мэтьюс, D., Сабина, J., Zuker, M. и Токарь, D. "Расширенная зависимость последовательности термодинамических параметров улучшает прогноз RNA вторичная структура", Журнал Молекулярной биологии, 288 (5):911-40, 1999.