Визуализация данных NGS с помощью приложения Genomics Viewer

Приложение Genomics Viewer позволяет вам просматривать и исследовать интегрированные геномные данные со встроенной версией [1][2] Integrative Genomics Viewer (IGV). Геномные данные включают выравнивания чтения NGS, варианты генома и сегментированные данные о числе копий.

Первая часть этого примера дает краткий обзор приложения и поддерживаемых файловых форматов. Вторая часть примера исследует один нуклеотид, изменение в гене цитохрома p450 (CYP2C19).

Откройте приложение

В командной строке введите genomicsViewer. Также щелкните значок приложения на вкладке Apps. Приложение требует подключения к Интернету.

По умолчанию приложение загружает Human (GRCh38/hg38) в качестве ссылочной последовательности и Refseq Genes в качестве файла аннотации. В приложении есть две основные панели. Левая панель - это Tracks панель, а правая - это встроенное веб-приложение IGV. Панель Tracks является областью, доступной только для чтения, где отображаются имена дорожек, имена исходных файлов и типы дорожек. Панель Tracks обновляется соответствующим образом, когда вы конфигурируете дорожки во встроенном приложении IGV.

Default view of the Genomics Viewer app. The toolstrip is at the top. The Tracks Panel is on the left. The embedded integrative genomics viewer IGV is on the right.

Кнопка Reset восстанавливает приложение до представления по умолчанию с двумя треками (HG38 с Refseq Genes) и удаляет любые другие существующие трекы. Перед сбросом можно сохранить текущее представление как сеанс (.json) файл и восстановить его позже.

Добавление треков путем импорта данных

Импортируйте ссылочную последовательность

Можно импортировать одну ссылочную последовательность. Ссылочная последовательность должна быть в файле FASTA. Выберите Import Reference на вкладке Home. Можно также импортировать соответствующий файл цитобанда, который содержит цитогенетические данные G-banding. Можно добавить локальные файлы или задать внешние URL-адреса. URL-адрес должен начинаться с https или gs. Другие протоколы передачи файлов, такие как ftp, не поддерживаются.

Импортируйте данные последовательности чтения выравнивания

Можно импортировать несколько наборов данных последовательности считанных данных выравнивания. Данные выравнивания должны быть файлом BAM или CRAM. Не обязательно, чтобы у вас был соответствующий файл индекса (.BAI или .CRAI) в том же месте, что и ваш файл BAM или CRAM. Однако отсутствие индексного файла сделает приложение медленнее.

Вы можете добавить чтение файлов выравнивания с помощью Add tracks from file и Add tracks from URL опций из кнопки Add tracks. Если вы задаете URL-адрес, URL-адрес должен начинаться с https или gs. Другие протоколы передачи файлов, такие как ftp, не поддерживаются.

Импорт аннотаций функций и других геномных данных

Можно импортировать несколько наборов функции аннотаций из нескольких файлов, которые содержат данные для одной последовательности ссылки. Поддерживаемые файлы аннотаций: .BED, .GFF, .GFF3, и .GTF.

Можно также импортировать структурные варианты (.VCF) и визуализировать генетические изменения, такие как вставки и удаления.

Можно просмотреть сегментированные данные о номере копирования (.SEG) и количественные геномные данные (.WIG, .BIGWIG, и .BEDGRAPH), такие как достигать максимума ChIP и покрытие выравнивания.

Вы можете добавить файлы аннотаций и геномных данных с помощью < reservedrangesplaceholder5 > и < reservedrangesplaceholder4 > опций от кнопки Add tracks. Если вы задаете URL-адрес, URL-адрес должен начинаться с https или gs. Другие протоколы передачи файлов, такие как FTP, не поддерживаются.

Визуализация одиночных нуклеотидных Изменений в цитохромных P450

Ген CYP2C19 является представителем семейства генов цитохромных P450. Ферменты, полученные из генов цитохромных P450, участвуют в метаболизме различных молекул и химических веществ в камерах. Фермент CYP2C19 играет роль в метаболизации по меньшей мере 10 процентов обычно назначаемых лекарств [3]. Полиморфизмы в семействе цитохрома p450 могут вызывать неблагоприятные лекарственные реакции у индивидуумов. Одним из примеров изменения одного нуклеотида является rs4986893 в положении chr10:94,780,653 где G заменяется на A. Этот аллельный вариант также известен как CYP2C19*3. Следующие шаги показывают, как визуализировать такие изменения в приложении, используя как низкое покрытие, так и высокие данные покрытия.

Загрузка файла сеанса

В целях этого примера начните с файла сеанса с некоторыми предварительно загруженными треками. Чтобы загрузить файл, нажмите Open. Переход к matlabroot\examples\bioinfo\, где matlabroot - папка, в которой вы установили MATLAB®. Выберите rs4986893.json.

The tracks panel has three tracks, namely, hg38.fa sequence, NA18564 alignment data, and refseq genes annotation. The IGV shows the aligned reads graphically.

Сеанс содержит три трека:

  • Human (GRCh38/hg38) как ссылка

  • NA18564 как данные выравнивания с низким покрытием

  • Гены Refseq

Низкие данные о выравнивании покрытия получены от женщины Хань Китай из Пекина, Китай. Идентификатор образца NA18564, и выборка идентифицирован с мутацией CYP2C19*3 [4].

Исследуйте данные с низким покрытием

В этом файле сеанса данные выравнивания были сосредоточены вокруг местоположения мутации на гене CYP2C19.

  1. Щелкните оранжевую полосу в зоне покрытия, чтобы просмотреть информацию о положении и распределении аллелей.

    Image of aligned reads with overlapping context menu in IGV. The context menu shows the counts of A, C, G, T, N.

    Это показывает, что 71% чтений имеют G, в то время как 29% имеют A в chr10:94,780,653 местоположения. Эти данные являются данными с низким покрытием и могут не показать всех вхождений этой мутации. Более высокие данные о покрытии будут исследованы позже в этом примере.

    Закройте окно всплывающих подсказок.

  2. Можно настроить различные аспекты отображения данных в приложении. Например, можно изменить высоту дорожки, чтобы освободить место для последующих дорожек. Щелкните значок второй передачи. Выберите Set track height. Введите 200.

    Image of the context menu. It has various options to change the appearance of the track, such as track color, track name, and track height.

    Для получения дополнительной информации о встроенном приложении IGV и его доступных опциях, посетите здесь.

Исследуйте данные с высоким покрытием

Можно посмотреть на данные о высоком покрытии из той же выборки, чтобы увидеть вхождения этой мутации.

  1. Перейдите на веб-сайт The International Genome Sample Resource.

  2. Поиск выборки NA18564.

  3. Загрузите файл выравнивания Exome, который находится в .CRAM формат.

  4. Также загрузите соответствующий индексный файл, который находится в .CRAI формат. Сохраните файл в том же месте, что и исходный .CRAM файл.

  5. Щелкните значок (+) на вкладке Home. Выберите загруженную .CRAM Файл и нажатие кнопки Open.

    The tracks panel now shows the fourth track for the alignment data that was loaded. IGV also shows the additional track for the added alignment data.

    Данные о высоком покрытии выглядят как трек3. Теперь вы можете увидеть много вхождения мутации в нескольких чтениях.

  6. Щелкните оранжевую полосу в зоне покрытия, чтобы увидеть распределение аллелей. Это показывает, что G заменяется на A почти за 50% времени.

    Image of the context menu which shows the counts for A, C, G, T, and N. The counts for A is 79 (49%) and the counts for G is 82 (51%). Other counts are zero.

Ссылки

[1] Robinson, J., H. Thorvaldsdóttir, W. Wincler, M. Guttman, E. Lander, G. Getz, J. Mesirov. 2011. Integrative Genomics Viewer. Биотехнология природы. 29:24–26.

[2] Thorvaldsdóttir, H., J. Robinson, J. Mesirov. 2013. Integrative Genomics Viewer (IGV): Высокопроизводительная визуализация и исследования данных геномики. Брифинги по биоинформатике. 14:178–192.

См. также

| |