cuffmerge

Объедините блоки RNA-seq в основной транскриптом

Синтаксис

mergedGTF = cuffmerge(gtfFiles)
mergedGTF = cuffmerge(gtfFiles,opt)
mergedGTF = cuffmerge(gtfFiles,Name,Value)

Описание

пример

mergedGTF = cuffmerge(gtfFiles) слияния собрали транскриптом из двух или больше файлов GTF [1]. Слияние файлов GTF является необходимым шагом, чтобы выполнить нисходящий дифференциальный анализ с cuffdiff.

cuffmerge требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.

Примечание

cuffmerge поддерживается на Mac и платформах UNIX® только.

mergedGTF = cuffmerge(gtfFiles,opt) дополнительные опции использования заданы opt.

mergedGTF = cuffmerge(gtfFiles,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5) задает, чтобы использовать пять параллельных потоков.

Примеры

свернуть все

Создайте объект CufflinksOptions задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.

cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";

Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения моделируются 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.

sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",...
        "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];

Соберите транскриптом от выровненных чтений.

[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);

gtfs является списком файлов GTF, которые содержат собранные изоформы.

Сравните собранные изоформы с помощью cuffcompare.

stats = cuffcompare(gtfs);

Объедините собранные расшифровки стенограммы с помощью cuffmerge.

mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');

mergedGTF сообщает о только одной расшифровке стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge не может отличить два отличных гена. Чтобы вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf), содержащий информацию об этих двух генах. Если файл не расположен в той же директории, от которой вы запускаете cuffmerge, необходимо также задать путь к файлу.

gyrAB = which('gyrAB.gtf');
mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',...
			'ReferenceGTF',gyrAB);

Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.

abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                        'OutputDirectory','./cuffquantOutput1');
abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],...
                        'OutputDirectory','./cuffquantOutput2');

Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения тестирования дифференциала с помощью cuffdiff. Функция cuffdiff действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff, чтобы выполнить статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.

isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],...
                      'OutputDirectory','./cuffdiffOutput');

Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.

readtable(isoformDiff,'FileType','text')
ans =

  2×14 table

        test_id            gene_id        gene              locus             sample_1    sample_2    status     value_1       value_2      log2_fold_change_    test_stat    p_value    q_value    significant
    ________________    _____________    ______    _______________________    ________    ________    ______    __________    __________    _________________    _________    _______    _______    ___________

    'TCONS_00000001'    'XLOC_000001'    'gyrB'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     1.0913e+05    4.2228e+05          1.9522           7.8886      5e-05      5e-05        'yes'   
    'TCONS_00000002'    'XLOC_000001'    'gyrA'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     3.5158e+05    1.1546e+05         -1.6064          -7.3811      5e-05      5e-05        'yes'   

Можно использовать cuffnorm, чтобы сгенерировать нормированные таблицы выражения для последующих анализов. результаты cuffnorm полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальный анализ выражения с помощью cuffnorm.

Задайте массив ячеек, где каждый элемент является вектором строки, содержащим имена файлов для одной выборки с, реплицирует.

alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                  ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
                      'OutputDirectory', './cuffnormOutput');

Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.

readtable(isoformNorm,'FileType','text')
ans =

  2×7 table

      tracking_id          q1_0          q1_2          q1_1          q2_1          q2_0          q2_2   
    ________________    __________    __________    __________    __________    __________    __________

    'TCONS_00000001'    1.0913e+05         78628    1.2132e+05    4.3639e+05    4.2228e+05    4.2814e+05
    'TCONS_00000002'    3.5158e+05    3.7458e+05    3.4238e+05    1.0483e+05    1.1546e+05    1.1105e+05

Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.

Входные параметры

свернуть все

Имена файлов GTF, заданных как вектор строки или массив ячеек из символьных векторов.

Пример: ["Myco_1_1.transcripts.gtf", "Myco_1_2.transcripts.gtf"]

Типы данных: string | cell

Опции cuffgffread, заданные как объект CuffMergeOptions, строка или вектор символов. Строка или вектор символов должны быть в исходном синтаксисе опции cuffmerge (снабжены префиксом одним или двумя тире) [1].

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5)

Дополнительные команды, заданные как строка или вектор символов. Команды должны быть в исходном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB. Когда функция преобразовывает исходные флаги в свойства MATLAB, она хранит любые нераспознанные флаги в этой опции.

Пример: 'ExtraCommand','--library-type fr-secondstrand'

Типы данных: char | string

Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций, заданный как true или false. Исходный синтаксис снабжается префиксом одним или двумя тире, такими как '-d 100 -e 80'. По умолчанию функция преобразовывает только заданные опции. Если значением является true, функция преобразовывает все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Пример: 'IncludeAll',true

Типы данных: логический

Минимальная распространенность изоформы, которая будет включена в объединенный блок, заданный как скаляр между 0 и 1. Это значение выражается как процент самой богатой (главной) изоформы.

Пример: 'MinIsoformFraction',0.4

Типы данных: double

Количество параллельных потоков, чтобы использовать, заданный как положительное целое число. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.

Пример: 'NumThreads',4

Типы данных: double

Директория, чтобы сохранить результаты анализа, заданные как строка или вектор символов.

Пример: 'OutputDirectory',"./AnalysisResults/"

Типы данных: char | string

Имя дополнительного ссылочного файла GTF аннотации, который будет включен в объединенный блок, заданный как строка или вектор символов.

Пример: 'ReferenceGTF',"ref.gtf"

Типы данных: char | string

Имя директории или файла FASTA, содержащего геномные последовательности DNA для ссылки, заданной как строка или вектор символов.

  • Если вы задаете директорию, она должна содержать один файл FASTA на контиг. Другими словами, директория должна содержать один файл FASTA на ссылочную хромосому, и каждый файл нужно назвать в честь хромосомы и иметь расширение .fasta или .fa.

  • Если вы задаете файл FASTA, он должен содержать все ссылочные последовательности.

Функция использует обеспеченные последовательности, чтобы улучшить transfrag классификацию и исключить артефакты.

Пример: 'ReferenceSequence',"allrefs.fasta"

Типы данных: char | string

Выходные аргументы

свернуть все

Имя файла вывода GTF, содержащего объединенный транскриптом, возвращенный как строка.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. По умолчанию, функция

  • Создает merged_asm подпапку в текущем каталоге и сохраняет выходной файл (merged.gtf) в той папке.

  • Создает подпапку, названную журналами внутри merged_asm папка, и сохраняет файл журнала.

Если вы устанавливаете OutputDirectory на "/local/tmp/", mergedGTF становится "/local/tmp/merged.gtf". Функция также создает логарифмическую папку в заданной выходной директории.

Ссылки

[1] Trapnell, C., Б. Уильямс, Г. Пертеа, А. Мортэзэви, Г. Кван, Дж. ван Бэрен, С. Залцберг, B. Пустошь и Л. Пэчтер. 2010. Блок расшифровки стенограммы и квантификация RNA-Seq показывают неаннотируемые расшифровки стенограммы и изоформу, переключающуюся во время клеточной дифференцировки. Биотехнология природы. 28:511–515.

Смотрите также

|

Внешние веб-сайты

Введенный в R2019a

Для просмотра документации необходимо авторизоваться на сайте