cuffcompare

Сравните собранные расшифровки стенограммы через несколько экспериментов

Описание

пример

statsFile = cuffcompare(gtfFiles) сравнивает собранные расшифровки стенограммы в gtfFiles и возвращает итоговую статистику в выходном файле statsFile [1].

cuffcompare требует Пакета поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Примечание

cuffcompare поддерживается на Mac и UNIX® платформы только.

statsFile = cuffcompare(gtfFiles,compareOptions) дополнительные опции использования заданы compareOptions.

statsFile = cuffcompare(gtfFiles,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, statsFile = cuffcompare(gtfFile,'OutputPrefix',"cuffComp") добавляет префиксный "cuffComp" к именам выходного файла.

[statsFile,combinedGTF,lociFile,trackingFile] = cuffcompare(___) возвращает имена выходных файлов с помощью любой из комбинаций входных аргументов в предыдущих синтаксисах. По умолчанию функция сохранила все файлы к текущему каталогу.

Примеры

свернуть все

Создайте CufflinksOptions объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.

cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";

Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.

sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",...
        "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];

Соберите транскриптом от выровненных чтений.

[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);

gtfs список файлов GTF, которые содержат собранные изоформы.

Сравните собранное использование изоформ cuffcompare.

stats = cuffcompare(gtfs);

Объедините собранное использование расшифровок стенограммы cuffmerge.

mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');

mergedGTF отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge не может отличить два отличных гена. Вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge от, необходимо также задать путь к файлу.

gyrAB = which('gyrAB.gtf');
mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',...
			'ReferenceGTF',gyrAB);

Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.

abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                        'OutputDirectory','./cuffquantOutput1');
abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],...
                        'OutputDirectory','./cuffquantOutput2');

Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff. cuffdiff функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff выполнять статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.

isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],...
                      'OutputDirectory','./cuffdiffOutput');

Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.

readtable(isoformDiff,'FileType','text')
ans =

  2×14 table

        test_id            gene_id        gene              locus             sample_1    sample_2    status     value_1       value_2      log2_fold_change_    test_stat    p_value    q_value    significant
    ________________    _____________    ______    _______________________    ________    ________    ______    __________    __________    _________________    _________    _______    _______    ___________

    'TCONS_00000001'    'XLOC_000001'    'gyrB'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     1.0913e+05    4.2228e+05          1.9522           7.8886      5e-05      5e-05        'yes'   
    'TCONS_00000002'    'XLOC_000001'    'gyrA'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     3.5158e+05    1.1546e+05         -1.6064          -7.3811      5e-05      5e-05        'yes'   

Можно использовать cuffnorm сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm.

Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.

alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                  ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
                      'OutputDirectory', './cuffnormOutput');

Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.

readtable(isoformNorm,'FileType','text')
ans =

  2×7 table

      tracking_id          q1_0          q1_2          q1_1          q2_1          q2_0          q2_2   
    ________________    __________    __________    __________    __________    __________    __________

    'TCONS_00000001'    1.0913e+05         78628    1.2132e+05    4.3639e+05    4.2228e+05    4.2814e+05
    'TCONS_00000002'    3.5158e+05    3.7458e+05    3.4238e+05    1.0483e+05    1.1546e+05    1.1105e+05

Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.

Входные параметры

свернуть все

Имена файлов GTF в виде вектора строки или массива ячеек из символьных векторов. Каждый файл GTF соответствует выборке, произведенной cufflinks.

Пример: ["Myco_1_1.transcripts.gtf","Myco_2_1.transcripts.gtf"]

Типы данных: string | cell

cuffcompare опции в виде CuffCompareOptions объект, вектор символов или строка. Вектор символов или строка должны быть в оригинале cuffcompare синтаксис опции (снабженный префиксом одним или двумя тире), такими как '-d 100 -e 80' [1].

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: statsFile = cuffcompare(gtfFile,'OutputPrefix',"cuffComp",'MaxGroupingRange',90)

Префикс для расшифровки стенограммы согласия называет в выходе combined.gtf файл в виде строки или вектора символов. Эта опция должна быть строкой или вектором символов с ненулевой длиной.

Пример: 'ConsensusPrefix',"consensusTs"

Типы данных: char | string

Отметьте, чтобы проигнорировать избыточный интроном transfrags, если у них есть те же 5' концов, но различные 3' конца в виде true или false.

Пример: 'DiscardIntronRedundant',true

Типы данных: логический

Отметьте, чтобы отбросить одно экзон transfrags и ссылочные расшифровки стенограммы в виде true или false.

Пример: 'DiscardSingleExonAll',true

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы ссылки одно экзона в виде true или false.

Пример: 'DiscardSingleExonReference',true

Типы данных: логический

Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующего MATLAB® свойства.

Пример: 'ExtraCommand',"--library-type fr-secondstrand"

Типы данных: char | string

Имя текстового файла, содержащего список файлов GTF к процессу в виде строки или вектора символов. Файл должен содержать один путь к файлу GTF на строку. Можно использовать эту опцию в качестве альтернативы передаче массива имен файлов к cuffcompare.

Пример: 'GTFManifest',"gtfManifestFile.txt"

Типы данных: char | string

Отметьте, чтобы обработать файлы входа GTF как файлы GFF в виде true или false. Используйте эту опцию, когда файлы входа GFF или GTF не будут произведены cufflinks.

Пример: 'GenericGFF',true

Типы данных: логический

Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Примечание

Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: логический

Отметьте, чтобы включать transfrags, содержавший в другом transfrags в том же местоположении в выходе combined.gtfВ виде true или false. По умолчанию, cuffcompare не включает они содержали transfrags. Если значением является true, содержавшие transfrags включают contained_in атрибут, указывающий на первый контейнер transfrag найденный.

Пример: 'IncludeContained',true

Типы данных: логический

Количество основ от свободных концов терминальных экзонов, чтобы использовать при оценке точности экзона в виде положительного целого числа.

Пример: 'MaxAccuracyRange',80

Типы данных: double

Количество основ, чтобы использовать для группировки расшифровки стенограммы создает сайты в виде положительного целого числа.

Пример: 'MaxGroupingRange',90

Типы данных: double

Префикс для cuffcompare выходные файлы в виде строки или вектора символов. Эта опция должна быть строкой или вектором символов с ненулевой длиной.

Пример: 'OutputPrefix',"cuffcompareOut"

Типы данных: char | string

Имя GTF или файла GFF, содержащего ссылочные расшифровки стенограммы, чтобы выдержать сравнение с каждой выборкой в виде строки или вектора символов. Если вы обеспечиваете файл, функция сравнивает каждую выборку со ссылками в файле и отмечает изоформы как overlapping, matching, или novel. Функция хранит эти теги в выходных файлах .refmap и .tmap файлы.

Пример: 'ReferenceGTF',"references.gtf"

Типы данных: char | string

Имя директории, содержащей последовательности FASTA, чтобы классифицировать входные расшифровки стенограммы как повторения в виде строки или вектора символов. Директория должна содержать FASTA-файлы-формата с базовыми геномными последовательностями и содержать один файл FASTA на ссылку. Назовите каждый файл FASTA в честь хромосомы с дополнительным .fa или .fasta.

Пример: 'SequenceDirectory',"./SequenceDirectory/"

Типы данных: char | string

Отметьте, чтобы рассмотреть только ссылочные расшифровки стенограммы, которые перекрываются с любым входом transfrags в виде true или false. Если значением является true:

  • Функция игнорирует любые ссылочные расшифровки стенограммы, которые не перекрываются ни с одним входом transfrags.

  • Необходимо также задать ReferenceGTF опция.

Пример: 'SnCorrection',true

Типы данных: логический

Отметьте, чтобы рассмотреть только входные расшифровки стенограммы, которые перекрываются с любой из ссылочных расшифровок стенограммы в виде true или false. Если значением является true:

  • Функция игнорирует любые входные расшифровки стенограммы, которые не перекрываются ни с одной из ссылочных расшифровок стенограммы, и не сообщает ни о каких новых местах.

  • Необходимо также задать ReferenceGTF опция.

Пример: 'SpCorrection',true

Типы данных: логический

Отметьте, чтобы предотвратить создание .tmap и .refmap файлы в виде true или false. Установите значение к true препятствовать тому, чтобы функция генерировала файлы.

Пример: 'SuppressMapFiles',true

Типы данных: логический

Выходные аргументы

свернуть все

Имя текстового файла, содержащего статистику, связанную с точностью расшифровок стенограммы в каждой выборке, возвращенной как строка. Функция выполняет тесты для чувствительности (Sn) и специфики (SP) на различных уровнях, включая нуклеотид, экзон и уровни интрона, и сообщает о результатах в этом файле.

Именем файла по умолчанию является "cuffcmp.stats". Если вы задаете OutputPrefix, функция использует его вместо "cuffcmp".

Имя файла, содержащего объединение всего transfrags в каждой выборке, возвращенной как строка.

Именем файла по умолчанию является "cuffcmp.combined.gtf". Если вы задаете OutputPrefix, функция использует его вместо "cuffcmp".

Имя файла со всеми обработанными местами через все расшифровки стенограммы, возвращенные как строка.

Именем файла по умолчанию является "cuffcmp.loci". Если вы задаете OutputPrefix, функция использует его вместо "cuffcmp".

Имя файла, содержащего расшифровки стенограммы с идентичными координатами, интронами, и скрутками, возвратилось как строка.

Именем файла по умолчанию является "cuffcmp.tracking". Если вы задаете OutputPrefix, функция использует его вместо "cuffcmp".

Ссылки

[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15.

Введенный в R2019a