Объедините блоки RNA-seq
слияния собрали транскриптом из двух или больше файлов GTF [1]. Слияние файлов GTF является необходимым шагом, чтобы выполнить нисходящий дифференциальный анализ с mergedGTF = cuffmerge(gtfFiles)cuffdiff.
cuffmerge требует Python® 2 установленных в вашей системе.
cuffmerge требует Пакета поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.
Примечание
cuffmerge поддерживается на Mac и UNIX® платформы только.
дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, mergedGTF = cuffmerge(gtfFiles,Name,Value)cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5) задает, чтобы использовать пять параллельных потоков.
Создайте CufflinksOptions объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом от выровненных чтений.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs список файлов GTF, которые содержат собранные изоформы.
Сравните собранное использование изоформ cuffcompare.
stats = cuffcompare(gtfs);
Объедините собранное использование расшифровок стенограммы cuffmerge.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge не может отличить два отличных гена. Вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge от, необходимо также задать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff. cuffdiff функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff выполнять статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.
readtable(isoformDiff,'FileType','text')
ans =
2×14 table
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant
________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________
'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes'
'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Можно использовать cuffnorm сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm.
Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
'OutputDirectory', './cuffnormOutput');
Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.
readtable(isoformNorm,'FileType','text')
ans =
2×7 table
tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2
________________ __________ __________ __________ __________ __________ __________
'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05
'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.
gtfFiles — Имена файлов GTFИмена файлов GTF в виде вектора строки или массива ячеек из символьных векторов.
Пример: ["Myco_1_1.transcripts.gtf", "Myco_1_2.transcripts.gtf"]
Типы данных: string | cell
opt — cuffgffread опцииCuffMergeOptions возразите | строка | вектор символовcuffgffread опции в виде CuffMergeOptions объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале cuffmerge синтаксис опции (снабженный префиксом одним или двумя тире) [1].
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5)ExtraCommand — Дополнительные команды"" (значение по умолчанию) | представляет в виде строки | вектор символовКоманды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующего MATLAB® свойства.
Пример: 'ExtraCommand','--library-type fr-secondstrand'
Типы данных: char | string
IncludeAll — Отметьте, чтобы применить все доступные параметрыfalse (значение по умолчанию) | trueИсходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.
Примечание
Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: логический
MinIsoformFraction — Минимальная распространенность изоформы, которая будет включена в объединенный блок (значение по умолчанию) | скаляр между 0 и 1Минимальная распространенность изоформы, которая будет включена в объединенный блок в виде скаляра между 0 и 1. Это значение описывается как процент самой богатой (главной) изоформы.
Пример:
'MinIsoformFraction',0.4
Типы данных: double
NumThreads — Количество параллельных потоков, чтобы использовать (значение по умолчанию) | положительное целое числоКоличество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.
Пример: 'NumThreads',4
Типы данных: double
OutputDirectory — Директория, чтобы сохранить результаты анализаcurrentDirectory) (значение по умолчанию) | представляет в виде строки | вектор символовДиректория, чтобы сохранить результаты анализа в виде строки или вектора символов.
Пример: 'OutputDirectory',"./AnalysisResults/"
Типы данных: char | string
ReferenceGTF — Имя дополнительного ссылочного файла GTF аннотацииИмя дополнительного ссылочного файла GTF аннотации, который будет включен в объединенный блок в виде строки или вектора символов.
Пример: 'ReferenceGTF',"ref.gtf"
Типы данных: char | string
ReferenceSequence — Имя директории или файла FASTA, содержащего геномные последовательностиИмя директории или файла FASTA, содержащего геномные последовательности ДНК для ссылки в виде строки или вектора символов.
Если вы задаете директорию, она должна содержать один файл FASTA на контиг. Другими словами, директория должна содержать один файл FASTA на ссылочную хромосому, и каждый файл нужно назвать в честь хромосомы и иметь .fa или .fasta расширение.
Если вы задаете файл FASTA, он должен содержать все ссылочные последовательности.
Функция использует обеспеченные последовательности, чтобы улучшить transfrag классификацию и исключить артефакты.
Пример:
'ReferenceSequence',"allrefs.fasta"
Типы данных: char | string
mergedGTF — Имя файла выхода GTF"./merged_asm/merged.gtf"Имя файла выхода GTF, содержащего объединенный транскриптом, возвращенный как строка.
Выводимая строка также включает информацию о директории, заданную OutputDirectory. По умолчанию, функция
Создает merged_asm подпапку в текущем каталоге и сохраняет выходной файл (merged.gtf) в той папке.
Создает подпапку, названную журналами внутри merged_asm папка, и сохраняет файл журнала.
Если вы устанавливаете OutputDirectory к "/local/tmp/", mergedGTF становится "/local/tmp/merged.gtf". Функция также создает логарифмическую папку в заданной выходной директории.
[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.