Объедините блоки RNA-seq в основной транскриптом
слияния собрали транскриптом из двух или больше файлов GTF [1]. Слияние файлов GTF является необходимым шагом, чтобы выполнить нисходящий дифференциальный анализ с mergedGTF = cuffmerge(gtfFiles)cuffdiff.
cuffmerge требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.
cuffmerge поддерживается на Mac и платформах UNIX® только.
дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, mergedGTF = cuffmerge(gtfFiles,Name,Value)cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5) задает, чтобы использовать пять параллельных потоков.
Создайте CufflinksOptions объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом от выровненных чтений.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs список файлов GTF, которые содержат собранные изоформы.
Сравните собранные изоформы с помощью cuffcompare.
stats = cuffcompare(gtfs);
Объедините собранные расшифровки стенограммы с помощью cuffmerge.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом и cuffmerge не может отличить два отличных гена. Вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf) содержа информацию об этих двух генах. Если файл не расположен в той же директории, что вы запускаете cuffmerge от, необходимо также задать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения тестирования дифференциала с помощью cuffdiff. cuffdiff функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff выполнять статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.
readtable(isoformDiff,'FileType','text')
ans =
2×14 table
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant
________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________
'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes'
'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Можно использовать cuffnorm сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальный анализ выражения с помощью cuffnorm.
Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
'OutputDirectory', './cuffnormOutput');
Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.
readtable(isoformNorm,'FileType','text')
ans =
2×7 table
tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2
________________ __________ __________ __________ __________ __________ __________
'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05
'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.
gtfFiles — Имена файлов GTFИмена файлов GTF в виде вектора строки или массива ячеек из символьных векторов.
Пример: ["Myco_1_1.transcripts.gtf", "Myco_1_2.transcripts.gtf"]
Типы данных: string | cell
opt — cuffgffread опцииCuffMergeOptions возразите | строка | вектор символовcuffgffread опции в виде CuffMergeOptions объект, строка или вектор символов. Строка или вектор символов должны быть в исходном cuffmerge синтаксис опции (снабженный префиксом одним или двумя тире) [1].
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
cuffmerge(["Myco_1_1.transcripts.gtf","Myco_1_2.transcripts.gtf"],'NumThreads',5)'ExtraCommand' — Дополнительные команды"" (значение по умолчанию) | представляет в виде строки | вектор символовДополнительные команды в виде строки или вектора символов. Команды должны быть в исходном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB. Когда функция преобразует исходные флаги в свойства MATLAB, она хранит любые нераспознанные флаги в этой опции.
Пример: 'ExtraCommand','--library-type fr-secondstrand'
Типы данных: char | string
'IncludeAll' — Отметьте, чтобы применить все доступные параметрыfalse (значение по умолчанию) | trueОтметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций в виде true или false. Исходный синтаксис снабжается префиксом одним или двумя тире, такими как '-d 100 -e 80'. По умолчанию функция преобразует только заданные опции. Если значением является true, функция преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.
Пример: 'IncludeAll',true
Типы данных: логический
'MinIsoformFraction' — Минимальная распространенность изоформы, которая будет включена в объединенный блок (значение по умолчанию) | скаляр между 0 и 1Минимальная распространенность изоформы, которая будет включена в объединенный блок в виде скаляра между 0 и 1. Это значение выражается как процент самой богатой (главной) изоформы.
Пример:
'MinIsoformFraction',0.4
Типы данных: double
'NumThreads' — Количество параллельных потоков, чтобы использовать (значение по умолчанию) | положительное целое числоКоличество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.
Пример: 'NumThreads',4
Типы данных: double
'OutputDirectory' — Директория, чтобы сохранить результаты анализаcurrentDirectory) (значение по умолчанию) | представляет в виде строки | вектор символовДиректория, чтобы сохранить результаты анализа в виде строки или вектора символов.
Пример: 'OutputDirectory',"./AnalysisResults/"
Типы данных: char | string
'ReferenceGTF' — Имя дополнительного ссылочного файла GTF аннотацииИмя дополнительного ссылочного файла GTF аннотации, который будет включен в объединенный блок в виде строки или вектора символов.
Пример: 'ReferenceGTF',"ref.gtf"
Типы данных: char | string
'ReferenceSequence' — Имя директории или файла FASTA, содержащего геномные последовательностиИмя директории или файла FASTA, содержащего геномные последовательности ДНК для ссылки в виде строки или вектора символов.
Если вы задаете директорию, она должна содержать один файл FASTA на контиг. Другими словами, директория должна содержать один файл FASTA на ссылочную хромосому, и каждый файл нужно назвать в честь хромосомы и иметь .fa или .fasta расширение.
Если вы задаете файл FASTA, он должен содержать все ссылочные последовательности.
Функция использует обеспеченные последовательности, чтобы улучшить transfrag классификацию и исключить артефакты.
Пример:
'ReferenceSequence',"allrefs.fasta"
Типы данных: char | string
mergedGTF — Имя файла выхода GTF"./merged_asm/merged.gtf"Имя файла выхода GTF, содержащего объединенный транскриптом, возвращенный как строка.
Выводимая строка также включает информацию о директории, заданную OutputDirectory. По умолчанию, функция
Создает merged_asm подпапку в текущем каталоге и сохраняет выходной файл (merged.gtf) в той папке.
Создает подпапку, названную журналами внутри merged_asm папка, и сохраняет файл журнала.
Если вы устанавливаете OutputDirectory к "/local/tmp/", mergedGTF становится "/local/tmp/merged.gtf". Функция также создает логарифмическую папку в заданной выходной директории.
[1] Trapnell, C., Б. Уильямс, Г. Пертеа, А. Мортэзэви, Г. Кван, Дж. ван Бэрен, С. Залцберг, B. Пустошь и Л. Пэчтер. 2010. Блок расшифровки стенограммы и квантификация RNA-Seq показывают неаннотируемые расшифровки стенограммы и изоформу, переключающуюся во время клеточной дифференцировки. Биотехнология природы. 28:511–515.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.