Создайте CufflinksOptions
объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.
Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA
и gyrB
) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks
.
Соберите транскриптом от выровненных чтений.
gtfs
список файлов GTF, которые содержат собранные изоформы.
Сравните собранное использование изоформ cuffcompare
.
Объедините собранное использование расшифровок стенограммы cuffmerge
.
mergedGTF
отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge
не может отличить два отличных гена. Вести cuffmerge
, используйте ссылочный GTF (gyrAB.gtf
) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge
от, необходимо также задать путь к файлу.
Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.
Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff
. cuffdiff
функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant
, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff
выполнять статистический анализ. Поскольку cuffdiff
возвращает несколько файлов, укажите, что выходная директория рекомендуется.
Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB
и gyrA
.
ans =
2×14 table
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant
________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________
'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes'
'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Можно использовать cuffnorm
сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm
результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm
.
Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.
Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.
ans =
2×7 table
tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2
________________ __________ __________ __________ __________ __________ __________
'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05
'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.