Создайте CufflinksOptions
объект, чтобы задать опции запонки, такие как количество параллельных нитей и выхода директории для хранения результатов.
Файлы, предоставленные для этого примера, содержат выровненные показания для Mycoplasma pneumoniae из двух выборок с тремя повторениями каждый. Считывания моделируются 100bp-считывания для двух генов (gyrA
и gyrB
) расположены рядом друг с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется cufflinks
.
Соберите транскриптом из выровненных показаний.
gtfs
представляет собой список файлов GTF, которые содержат собранные изоформы.
Сравнение собранных изоформ с помощью cuffcompare
.
Объедините собранные транскрипты с помощью cuffmerge
.
mergedGTF
сообщает только один транскрипт. Это потому, что два интересующих гена расположены рядом друг с другом, и cuffmerge
не может различать два разных гена. Вести cuffmerge
, используйте ссылку GTF (gyrAB.gtf
) содержащая информацию об этих двух генах. Если файл расположен не в той же директории, который вы запускаете cuffmerge
от, вы также должны задать путь к файлу.
Вычислите изобилие (уровни выражения) из выровненных показаний для каждой выборки.
Оцените значимость изменений экспрессии для генов и транскриптов между условиями, выполнив дифференциальную проверку с использованием cuffdiff
. cuffdiff
функция действует в двух разных шагах: функция сначала оценивает изобилие по выровненным чтениям, а затем выполняет статистический анализ. В некоторых случаях (для примера, распределение вычислительной нагрузки между несколькими работниками), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant
, можно затем использовать двоичный выходной файл CXB в качестве входов для cuffdiff
для выполнения статистического анализа. Поскольку cuffdiff
возвращает несколько файлов, задает рекомендуемую выходную директорию.
Отобразите таблицу, содержащую результаты дифференциального экспрессионного теста для этих двух генов gyrB
и gyrA
.
ans =
2×14 table
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant
________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________
'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes'
'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Вы можете использовать cuffnorm
чтобы сгенерировать нормированные таблицы выражений для последующих анализов. cuffnorm
результаты полезны, когда у вас есть много выборки, и вы хотите объединить их или построить уровни экспрессии для генов, которые важны в вашем исследовании. Обратите внимание, что вы не можете выполнить дифференциальный анализ выражения, используя cuffnorm
.
Задайте массив ячеек, где каждый элемент является строковым вектором, содержащим имена файлов для одной выборки с репликами.
Отобразите таблицу, содержащую нормированные уровни выражения для каждого транскрипта.
ans =
2×7 table
tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2
________________ __________ __________ __________ __________ __________ __________
'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05
'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов, начинающиеся с q, имеют формат conditionX_N, указывающий, что столбец содержит значения для репликации N conditionX.