Сравнение собранных транскриптов в нескольких экспериментах
сравнивает собранные стенограммы в statsFile = cuffcompare(gtfFiles)gtfFiles и возвращает сводную статистику в выходной файл statsFile
[1].
cuffcompare требуется пакет поддержки «Запонки» для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.
Примечание
cuffcompare поддерживается только на платформах Mac и UNIX ®.
использует дополнительные параметры, указанные statsFile = cuffcompare(gtfFiles,compareOptions)compareOptions.
использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, statsFile = cuffcompare(gtfFiles,Name,Value)statsFile = cuffcompare(gtfFile,'OutputPrefix',"cuffComp") добавляет префикс "cuffComp" к именам выходных файлов.
[ возвращает имена выходных файлов, используя любую из комбинаций входных аргументов в предыдущих синтаксисах. По умолчанию функция сохраняет все файлы в текущей папке.statsFile,combinedGTF,lociFile,trackingFile] = cuffcompare(___)
Создать CufflinksOptions объект для определения параметров cfflinks, таких как количество параллельных потоков и папка вывода для хранения результатов.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";Файлы SAM, представленные в этом примере, содержат выровненные чтения для Mycoplasma pneumoniae из двух образцов с тремя репликациями каждый. Считывание моделируется 100 bp для двух генов (gyrA и gyrB) расположены рядом друг с другом на геноме. Все операции чтения сортируются по ссылочному положению, как требуется cufflinks.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом из выровненных считываний.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs - список GTF-файлов, содержащих собранные изоформы.
Сравнение собранных изоформ с помощью cuffcompare.
stats = cuffcompare(gtfs);
Объединить собранные стенограммы с помощью cuffmerge.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF сообщает только одну стенограмму. Это потому, что два интересующих гена расположены рядом друг с другом, и cuffmerge не может различить два различных гена. Вести cuffmerge, использовать эталонный GTF (gyrAB.gtf), содержащий информацию об этих двух генах. Если файл находится не в том же каталоге, в котором выполняется cuffmerge из, необходимо также указать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Рассчитайте плотность (уровни выражений) на основе выровненных чтений для каждого образца.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значимость изменений в экспрессии генов и транскриптов между состояниями, выполнив дифференциальное тестирование с использованием cuffdiff. cuffdiff функция работает в два отдельных шага: функция сначала оценивает изобилие из выровненных считываний, а затем выполняет статистический анализ. В некоторых случаях (например, распределение вычислительной нагрузки между несколькими работниками) выполнение этих двух шагов по отдельности является желательным. После выполнения первого шага с cuffquant, затем можно использовать двоичный выходной файл CXB в качестве входных данных для cuffdiff для выполнения статистического анализа. Поскольку cuffdiff возвращает несколько файлов, укажите рекомендуемый выходной каталог.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отображение таблицы, содержащей результаты теста дифференциальной экспрессии для двух генов gyrB и gyrA.
readtable(isoformDiff,'FileType','text')
ans =
2×14 table
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant
________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________
'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes'
'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Вы можете использовать cuffnorm для создания нормализованных таблиц выражений для дальнейшего анализа. cuffnorm результаты полезны, когда у вас есть много образцов, и вы хотите сгруппировать их или построить график уровней экспрессии для генов, которые важны в вашем исследовании. Обратите внимание, что невозможно выполнить дифференциальный анализ выражений с помощью cuffnorm.
Укажите массив ячеек, где каждый элемент является строковым вектором, содержащим имена файлов для одного образца с репликациями.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
'OutputDirectory', './cuffnormOutput');
Отображение таблицы, содержащей нормализованные уровни выражений для каждого транскрипта.
readtable(isoformNorm,'FileType','text')
ans =
2×7 table
tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2
________________ __________ __________ __________ __________ __________ __________
'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05
'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов, начинающиеся с q, имеют формат conditionX_N, указывающий, что столбец содержит значения для репликации N условия X.
gtfFiles - Имена файлов GTFИмена GTF-файлов, указанных как строковый вектор или массив ячеек символьных векторов. Каждый файл GTF соответствует образцу, полученному cufflinks.
Пример: ["Myco_1_1.transcripts.gtf","Myco_2_1.transcripts.gtf"]
Типы данных: string | cell
compareOptions — cuffcompare вариантыCuffCompareOptions объект | символьный вектор | строкаcuffcompare опции, указанные как CuffCompareOptions объект, символьный вектор или строка. Вектор или строка символа должны быть в оригинале cuffcompare синтаксис опции (префикс одним или двумя тире), например '-d 100 -e 80'
[1].
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
statsFile = cuffcompare(gtfFile,'OutputPrefix',"cuffComp",'MaxGroupingRange',90)'ConsensusPrefix' - Префикс для имен консенсусных стенограмм"TCONS" (по умолчанию) | строка | символьный векторПрефикс для имен консенсусных стенограмм в выходных данных combined.gtf , указанный как строковый или символьный вектор. Этот параметр должен быть строковым или символьным вектором с ненулевой длиной.
Пример: 'ConsensusPrefix',"consensusTs"
Типы данных: char | string
'DiscardIntronRedundant' - Флаг для игнорирования интрон-избыточных трансфраговfalse (по умолчанию) | trueФлаг для игнорирования интрон-избыточных трансфрагов, если они имеют одинаковые 5 '-концы, но разные 3' -концы, указанный как true или false.
Пример: 'DiscardIntronRedundant',true
Типы данных: logical
'DiscardSingleExonAll' - Флаг для отбрасывания одноэкзонных трансфрагов и эталонных транскриптовfalse (по умолчанию) | trueФлаг для отбрасывания одноэкзонных трансфрагов и эталонных транскриптов, указанных как true или false.
Пример: 'DiscardSingleExonAll',true
Типы данных: logical
'DiscardSingleExonReference' - Флаг для отбрасывания одноэкзональных эталонных транскриптовfalse (по умолчанию) | trueФлаг для отбрасывания одноэкзональных опорных транскриптов, указанный как true или false.
Пример: 'DiscardSingleExonReference',true
Типы данных: logical
'ExtraCommand' - Дополнительные команды"" (по умолчанию) | символьный вектор | строкаКоманды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ®.
Пример: 'ExtraCommand',"--library-type fr-secondstrand"
Типы данных: char | string
'GTFManifest' - Имя текстового файла, содержащего список файлов GTF для обработкиИмя текстового файла, содержащего список обрабатываемых GTF-файлов, указанный как строковый или символьный вектор. Файл должен содержать один путь к файлу GTF на строку. Этот параметр можно использовать в качестве альтернативы передаче массива имен файлов cuffcompare.
Пример: 'GTFManifest',"gtfManifestFile.txt"
Типы данных: char | string
'GenericGFF' - Флаг для обработки входных GTF-файлов как GFFfalse (по умолчанию) | trueФлаг для обработки входных GTF-файлов как GFF-файлов, указанный как true или false. Используйте эту опцию, когда входные файлы GFF или GTF не создаются cufflinks.
Пример: 'GenericGFF',true
Типы данных: logical
'IncludeAll' - Флажок для включения всех доступных опцийfalse (по умолчанию) | trueИсходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.
Примечание
Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: logical
'IncludeContained' - Флаг для включения трансфрагов, содержащихся в других трансфрагахfalse (по умолчанию) | trueФлаг для включения в выходные данные трансфрагов, содержащихся в других трансфрагах в том же локусе combined.gtf, указано как true или false. По умолчанию cuffcompare не включает эти содержащиеся трансфраги. Если значение равно true, содержащиеся трансфраги включают в себя contained_in атрибут, указывающий первую найденную передачу контейнера.
Пример:
'IncludeContained',true
Типы данных: logical
'MaxAccuracyRange' - Количество баз из терминальных экзонов для использования при оценке точности экзонов100 (по умолчанию) | положительное целое числоЧисло оснований из свободных концов концевых экзонов для использования при оценке точности экзонов, указанных как положительное целое число.
Пример:
'MaxAccuracyRange',80
Типы данных: double
'MaxGroupingRange' - Количество баз, используемых для группировки начальных участков стенограмм100 (по умолчанию) | положительное целое числоЧисло оснований, используемых для группировки начальных сайтов транскриптов, указанных как положительное целое число.
Пример:
'MaxGroupingRange',90
Типы данных: double
'OutputPrefix' - Префикс для cuffcompare выходные файлы"cuffcmp" (по умолчанию) | строка | символьный векторПрефикс для cuffcompare выходные файлы, указанные как строковый или символьный вектор. Этот параметр должен быть строковым или символьным вектором с ненулевой длиной.
Пример:
'OutputPrefix',"cuffcompareOut"
Типы данных: char | string
'ReferenceGTF' - Название файла GTF или GFF, содержащего справочные стенограммыИмя файла GTF или GFF, содержащего ссылочные транскрипты для сравнения с каждым образцом, указанным как строковый или символьный вектор. При предоставлении файла функция сравнивает каждый образец со ссылками в файле и помечает изоформы как overlapping, matching, или novel. Функция сохраняет эти теги в выходных файлах. .refmap и .tmap файлы.
Пример:
'ReferenceGTF',"references.gtf"
Типы данных: char | string
'SequenceDirectory' - Имя каталога, содержащего последовательности FASTA для классификации входных транскриптов как повторовИмя каталога, содержащего последовательности FASTA для классификации входных транскриптов как повторов, заданного как строковый или символьный вектор. Каталог должен содержать файлы формата FASTA с основными геномными последовательностями и один файл FASTA для каждой ссылки. Назовите каждый файл FASTA после хромосомы с расширением .fa или .fasta.
Пример: 'SequenceDirectory',"./SequenceDirectory/"
Типы данных: char | string
'SnCorrection' - Флаг для учета только эталонных транскриптов, которые перекрываются с входными трансфрагамиfalse (по умолчанию) | trueФлаг для учета только опорных транскриптов, которые перекрываются с любым из входных трансфрагов, указанных как true или false. Если значение равно true:
Функция игнорирует любые опорные транскрипты, которые не перекрываются ни с одной из входных трансфраг.
Необходимо также указать ReferenceGTF вариант.
Пример:
'SnCorrection',true
Типы данных: logical
'SpCorrection' - Флаг для учета только входных стенограмм, которые перекрываются с эталонными стенограммамиfalse (по умолчанию) | trueФлаг для учета только входных транскриптов, которые перекрываются с любым из опорных транскриптов, указанных как true или false. Если значение равно true:
Функция игнорирует любые входные транскрипты, которые не перекрываются ни с одним из эталонных транскриптов, и не сообщает о новых локусах.
Необходимо также указать ReferenceGTF вариант.
Пример:
'SpCorrection',true
Типы данных: logical
'SuppressMapFiles' - Флаг для предотвращения создания .tmap и .refmap файлыfalse (по умолчанию) | trueФлаг для предотвращения создания .tmap и .refmap файлы, указанные как true или false. Задайте значение true для предотвращения генерации файлов функцией.
Пример:
'SuppressMapFiles',true
Типы данных: logical
statsFile - Имя текстового файла, содержащего статистику"cuffcmp.stats"Имя текстового файла, содержащего статистику, связанную с точностью транскриптов в каждом образце, возвращаемое в виде строки. Функция выполняет тесты на чувствительность (Sn) и специфичность (Sp) на различных уровнях, включая уровни нуклеотидов, экзонов и интронов, и сообщает результаты в этом файле.
Имя файла по умолчанию: "cuffcmp.stats". При указании OutputPrefix, функция использует его вместо "cuffcmp".
combinedGTF - Имя файла, содержащего объединение всех трансфрагов в каждом образце"cuffcmp.combined.gtf"Имя файла, содержащего объединение всех трансфрагов в каждом образце, возвращаемое в виде строки.
Имя файла по умолчанию: "cuffcmp.combined.gtf". При указании OutputPrefix, функция использует его вместо "cuffcmp".
lociFile - Имя файла со всеми обработанными локусами"cuffcmp.loci"Имя файла со всеми обработанными локусами во всех транскриптах, возвращаемое в виде строки.
Имя файла по умолчанию: "cuffcmp.loci". При указании OutputPrefix, функция использует его вместо "cuffcmp".
trackingFile - Наименование файла, содержащего стенограммы с идентичными координатами"cuffcmp.tracking"Имя файла, содержащего транскрипты с идентичными координатами, интронами и цепями, возвращаемое в виде строки.
Имя файла по умолчанию: "cuffcmp.tracking". При указании OutputPrefix, функция использует его вместо "cuffcmp".
[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертеа, Али Мортазави, Гордон Кван, Марике Дж. ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пэхтер. «Сборка и количественная оценка транскриптов с помощью РНК-Seq выявляет необъявленные транскрипты и переключение изоформ во время дифференцировки клеток». Биотехнология природы 28, № 5 (май 2010 года): 511-15.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.