Определите количество гена и профилей выражения расшифровки стенограммы
генерирует оценки распространенности для выборок в cxbFile
= cuffquant(transcriptsAnnot
,alignmentFiles
)alignmentFiles
использование ссылочного файла аннотации transcriptsAnnot
[1]. Можно использовать сгенерированную распространенность CXB-формата (*.CXB), как введено для cuffdiff
выполнять нисходящий дифференциальный анализ выражения.
cuffquant
требует Пакета поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.
Примечание
cuffquant
поддерживается на Mac и UNIX® платформы только.
дополнительные опции использования заданы cxbFile
= cuffquant(transcriptsAnnot
,alignmentFiles
,opt
)opt
.
дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cxbFile
= cuffquant(transcriptsAnnot
,alignmentFiles
,Name,Value
)cuffquant('gyrAB.gtf',["Myco_1_1.sam", "Myco_2_1.sam"],'NumThreads',5)
задает, чтобы использовать пять параллельных потоков.
Создайте CufflinksOptions
объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";
Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA
и gyrB
) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks
.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом от выровненных чтений.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs
список файлов GTF, которые содержат собранные изоформы.
Сравните собранное использование изоформ cuffcompare
.
stats = cuffcompare(gtfs);
Объедините собранное использование расшифровок стенограммы cuffmerge
.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF
отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge
не может отличить два отличных гена. Вести cuffmerge
, используйте ссылочный GTF (gyrAB.gtf
) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge
от, необходимо также задать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff
. cuffdiff
функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant
, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff
выполнять статистический анализ. Поскольку cuffdiff
возвращает несколько файлов, укажите, что выходная директория рекомендуется.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB
и gyrA
.
readtable(isoformDiff,'FileType','text')
ans = 2×14 table test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ 'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes' 'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Можно использовать cuffnorm
сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm
результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm
.
Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,... 'OutputDirectory', './cuffnormOutput');
Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.
readtable(isoformNorm,'FileType','text')
ans = 2×7 table tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ________________ __________ __________ __________ __________ __________ __________ 'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05 'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.
transcriptsAnnot
— Имя файла аннотации расшифровки стенограммыИмя файла аннотации расшифровки стенограммы в виде строки или вектора символов. Файл может быть GTF или файлом GFF, произведенным cufflinks
, cuffcompare
, или другой источник аннотаций GTF.
Пример: "gyrAB.gtf"
Типы данных: char |
string
alignmentFiles
— Имена СЭМА, BAM или файлов CXBИмена СЭМА, BAM или файлов CXB, содержащих выравнивание, записывают для каждой выборки в виде векторного массива строки или массива ячеек. Если вы используете массив ячеек, каждым элементом должен быть вектор строки или массив ячеек из символьных векторов, задающий файлы выравнивания для каждого реплицируют той же выборки.
Пример: ["Myco_1_1.sam", "Myco_2_1.sam"]
Типы данных: char |
string
| cell
opt
— cuffquant
опцииCuffQuantOptions
возразите | строка | вектор символовcuffquant
опции в виде CuffQuantOptions
объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале cuffquant
синтаксис опции (снабженный префиксом одним или двумя тире) [1].
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
cuffquant(transcripts,alignmentFiles,'NumThreads',4,'Seed',1)
EffectiveLengthCorrection
— Отметьте, чтобы нормировать количества фрагментаtrue
(значение по умолчанию) | ложьОтметьте, чтобы нормировать количества фрагмента к фрагментам на kilobase на миллион сопоставленных чтений (FPKM) в виде true
или false
.
Пример: 'EffectiveLengthCorrection',false
Типы данных: логический
ExtraCommand
— Дополнительные команды""
(значение по умолчанию) | представляет в виде строки | вектор символовКоманды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующего MATLAB® свойства.
Пример: 'ExtraCommand','--library-type fr-secondstrand'
Типы данных: char |
string
FragmentBiasCorrection
— Имя файла FASTA со ссылочными расшифровками стенограммы, чтобы обнаружить смещениеИмя файла FASTA со ссылочными расшифровками стенограммы, чтобы обнаружить смещение во фрагменте рассчитывает в виде строки или вектора символов. Подготовка библиотеки может ввести специфичное для последовательности смещение в эксперименты RNA-Seq. Обеспечение ссылочных расшифровок стенограммы улучшает точность оценок распространенности расшифровки стенограммы.
Пример:
'FragmentBiasCorrection',"bias.fasta"
Типы данных: char |
string
FragmentLengthMean
— Ожидаемая средняя длина фрагмента в парах оснований
(значение по умолчанию) | положительное целое числоОжидаемая средняя длина фрагмента в виде положительного целого числа. Значением по умолчанию является 200
пары оснований. Функция может изучить среднее значение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.
Пример: 'FragmentLengthMean',100
Типы данных: double
FragmentLengthSD
— Ожидаемое стандартное отклонение для распределения длины фрагмента
(значение по умолчанию) | положительная скалярная величинаОжидаемое стандартное отклонение для распределения длины фрагмента в виде положительной скалярной величины. Значением по умолчанию является 80
пары оснований. Функция может изучить стандартное отклонение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.
Пример: 'FragmentLengthSD',70
Типы данных: double
IncludeAll
— Отметьте, чтобы применить все доступные параметрыfalse
(значение по умолчанию) | верныйИсходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true
, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.
Примечание
Если вы устанавливаете IncludeAll
к true
, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaN
Inf
, []
, ''
, или ""
, затем программное обеспечение не переводит соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: логический
LengthCorrection
— Отметьте, чтобы откорректировать длиной расшифровки стенограммыtrue
(значение по умолчанию) | false
Отметьте, чтобы откорректировать длиной расшифровки стенограммы в виде true
или false
. Установите это значение к false
только, когда количество фрагмента независимо от размера элемента, такой что касается небольших библиотек RNA без фрагментации и для 3' секвенирования конца, где все фрагменты имеют ту же длину.
Пример: 'LengthCorrection',false
Типы данных: логический
MaskFile
— Имя GTF или файла GFF, содержащего расшифровки стенограммы, чтобы проигнорироватьИмя GTF или файла GFF, содержащего расшифровки стенограммы, чтобы проигнорировать во время анализа в виде строки или вектора символов. Некоторые примеры расшифровок стенограммы, чтобы проигнорировать включают аннотируемые rRNA расшифровки стенограммы, митохондриальные расшифровки стенограммы и другие богатые расшифровки стенограммы. Игнорирование этих расшифровок стенограммы улучшает робастность оценок распространенности.
Пример: 'MaskFile',"excludes.gtf"
Типы данных: char |
string
MaxBundleFrags
— Максимальное количество фрагментов, чтобы включать для каждого местоположения перед пропуском
(значение по умолчанию) | положительное целое числоМаксимальное количество фрагментов, чтобы включать для каждого местоположения прежде, чем пропустить новые фрагменты в виде положительного целого числа. Пропущенные фрагменты отмечены состоянием HIDATA
в файле skipped.gtf
.
Пример: 'MaxBundleFrags',400000
Типы данных: double
MaxFragAlignments
— Максимальное количество выровненных чтений, чтобы включать для каждого фрагментаInf
(значение по умолчанию) | положительное целое числоМаксимальное количество выровненных чтений, чтобы включать для каждого фрагмента прежде, чем пропустить новые чтения в виде положительного целого числа. Inf
, значение по умолчанию, не устанавливает предела для максимального количества выровненных чтений.
Пример: 'MaxFragAlignments',1000
Типы данных: double
MaxMLEIterations
— Максимальное количество итераций для оценки наибольшего правдоподобия
(значение по умолчанию) | положительное целое числоМаксимальное количество итераций для оценки наибольшего правдоподобия распространенностей в виде положительного целого числа.
Пример: 'MaxMLEIterations',4000
Типы данных: double
MinAlignmentCount
— Минимальное количество выравниваний требуется в местоположении для тестирования значения
(значение по умолчанию) | положительное целое числоМинимальное количество выравниваний, требуемых в местоположении выполнять тестирование значения на различия между выборками в виде положительного целого числа.
Пример:
'MinAlignmentCount',8
Типы данных: double
MultiReadCorrection
— Отметьте, чтобы улучшить оценку распространенности с помощью спасательного методаfalse
(значение по умолчанию) | true
Отметьте, чтобы улучшить оценку распространенности для чтений, сопоставленных с несколькими геномными положениями с помощью спасательного метода в виде true
или false
. Если значением является false
, функция делит мультисопоставленные чтения однородно ко всем сопоставленным позициям. Если значением является true
, функция использует дополнительную информацию, включая генную оценку распространенности, выведенную длину фрагмента, и смещение фрагмента, чтобы улучшить оценку распространенности расшифровки стенограммы.
Спасательный метод описан в [2].
Пример: 'MultiReadCorrection',true
Типы данных: логический
NumThreads
— Количество параллельных потоков, чтобы использовать
(значение по умолчанию) | положительное целое числоКоличество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.
Пример: 'NumThreads',4
Типы данных: double
OutputDirectory
— Директория, чтобы сохранить результаты анализаcurrentDirectory
) (значение по умолчанию) | представляет в виде строки | вектор символовДиректория, чтобы сохранить результаты анализа в виде строки или вектора символов.
Пример: "./AnalysisResults/"
Типы данных: char |
string
Seed
— Отберите для генератора случайных чисел
(значение по умолчанию) | неотрицательное целое числоОтберите для генератора случайных чисел в виде неотрицательного целого числа. Установка начального значения гарантирует воспроизводимость результатов анализа.
Пример: 10
Типы данных: double
cxbFile
— Имя файла распространенностей"./abundances.cxb"
Имя файла распространенностей, возвращенного как строка.
Выводимая строка также включает информацию о директории, заданную OutputDirectory
. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory
к "/local/tmp/"
, выход становится "/local/tmp/abundances.cxb"
.
[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15. https://doi.org/10.1038/nbt.1621.
[2] Mortazavi, Али, Брайан А Уильямс, Кеннет Макку, Лориэн Шэеффер и Барбара Уолд. “Сопоставляя и Определяя количество Транскриптомов млекопитающих RNA-Seq”. Методы природы 5, № 7 (июль 2008): 621–28. https://doi.org/10.1038/nmeth.1226.
CuffQuantOptions
| cufflinks
| CufflinksOptions
| cuffcompare
| cuffdiff
| cuffmerge
| cuffnorm
| cuffquant
| cuffgffread
| cuffgtf2sam
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.