Набор опций для cufflinks
A CufflinksOptions
объект содержит опции для cufflinks
функция, которая собирает транскриптом из выровненных показаний [1].
создает cufflinksOpt
= CufflinksOptionsCufflinksOptions
объект со значениями свойств по умолчанию.
CufflinksOptions
требуется пакет поддержки Cufflinks для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.
Примечание
CufflinksOptions
поддерживается в Mac и UNIX® только платформы.
устанавливает свойства объекта с помощью одного или нескольких аргументов пары "имя-значение". Заключайте каждое имя свойства в кавычки. Для примера, cufflinksOpt
= CufflinksOptions(Name,Value)cufflinksOpt = CufflinksOptions('TrimCoverageThreshold',5)
задает минимальное среднее покрытие для 3 '-концевой обрезки.
задает необязательные параметры с помощью строкового или символьного вектора cufflinksOpt
= CufflinksOptions(S
)S
.
S
- Опции CufflinksОпции Cufflinks, заданные как вектор символов или строка. S
должен находиться в синтаксисе опции Cufflinks (с префиксом одной или двух штрихов).
Пример: '--trim-3-avgcov-thresh 5'
EffectiveLengthCorrection
- Флаг для нормализации подсчета фрагментовtrue
(по умолчанию) | false
Флаг для нормализации подсчета фрагментов к фрагментам на килобазу на миллион отображенных чтений (FPKM), заданный как true
или false
.
Пример: false
Типы данных: logical
ExtraCommand
- Дополнительные команды""
(по умолчанию) | вектор символов | строкаДополнительные команды, заданные как вектор символов или строка.
Команды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.
Когда программа преобразует исходные флаги в свойства MATLAB, она сохраняет все неопознанные флаги в этом свойстве.
Пример: '--library-type fr-secondstrand'
Типы данных: char
| string
FauxReadTiling
- Флаг для включения ссылочных транскриптов в собранный выходtrue
(по умолчанию) | false
Флаг для включения ссылки транскриптов в собранный выход как faux-reads во время сборки RABT (расширенная транскрипция на основе аннотаций ссылки), заданный как true
или false
.
Примечание
Функция выполняет сборку RABT только в том случае, если вы задаете GTFGuide
. В противном случае FauxReadTiling
, независимо от true
или false
, не влияет на собранный транскрипт.
Пример:
false
Типы данных: logical
FragmentBiasCorrection
- Имя файла FASTA со ссылочными транскриптами для обнаружения смещенияИмя файла FASTA со ссылочными транскриптами для обнаружения смещения в отсчетах фрагментов, заданных как строковый или символьный вектор. Препарат библиотеки может вводить специфическое для последовательности смещение в эксперименты RNA-Seq. Предоставление эталонных транскриптов улучшает точность оценок численности транскрипта.
Пример:
"bias.fasta"
Типы данных: char
| string
FragmentLengthMean
- Ожидаемая средняя длина фрагмента200
(по умолчанию) | положительное целое числоОжидаемая средняя длина фрагмента, заданная как положительное целое число. Значение по умолчанию 200
базовые пары. Функция может узнать среднее значение длины фрагмента для каждого файла SAM. Использование этой опции не рекомендуется для парных чтений.
Пример: 100
Типы данных: double
FragmentLengthSD
- Ожидаемое стандартное отклонение для распределения длины фрагмента80
(по умолчанию) | положительная скалярная величинаОжидаемое стандартное отклонение для распределения длины фрагмента, заданное как положительная скалярная величина. Значение по умолчанию 80
базовые пары. Функция может узнать стандартное отклонение длины фрагмента для каждого файла SAM. Использование этой опции не рекомендуется для парных чтений.
Пример: 70
Типы данных: double
GTFGuide
- Имя файла GTF, для руководства сборки RABTИмя файла GTF, направляющего сборку RABT, заданное как строковый или символьный вектор.
Пример: 'tr.gtf'
Типы данных: char
| string
IncludeAll
- Флаг, чтобы использовать все свойства объектаfalse
(по умолчанию) | trueФлаг для включения всех свойств объекта с соответствующими значениями по умолчанию при преобразовании в синтаксис исходных опций, заданный как true
или false
. Можно преобразовать свойства в исходный синтаксис, префиксированный одним или двумя штрихами (такими как '-d 100 -e 80'
) при помощи getCommand
. Значение по умолчанию false
означает, что, когда вы вызываете getCommand(optionsObject)
преобразует только указанные свойства. Если значение true
, getCommand
преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств в исходный синтаксис.
Примечание
Если вы задаете IncludeAll
на true
программное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN
, Inf
, []
, ''
, или ""
, тогда программное обеспечение не преобразует соответствующее свойство.
Пример: true
Типы данных: logical
JunctionAlpha
- Значение Альфа в биномиальном тесте для фильтрации ложноположительных выравниваний0.001
(по умолчанию) | скаляром между 0
и 1
Значение Альфа в биномиальном тесте для фильтрации ложноположительных выравниваний, заданное как скаляр между 0
и 1
.
Пример: 0.005
Типы данных: double
LengthCorrection
- Флаг для исправления по длине транскриптаtrue
(по умолчанию) | false
Флаг для исправления длины транскрипта, заданный как true
или false
. Установите это значение равным false
только когда количество фрагментов не зависит от размера признака, например, для небольших библиотек РНК без фрагментации и для 3 '-концевого секвенирования, где все фрагменты имеют одинаковую длину.
Пример: false
Типы данных: logical
MaskFile
- Имя файла GTF или GFF, содержащего транскрипты, которые нужно игнорироватьИмя файла GTF или GFF, содержащего транскрипты, которые нужно игнорировать во время анализа, заданное как строковый или символьный вектор. Некоторые примеры игнорируемых транскриптов включают аннотированные транскрипты рРНК, митохондриальные транскрипты и другие обильные транскрипты. Игнорирование этих транскриптов улучшает робастность оценок численности.
Пример: 'excludes.gtf'
Типы данных: char
| string
MaxBundleFrags
- Максимальное количество фрагментов для каждого локуса перед пропуском500000
(по умолчанию) | положительное целое числоМаксимальное количество фрагментов для каждого локуса перед пропуском новых фрагментов, заданное в виде положительного целого числа. Пропущенные фрагменты помечаются статусом HIDATA
в файле skipped.gtf
.
Пример: 400000
Типы данных: double
MaxBundleLength
- Максимальная геномная длина в парах оснований для пучка3500000
(по умолчанию) | положительное целое числоМаксимальная геномная длина в парах оснований для пучка, заданная как положительное целое число.
Пример: 3400000
Типы данных: double
MaxFragAlignments
- Максимальное количество выровненных показаний для каждого фрагментаInf
(по умолчанию) | положительное целое числоМаксимальное количество выровненных чтений для каждого фрагмента перед пропуском новых чтений, заданное как положительное целое число. Inf
, значение по умолчанию, не устанавливает предела на максимальное количество выровненных показаний.
Пример: 1000
Типы данных: double
MaxIntronLength
- Максимальное количество основ в интроне300000
(по умолчанию) | положительное целое числоМаксимальное количество основ в отчете интрона, заданное как положительное целое число. cufflinks
также игнорирует выравнивания SAM с REF_SKIP операциями CIGAR дольше, чем это значение свойства.
Пример: 350000
Типы данных: double
MaxMLEIterations
- Максимальное количество итераций для максимальной оценки правдоподобия5000
(по умолчанию) | положительное целое числоМаксимальное количество итераций для оценки максимальной вероятности изобилия, заданное как положительное целое число.
Пример: 4000
Типы данных: double
MinFragsPerTransfrag
- Минимальное количество выровненных фрагментов RNA-Seq для сообщения10
(по умолчанию) | положительное целое числоМинимальное количество выровненных фрагментов RNA-Seq для сообщения о собранном трансфраге, заданное в виде положительного целого числа.
Пример: 15
Типы данных: double
MinIntronLength
- Минимальное количество пар оснований для интрона в геноме50
(по умолчанию) | положительное целое числоМинимальное количество пар оснований для интрона в геноме, заданное в виде положительного целого числа.
Пример: 50
Типы данных: double
MinIsoformFraction
- Значение cuffoff для сообщения о изобилии изоформы0.1
(по умолчанию) | скаляром между 0
и 1
Значение Cuffoff для сообщения о изобилии конкретной изоформы как части наиболее распространенной изоформы (основной изоформы), заданной как скаляр между 0
и 1
. Функция отфильтровывает транскрипты с обилием ниже заданного значения, потому что изоформы, выраженные на низких уровнях, часто не могут быть собраны надежно. Значение по умолчанию составляет 0,1, или 10% от основной изоформы гена.
Пример: 0.20
Типы данных: double
MultiReadCorrection
- Флаг для улучшения оценки численности с помощью спасательного методаfalse
(по умолчанию) | true
Флаг для улучшения оценки численности для показаний, сопоставленных с несколькими геномными положениями с помощью метода спасения, заданного как true
или false
. Если значение false
функция разделяет многомассовые чтения равномерно на все отображенные положения. Если значение true
функция использует дополнительную информацию, включая оценку численности генов, предполагаемую длину фрагмента и смещение фрагмента, для улучшения оценки численности транскрипта.
Метод спасения описан в [2].
Пример: true
Типы данных: logical
NormalizeCompatibleHits
- Флаг, чтобы использовать только фрагменты, совместимые с эталонным транскриптом, для вычисления значений FPKMfalse
(по умолчанию) | true
Флаг, чтобы использовать только фрагменты, совместимые с ссылкой транскриптом, для вычисления значений FPKM, заданных как true
или false
.
Пример: true
Типы данных: logical
NormalizeTotalHits
- Флаг для включения всех фрагментов для вычисления значений FPKMfalse
(по умолчанию) | true
Флаг для включения всех фрагментов для вычисления значений FPKM, заданный как true
или false
. Если значение true
, функция включает все фрагменты, включая фрагменты без совместимой ссылки.
Пример: true
Типы данных: logical
NumFragAssignmentDraws
- Количество назначений фрагментов для выполнения каждого транскрипта50
(по умолчанию) | положительное целое числоКоличество назначений фрагментов для выполнения каждого транскрипта, заданное в виде положительного целого числа. Для каждого фрагмента, полученного из транскрипта, функция выполняет заданное количество назначений вероятностно, чтобы определить неопределенность назначения транскрипта и оценить дисперсионно-ковариационную матрицу для присвоенных отсчётов фрагмента.
Пример: 40
Типы данных: double
NumFragDraws
- Количество рисок от генератора отрицательных биномиальных случайных чисел100
(по умолчанию) | положительное целое числоКоличество рисок из генератора отрицательных биномиальных случайных чисел для каждого транскрипта, заданное в виде положительного целого числа. Каждый рисунок является количеством фрагментов, которые функция вероятностно присваивает транскриптам в транскриптоме, чтобы определить неопределенность присвоения и оценить дисперсионно-ковариационную матрицу для назначенных отсчётов фрагментов.
Пример: 90
Типы данных: double
NumThreads
- Количество параллельных потоков для использования1
(по умолчанию) | положительное целое числоКоличество параллельных потоков, заданное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков обычно значительно улучшает время выполнения, но увеличивает объем памяти.
Пример: 4
Типы данных: double
OutputDirectory
- Директория для хранения результатов анализа"./"
) (по умолчанию) | строку | вектор символовДиректория для хранения результатов анализа, заданный как строковый или символьный вектор.
Пример: "./AnalysisResults/"
Типы данных: char
| string
OverhangTolerance
- Количество базовых пар перекрытия с интроном8
(по умолчанию) | положительное целое числоКоличество базовых пар перекрытия с интроном, которое позволяет функция при определении, совместимо ли чтение с другим транскриптом, заданным в виде положительного целого числа.
Пример: 5
Типы данных: double
OverlapRadius
- Расстояние между трансфрагмами50
(по умолчанию) | положительное целое числоРасстояние между трансфрагмами, заданное как положительное целое число. Если расстояние ниже заданного значения, функция объединяет трансфрагмы. Значение по умолчанию 50
базовые пары.
Пример: 40
Типы данных: double
PreMRNAFraction
- Порог для включения выравниваний во интронные интервалы0.15
(по умолчанию) | скаляром между 0
и 1
Порог для включения выравниваний во интронные интервалы в сборке, заданное как скаляр между 0
и 1
. Функция игнорирует интронные выравнивания, если минимальная глубина покрытия, разделенная на количество сращенных показаний, ниже заданного значения. Используйте это свойство для фильтрации показаний, происходящих из неполных сращенных транскриптов.
Пример: 0.10
Типы данных: double
RABTOverhangTolerance
- Количество пар оснований, которые могут перекрываться с транскриптом интрона8
(по умолчанию) | положительное целое числоКоличество базовых пар из считанного, разрешенного для перекрытия транскриптом интрона при определении, является ли чтение сопоставимым с другим транскриптом во время сборки RABT, заданное в виде положительного целого числа. Значение по умолчанию 8
.
Примечание
Функция выполняет сборку RABT только в том случае, если вы задаете GTFGuide
. В противном случае RABTOverhangTolerance
не влияет на собранный транскрипт.
Пример: 10
Типы данных: double
RABTOverhangTolerance3
- Количество базовых пар, разрешенных к свесу 3 '-конца эталонного транскрипта600
(по умолчанию) | положительное целое числоКоличество пар базы, позволенных навесить 3 'конец каждого эталонного транскрипта во время сборки RABT, заданное в виде положительного целого числа. Функция использует это свойство при решении, является ли собранный транскрипт новым или должен быть объединен со ссылкой.
Примечание
Функция выполняет сборку RABT только в том случае, если вы задаете GTFGuide
. В противном случае RABTOverhangTolerance3
не влияет на собранный транскрипт.
Пример: 500
Типы данных: double
ReferenceGTF
- Имя файла GTF или GFF, используемого для оценки выражения изоформыИмя файла GTF или GFF ссылки содержащего аннотацию, используемую для оценки выражения изоформы, заданную как строка или вектор символов. Если вы предоставляете ReferenceGTF
файл, функция не собирает никаких новых транскриптов и игнорирует любые выравнивания, несовместимые с эталонными транскриптами.
Пример: 'isoest.gtf'
Типы данных: char
| string
Seed
- Seed для генератора случайных чисел0
(по умолчанию) | неотрицательное целое числоSeed для генератора случайных чисел, заданное как неотрицательное целое число. Установка значения seed обеспечивает воспроизводимость результатов анализа.
Пример: 10
Типы данных: double
SmallAnchorFraction
- Минимальный процент выравнивания по каждой стороне соединения0.09
(по умолчанию) | скаляром между 0
и 1
Минимальный процент выравнивания с каждой стороны соединения, заданный как скаляр между 0
и 1
. Функция фильтрует выравнивания с процентом, меньшим этого значения свойства перед сборкой.
Пример: 0.1
Типы данных: double
TranscriptPrefix
- Префикс для сообщенных трансфрагментов в выходном файле GTF"CUFF"
(по умолчанию) | строку | вектор символовПрефикс для сообщаемых трансфрагмов в выход GTF файла, заданный как строка или вектор символов. Эта опция должна быть строковым или символьным вектором с ненулевой длиной.
Пример: "tfrags"
Типы данных: char
| string
TrimCoverageThreshold
- Минимальное среднее покрытие, необходимое для обрезки 3 '10
(по умолчанию) | положительное целое числоМинимальное среднее покрытие для 3 'обрезки, заданное как положительное целое число.
Пример: 8
Типы данных: double
TrimDropoffFraction
- Минимальный процент среднего охвата0.1
(по умолчанию) | скаляром между 0
и 1
Минимальный процент среднего покрытия для обрезки 3 '-конца собранных транскриптов, заданный как скаляр между 0
и 1
.
Пример: 0.15
Типы данных: double
Version
- Поддерживаемая версияЭто свойство доступно только для чтения.
Поддерживаемая версия программного обеспечения оригинальных запонок, возвращенная как строка.
Пример: "2.2.1"
Типы данных: string
getCommand | Переведите свойства объекта в синтаксис исходных опций |
getOptionsTable | Возвращает таблицу со всеми свойствами и эквивалентными опциями в исходном синтаксисе |
Создайте CufflinksOptions
объект со значениями по умолчанию.
opt = CufflinksOptions;
Создайте объект с помощью пар "имя-значение".
opt2 = CufflinksOptions('TranscriptPrefix',"MATLAB",'NumThreads',4)
Создайте объект с помощью исходной cufflinks
синтаксис.
opt3 = CufflinksOptions('--label MATLAB --num-threads 4')
Создайте CufflinksOptions
объект, чтобы задать опции запонки, такие как количество параллельных нитей и выхода директории для хранения результатов.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";
Файлы, предоставленные для этого примера, содержат выровненные показания для Mycoplasma pneumoniae из двух выборок с тремя повторениями каждый. Считывания моделируются 100bp-считывания для двух генов (gyrA
и gyrB
) расположены рядом друг с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется cufflinks
.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом из выровненных показаний.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs
представляет собой список файлов GTF, которые содержат собранные изоформы.
Сравнение собранных изоформ с помощью cuffcompare
.
stats = cuffcompare(gtfs);
Объедините собранные транскрипты с помощью cuffmerge
.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF
сообщает только один транскрипт. Это потому, что два интересующих гена расположены рядом друг с другом, и cuffmerge
не может различать два разных гена. Вести cuffmerge
, используйте ссылку GTF (gyrAB.gtf
) содержащая информацию об этих двух генах. Если файл расположен не в той же директории, который вы запускаете cuffmerge
от, вы также должны задать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Вычислите изобилие (уровни выражения) из выровненных показаний для каждой выборки.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значимость изменений экспрессии для генов и транскриптов между условиями, выполнив дифференциальную проверку с использованием cuffdiff
. cuffdiff
функция действует в двух разных шагах: функция сначала оценивает изобилие по выровненным чтениям, а затем выполняет статистический анализ. В некоторых случаях (для примера, распределение вычислительной нагрузки между несколькими работниками), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant
, можно затем использовать двоичный выходной файл CXB в качестве входов для cuffdiff
для выполнения статистического анализа. Поскольку cuffdiff
возвращает несколько файлов, задает рекомендуемую выходную директорию.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отобразите таблицу, содержащую результаты дифференциального экспрессионного теста для этих двух генов gyrB
и gyrA
.
readtable(isoformDiff,'FileType','text')
ans = 2×14 table test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ 'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes' 'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Вы можете использовать cuffnorm
чтобы сгенерировать нормированные таблицы выражений для последующих анализов. cuffnorm
результаты полезны, когда у вас есть много выборки, и вы хотите объединить их или построить уровни экспрессии для генов, которые важны в вашем исследовании. Обратите внимание, что вы не можете выполнить дифференциальный анализ выражения, используя cuffnorm
.
Задайте массив ячеек, где каждый элемент является строковым вектором, содержащим имена файлов для одной выборки с репликами.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,... 'OutputDirectory', './cuffnormOutput');
Отобразите таблицу, содержащую нормированные уровни выражения для каждого транскрипта.
readtable(isoformNorm,'FileType','text')
ans = 2×7 table tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ________________ __________ __________ __________ __________ __________ __________ 'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05 'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов, начинающиеся с q, имеют формат conditionX_N, указывающий, что столбец содержит значения для репликации N conditionX.
[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертея, Али Мортазави, Гордон Кван, Марийке Дж. Ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пахтер. «Сборка транскрипта и количественное определение РНК-Seq обнаруживает неаннотированные транскрипты и переключение изоформы во время дифференциации камер». Биотехнология природы 28, № 5 (май 2010): 511-15.
[2] Мортазави, Али, Брайан А Уильямс, Кеннет Маккью, Лориан Шеффер и Барбара Уолд. «Отображение и количественная оценка транскриптомов млекопитающих РНК-Seq». Методы природы 5, № 7 (июль 2008 года): 621-28. https://doi.org/10.1038/nmeth.1226.
cuffcompare
| cuffdiff
| cuffgffread
| cuffgtf2sam
| cufflinks
| cuffmerge
| cuffnorm
| cuffquant
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.