Опция установлена для cuffdiff
CuffDiffOptions
возразите устанавливает опции для cuffdiff
функция, которая идентифицирует существенные изменения в выражении [1] расшифровки стенограммы.
создает cuffdiffOpt
= CuffDiffOptionsCuffDiffOptions
объект со значениями свойств по умолчанию.
CuffDiffOptions
требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.
CuffDiffOptions
поддерживается на Mac и платформах UNIX® только.
устанавливает свойства объектов с помощью одного или нескольких аргументов пары "имя-значение". Заключите каждое имя свойства в кавычки. Например, cuffdiffOpt
= CuffDiffOptions(Name,Value)cuffdiffOpt = CuffDiffOptions('SupressMapFiles',true)
предотвращает создание .tmap
и .refmap
файлы.
задает дополнительные параметры с помощью строки или вектора символов cuffdiffOpt
= CuffDiffOptions(S
)S
.
S
— cuffdiff
опцииcuffdiff
опции, заданные как строка или вектор символов. S
должен быть в исходном cuffdiff
синтаксис опции (снабженный префиксом одним или двумя тире).
Пример: '--seed 5'
ConditionLabels
— Демонстрационные меткиДемонстрационные метки, заданные как строка, представляют в виде строки вектор, вектор символов или массив ячеек из символьных векторов. Количество меток должно равняться количеству выборок, или значением должен быть пустой []
.
Пример:
["Control","Mutant1","Mutant2"]
Типы данных: string
| char
| cell
ContrastFile
— Контрастное имя файлаКонтрастное имя файла, заданное как строка или вектор символов. Файл должен быть текстовым файлом с разделителями табуляции 2D столбца, где каждая линия указывает на два условия сравнить использование cuffdiff
. Метки условия в файле должны совпадать с любым метки, заданные для ConditionLabels
или демонстрационные имена. Файл должен иметь одну линию заголовка как первую линию, сопровождаемую одной линией для каждого контраста. Пример контрастного формата файла следует.
condition_A | condition_B |
---|---|
Управление | Mutant1 |
Управление | Mutant2 |
Если вы не обеспечиваете этот файл, cuffdiff
сравнивает каждую пару входных условий, которые могут повлиять на производительность.
Пример:
"contrast.txt"
Типы данных: char |
string
DispersionMethod
— Метод к отклонению модели в количествах фрагмента"pooled"
(значение по умолчанию) | "per-condition"
| "blind"
| "poisson"
Метод, чтобы смоделировать отклонение в количествах фрагмента через реплицирует, заданный как одна из следующих опций:
"pooled"
— Функция использует каждое реплицированное условие создать модель и составляет в среднем эти модели в глобальную модель для всех условий в эксперименте.
"per-condition"
— Функция производит модель для каждого условия. Можно использовать эту опцию, только если все условия имеют, реплицирует.
"blind"
— Функция обрабатывает все выборки, как реплицирует одного глобального распределения и производит одну модель.
"poisson"
— Отклонение в количествах фрагмента является моделью Пуассона, где количество фрагмента предсказано, чтобы быть средним значением через, реплицирует. Этот метод не рекомендуется.
Выберите метод в зависимости от того, ожидаете ли вы, что изменчивость в каждой группе выборок будет подобна.
Когда сравнение двух групп, где у первой группы есть прострел - реплицирует изменчивость, и у второй группы есть высокая изменчивость, выберите per-condition
метод.
Если условия имеют подобные уровни изменчивости, выбирают pooled
метод.
Если у вас есть только сингл, реплицируют в каждое условие, выбирают blind
метод.
Пример:
"blind"
Типы данных: char |
string
DoIsoformSwitch
— Отметьте, чтобы выполнить тесты переключения изоформыtrue
(значение по умолчанию) | false
Отметьте, чтобы выполнить тесты переключения изоформы, заданные как true
или false
. Эти тесты оценивают, сколько дифференциального соединения существует в изоформах из одной первичной расшифровки стенограммы. По умолчанию значением является true
и результаты испытаний сохранены в выходном файле splicing.diff
.
Пример:
false
Типы данных: логический
EffectiveLengthCorrection
— Отметьте, чтобы нормировать количества фрагментаtrue
(значение по умолчанию) | false
Отметьте, чтобы нормировать количества фрагмента к фрагментам на kilobase на миллион сопоставленных чтений (FPKM), заданный как true
или false
.
Пример:
false
Типы данных: логический
ExtraCommand
— Дополнительные команды""
(значение по умолчанию) | представляет в виде строки | вектор символовДополнительные команды, заданные как строка или вектор символов. Команды должны быть в исходном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB. Когда функция преобразует исходные флаги в свойства MATLAB, она хранит любые нераспознанные флаги в этой опции.
Пример: '--library-type fr-secondstrand'
Типы данных: char |
string
FalseDiscoveryRate
— Ложный уровень открытия
(значение по умолчанию) | скаляр между 0
и 1
Ложный уровень открытия используется во время статистических тестов, заданных как скаляр между 0
и 1
.
Пример:
0.01
Типы данных: double
FragmentBiasCorrection
— Имя файла FASTA со ссылочными расшифровками стенограммы, чтобы обнаружить смещениеИмя файла FASTA со ссылочными расшифровками стенограммы, чтобы обнаружить смещение в количествах фрагмента, заданных как строка или вектор символов. Подготовка библиотеки может ввести специфичное для последовательности смещение в эксперименты RNA-Seq. Обеспечение ссылочных расшифровок стенограммы улучшает точность оценок распространенности расшифровки стенограммы.
Пример:
"bias.fasta"
Типы данных: char |
string
FragmentLengthMean
— Ожидаемая средняя длина фрагмента в парах оснований
(значение по умолчанию) | положительное целое числоОжидаемая средняя длина фрагмента, заданная как положительное целое число. Значением по умолчанию является 200
пары оснований. Функция может изучить среднее значение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.
Пример: 100
Типы данных: double
FragmentLengthSD
— Ожидаемое стандартное отклонение для распределения длины фрагмента
(значение по умолчанию) | положительная скалярная величинаОжидаемое стандартное отклонение для распределения длины фрагмента, заданного как положительная скалярная величина. Значением по умолчанию является 80
пары оснований. Функция может изучить стандартное отклонение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.
Пример: 70
Типы данных: double
GenerateAnalysisDiff
— Отметьте, чтобы создать файлы дифференциального анализаtrue
(значение по умолчанию) | false
Отметьте, чтобы создать файлы дифференциального анализа (*.diff
), заданный как true
или false
.
Пример:
false
Типы данных: логический
IncludeAll
— Отметьте, чтобы использовать все свойства объектовfalse
(значение по умолчанию) | true
Отметьте, чтобы включать все свойства объектов с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций, заданный как true
или false
. Можно преобразовать свойства в исходный синтаксис, снабженный префиксом одним или двумя тире (такими как '-d 100 -e 80'
) при помощи getCommand
. Значение по умолчанию false
средние значения это, когда вы вызываете getCommand(optionsObject)
, это преобразует только заданные свойства. Если значением является true
, getCommand
преобразует все доступные свойства, со значениями по умолчанию для незаданных свойств, к исходному синтаксису.
Пример: true
Типы данных: логический
IsoformShiftReplicates
— Минимальное количество реплицирует, чтобы протестировать гены на дифференциальное регулирование
(значение по умолчанию) | положительное целое числоМинимальное количество реплицирует, чтобы протестировать гены на дифференциальное регулирование, заданное как положительное целое число. Функция пропускает тесты, когда количество реплицирует, меньше, чем заданное значение.
Пример 2
Типы данных: double
LengthCorrection
— Отметьте, чтобы откорректировать длиной расшифровки стенограммыtrue
(значение по умолчанию) | false
Отметьте, чтобы откорректировать длиной расшифровки стенограммы, заданной как true
или false
. Установите это значение к false
только, когда количество фрагмента независимо от размера элемента, такой что касается небольших библиотек RNA без фрагментации и для 3' секвенирования конца, где все фрагменты имеют ту же длину.
Пример: false
Типы данных: логический
LibraryNormalizationMethod
— Метод, чтобы нормировать размер библиотеки"geometric"
(значение по умолчанию) | "classic-fpkm"
| "quartile"
Метод, чтобы нормировать размер библиотеки, заданный как одна из следующих опций:
"geometric"
— Функция масштабирует значения FPKM средним геометрическим средним значением количеств фрагмента через все библиотеки как описано в [2].
"classic-fpkm"
— Функция не применяет масштабирования к значениям FPKM или количествам фрагмента.
"quartile"
— Функция масштабирует значения FPKM отношением верхних квартилей между количествами фрагмента и средним значением через все библиотеки.
Пример:
"classic-fpkm"
Типы данных: char |
string
MaskFile
— Имя GTF или файла GFF, содержащего расшифровки стенограммы, чтобы проигнорироватьИмя GTF или файла GFF, содержащего расшифровки стенограммы, чтобы проигнорировать во время анализа, заданного как строка или вектор символов. Некоторые примеры расшифровок стенограммы, чтобы проигнорировать включают аннотируемые rRNA расшифровки стенограммы, митохондриальные расшифровки стенограммы и другие богатые расшифровки стенограммы. Игнорирование этих расшифровок стенограммы улучшает робастность оценок распространенности.
Пример: "excludes.gtf"
Типы данных: char |
string
MaxBundleFrags
— Максимальное количество фрагментов, чтобы включать для каждого местоположения перед пропуском
(значение по умолчанию) | положительное целое числоМаксимальное количество фрагментов, чтобы включать для каждого местоположения прежде, чем пропустить новые фрагменты, заданные как положительное целое число. Пропущенные фрагменты отмечены состоянием HIDATA
в файле skipped.gtf
.
Пример: 400000
Типы данных: double
MaxFragAlignments
— Максимальное количество выровненных чтений, чтобы включать для каждого фрагментаInf
(значение по умолчанию) | положительное целое числоМаксимальное количество выровненных чтений, чтобы включать для каждого фрагмента прежде, чем пропустить новые чтения, заданные как положительное целое число. Inf
, значение по умолчанию, не устанавливает предела для максимального количества выровненных чтений.
Пример: 1000
Типы данных: double
MaxMLEIterations
— Максимальное количество итераций для оценки наибольшего правдоподобия
(значение по умолчанию) | положительное целое числоМаксимальное количество итераций для оценки наибольшего правдоподобия распространенностей, заданных как положительное целое число.
Пример: 4000
Типы данных: double
MinAlignmentCount
— Минимальное количество выравниваний требуется в местоположении для тестирования значения
(значение по умолчанию) | положительное целое числоМинимальное количество выравниваний, требуемых в местоположении выполнять тестирование значения на различия между выборками, заданными как положительное целое число.
Пример 8
Типы данных: double
MinIsoformFraction
— Минимальная распространенность изоформы, чтобы включать в дифференциальные тесты выражения1e-5
(значение по умолчанию) | скаляр между 0
и 1
Минимальная распространенность изоформы, чтобы включать в дифференциальные тесты выражения, заданные как скаляр между 0
и 1
. Для альтернативных изоформ, определенных количественно в ниже заданного значения, функция округляет распространенность в меньшую сторону, чтобы обнулить. Заданное значение является частью главной изоформы. Функция выполняет эту фильтрацию после оценки MLE, но перед оценкой MAP, чтобы улучшить робастность генерации доверительного интервала и дифференциального анализа выражения. Используя значение параметров кроме значения по умолчанию не рекомендуется.
Пример: 1e-5
Типы данных: double
MultiReadCorrection
— Отметьте, чтобы улучшить оценку распространенности с помощью спасательного методаfalse
(значение по умолчанию) | true
Отметьте, чтобы улучшить оценку распространенности для чтений, сопоставленных с несколькими геномными положениями с помощью спасательного метода, заданного как true
или false
. Если значением является false
, функция делит мультисопоставленные чтения однородно ко всем сопоставленным позициям. Если значением является true
, функция использует дополнительную информацию, включая генную оценку распространенности, выведенную длину фрагмента, и смещение фрагмента, чтобы улучшить оценку распространенности расшифровки стенограммы.
Спасательный метод описан в [3].
Пример: true
Типы данных: логический
NormalizeCompatibleHits
— Отметьте, чтобы использовать только фрагменты, совместимые со ссылочной расшифровкой стенограммы, чтобы вычислить значения FPKMtrue
(значение по умолчанию) | false
Отметьте, чтобы использовать только фрагменты, совместимые со ссылочной расшифровкой стенограммы, чтобы вычислить значения FPKM, заданные как true
или false
.
Пример: false
Типы данных: логический
NormalizeTotalHits
— Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKMfalse
(значение по умолчанию) | true
Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM, заданные как true
или false
. Если значением является true
, функция включает все фрагменты, включая фрагменты без совместимой ссылки.
Пример: true
Типы данных: логический
NumFragAssignmentDraws
— Количество присвоений фрагмента, чтобы выполнить на каждой расшифровке стенограммы
(значение по умолчанию) | положительное целое числоКоличество присвоений фрагмента, чтобы выполнить на каждой расшифровке стенограммы, заданной как положительное целое число. Для каждого фрагмента, чертившего из расшифровки стенограммы, функция выполняет конкретное количество присвоений вероятностно, чтобы определить неопределенность присвоения расшифровки стенограммы и оценить ковариационную матрицу отклонения для присвоенных количеств фрагмента.
Пример: 40
Типы данных: double
NumFragDraws
— Количество ничьих от отрицательного биномиального генератора случайных чисел
(значение по умолчанию) | положительное целое числоКоличество ничьих от отрицательного биномиального генератора случайных чисел для каждой расшифровки стенограммы, заданной как положительное целое число. Каждый ничья является многими фрагментами, которые функция вероятностно присваивает расшифровкам стенограммы в транскриптоме, чтобы определить неопределенность присвоения и оценить ковариационную матрицу отклонения для присвоенных количеств фрагмента.
Пример: 90
Типы данных: double
NumThreads
— Количество параллельных потоков, чтобы использовать
(значение по умолчанию) | положительное целое числоКоличество параллельных потоков, чтобы использовать, заданный как положительное целое число. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.
Пример 4
Типы данных: double
OutputDirectory
— Директория, чтобы сохранить результаты анализаcurrentDirectory
) (значение по умолчанию) | представляет в виде строки | вектор символовДиректория, чтобы сохранить результаты анализа, заданные как строка или вектор символов.
Пример: "./AnalysisResults/"
Типы данных: char |
string
Seed
— Отберите для генератора случайных чисел
(значение по умолчанию) | неотрицательное целое числоОтберите для генератора случайных чисел, заданного как неотрицательное целое число. Устанавливание значения seed гарантирует воспроизводимость результатов анализа.
Пример: 10
Типы данных: double
TimeSeries
— Отметьте, чтобы обработать входные выборки как временные рядыfalse
(значение по умолчанию) | true
Отметьте, чтобы обработать входные выборки как временные ряды, а не как независимые экспериментальные условия, заданные как true
или false
. Если вы устанавливаете значение к true
, необходимо обеспечить выборки в порядке увеличивающегося времени: первый файл SAM должен быть впервые точкой, вторым файлом SAM для точки второго раза, и так далее.
Пример:
true
Типы данных: логический
Version
— Поддерживаемая версияЭто свойство доступно только для чтения.
Поддерживаемая версия исходного программного обеспечения запонок, возвращенного как строка.
Пример: "2.2.1"
Типы данных: string
getCommand | Переведите свойства объектов в исходный синтаксис опций |
getOptionsTable | Возвратите таблицу со всеми свойствами и эквивалентные опции в исходном синтаксисе |
Создайте CuffDiffOptions
объект со значениями по умолчанию.
opt = CuffDiffOptions;
Создайте объект с помощью пар "имя-значение".
opt2 = CuffDiffOptions('FalseDiscoveryRate',0.01,'NumThreads',4)
Создайте объект при помощи исходного синтаксиса.
opt3 = CuffDiffOptions('--FDR 0.01 --num-threads 4')
Создайте CufflinksOptions
объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.
cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";
Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA
и gyrB
) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks
.
sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",... "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];
Соберите транскриптом от выровненных чтений.
[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);
gtfs
список файлов GTF, которые содержат собранные изоформы.
Сравните собранные изоформы с помощью cuffcompare
.
stats = cuffcompare(gtfs);
Объедините собранные расшифровки стенограммы с помощью cuffmerge
.
mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');
mergedGTF
отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом и cuffmerge
не может отличить два отличных гена. Вести cuffmerge
, используйте ссылочный GTF (gyrAB.gtf
) содержа информацию об этих двух генах. Если файл не расположен в той же директории, что вы запускаете cuffmerge
от, необходимо также задать путь к файлу.
gyrAB = which('gyrAB.gtf'); mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',... 'ReferenceGTF',gyrAB);
Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.
abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... 'OutputDirectory','./cuffquantOutput1'); abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],... 'OutputDirectory','./cuffquantOutput2');
Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения тестирования дифференциала с помощью cuffdiff
. cuffdiff
функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant
, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff
выполнять статистический анализ. Поскольку cuffdiff
возвращает несколько файлов, укажите, что выходная директория рекомендуется.
isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],... 'OutputDirectory','./cuffdiffOutput');
Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB
и gyrA
.
readtable(isoformDiff,'FileType','text')
ans = 2×14 table test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2_fold_change_ test_stat p_value q_value significant ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ 'TCONS_00000001' 'XLOC_000001' 'gyrB' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 1.0913e+05 4.2228e+05 1.9522 7.8886 5e-05 5e-05 'yes' 'TCONS_00000002' 'XLOC_000001' 'gyrA' 'NC_000912.1:2868-7340' 'q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
Можно использовать cuffnorm
сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm
результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальный анализ выражения с помощью cuffnorm
.
Задайте массив ячеек, где каждый элемент является вектором строки, содержащим имена файлов для одной выборки с, реплицирует.
alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],... ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,... 'OutputDirectory', './cuffnormOutput');
Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.
readtable(isoformNorm,'FileType','text')
ans = 2×7 table tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ________________ __________ __________ __________ __________ __________ __________ 'TCONS_00000001' 1.0913e+05 78628 1.2132e+05 4.3639e+05 4.2228e+05 4.2814e+05 'TCONS_00000002' 3.5158e+05 3.7458e+05 3.4238e+05 1.0483e+05 1.1546e+05 1.1105e+05
Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.
[1] Trapnell, C., Б. Уильямс, Г. Пертеа, А. Мортэзэви, Г. Кван, Дж. ван Бэрен, С. Залцберг, B. Пустошь и Л. Пэчтер. 2010. Блок расшифровки стенограммы и квантификация RNA-Seq показывают неаннотируемые расшифровки стенограммы и изоформу, переключающуюся во время клеточной дифференцировки. Биотехнология природы. 28:511–515.
[2] Андерс, S. и В. Хубер. 2010. Дифференциальный анализ выражения для последовательности считает данные. Биология генома. 11:R106.
[3] Mortazavi, A., Б. Уильямс, К. Макку, Л. Шэеффер и Б. Уолд. 2008. Отображение и определение количества транскриптомов млекопитающих RNA-Seq. Методы природы. 5:621-628.
CufflinksOptions
| cuffcompare
| cuffdiff
| cuffgffread
| cuffgtf2sam
| cufflinks
| cuffmerge
| cuffnorm
| cuffquant
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.