cufflinks

Соберите транскриптом от выровненных чтений

Описание

пример

cufflinks(alignmentFiles) собирает транскриптом от выровненных чтений в alignmentFile и определяет количество уровня выражения для каждой расшифровки стенограммы [1]. По умолчанию функция пишет результаты в файл с именем GTF transcripts.gtf в текущем каталоге.

cufflinks требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Примечание

cufflinks поддерживается на Mac и платформах UNIX® только.

cufflinks(alignmentFiles,cufflinksOptions) дополнительные опции использования заданы cufflinksOptions.

cufflinks(alignmentFiles,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cufflinks(alignmentFile,'TrimCoverageThreshold',5) задает минимальное среднее покрытие для 3' обрезки конца.

[transcripts,isoforms,genes,skippedTranscripts] = cufflinks(___) возвращает имена файлов собранного транскриптома с помощью любой из комбинаций входных аргументов от предыдущих синтаксисов. По умолчанию функция сохранила все файлы к текущему каталогу.

Примеры

свернуть все

Создайте CufflinksOptions объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.

cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";

Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.

sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",...
        "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];

Соберите транскриптом от выровненных чтений.

[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);

gtfs список файлов GTF, которые содержат собранные изоформы.

Сравните собранное использование изоформ cuffcompare.

stats = cuffcompare(gtfs);

Объедините собранное использование расшифровок стенограммы cuffmerge.

mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');

mergedGTF отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge не может отличить два отличных гена. Вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge от, необходимо также задать путь к файлу.

gyrAB = which('gyrAB.gtf');
mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',...
			'ReferenceGTF',gyrAB);

Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.

abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                        'OutputDirectory','./cuffquantOutput1');
abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],...
                        'OutputDirectory','./cuffquantOutput2');

Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff. cuffdiff функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff выполнять статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.

isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],...
                      'OutputDirectory','./cuffdiffOutput');

Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.

readtable(isoformDiff,'FileType','text')
ans =

  2×14 table

        test_id            gene_id        gene              locus             sample_1    sample_2    status     value_1       value_2      log2_fold_change_    test_stat    p_value    q_value    significant
    ________________    _____________    ______    _______________________    ________    ________    ______    __________    __________    _________________    _________    _______    _______    ___________

    'TCONS_00000001'    'XLOC_000001'    'gyrB'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     1.0913e+05    4.2228e+05          1.9522           7.8886      5e-05      5e-05        'yes'   
    'TCONS_00000002'    'XLOC_000001'    'gyrA'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     3.5158e+05    1.1546e+05         -1.6064          -7.3811      5e-05      5e-05        'yes'   

Можно использовать cuffnorm сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm.

Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.

alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                  ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
                      'OutputDirectory', './cuffnormOutput');

Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.

readtable(isoformNorm,'FileType','text')
ans =

  2×7 table

      tracking_id          q1_0          q1_2          q1_1          q2_1          q2_0          q2_2   
    ________________    __________    __________    __________    __________    __________    __________

    'TCONS_00000001'    1.0913e+05         78628    1.2132e+05    4.3639e+05    4.2228e+05    4.2814e+05
    'TCONS_00000002'    3.5158e+05    3.7458e+05    3.4238e+05    1.0483e+05    1.1546e+05    1.1105e+05

Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.

Входные параметры

свернуть все

Имена SAM или файлов BAM в виде строки, представьте в виде строки вектор, вектор символов или массив ячеек из символьных векторов. Входные файлы должны быть отсортированы по ссылочному положению.

Пример: 'Myco_1_1.sam'

Типы данных: char | string

Опции запонок в виде CufflinksOptions объект, вектор символов или строка. Вектор символов или строка должны быть в синтаксисе опции запонок (снабжены префиксом одним или двумя тире) [1].

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cufflinks(alignmentFile,'TrimCoverageThreshold',5,'FragmentLengthMean',180)

Отметьте, чтобы нормировать количества фрагмента к фрагментам на kilobase на миллион сопоставленных чтений (FPKM) в виде true или false.

Пример: 'EffectiveLengthCorrection',false

Типы данных: логический

Дополнительные команды в виде строки или вектора символов.

Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB®.

Пример: 'ExtraCommand','--library-type fr-secondstrand'

Типы данных: char | string

Отметьте, чтобы включать ссылочные расшифровки стенограммы в собранный выход как поддельные чтения во время RABT (усовершенствованная ссылочная основанная на аннотации расшифровка стенограммы) блок в виде true или false.

Примечание

Функция только выполняет блок RABT, если вы задаете GTFGuide. В противном случае, FauxReadTiling, независимо от того, чтобы быть true или false, не оказывает влияния на собранную расшифровку стенограммы.

Пример: 'FauxReadTiling',false

Типы данных: логический

Имя файла FASTA со ссылочными расшифровками стенограммы, чтобы обнаружить смещение во фрагменте рассчитывает в виде строки или вектора символов. Подготовка библиотеки может ввести специфичное для последовательности смещение в эксперименты RNA-Seq. Обеспечение ссылочных расшифровок стенограммы улучшает точность оценок распространенности расшифровки стенограммы.

Пример: 'FragmentBiasCorrection','ref.fasta'

Типы данных: char | string

Ожидаемая средняя длина фрагмента в виде положительного целого числа. Значением по умолчанию является 200 пары оснований. Функция может изучить среднее значение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.

Пример: 'FragmentLengthMean',100

Типы данных: double

Ожидаемое стандартное отклонение для распределения длины фрагмента в виде положительной скалярной величины. Значением по умолчанию является 80 пары оснований. Функция может изучить стандартное отклонение длины фрагмента для каждого файла SAM. Используя эту опцию не рекомендуется для чтений парного конца.

Пример: 'FragmentLengthSTD',70

Типы данных: double

Имя файла GTF, чтобы вести блок RABT в виде строки или вектора символов.

Пример: 'GTFGuide','tr.gtf'

Типы данных: char | string

Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций в виде true или false.

Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Примечание

Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: логический

Количество пар оснований от чтения позволило перекрываться с интроном расшифровки стенограммы при определении, является ли чтение отображаемым к другой расшифровке стенограммы во время блока RABT в виде положительного целого числа. Значением по умолчанию является 8.

Примечание

Функция только выполняет блок RABT, если вы задаете GTFGuide. В противном случае, RABTOverhangTolerance не оказывает влияния на собранную расшифровку стенограммы.

Пример: 'IntronOverhangTolerance',10

Типы данных: double

Альфа-значение в биномиальном тесте, чтобы отфильтровать ложно-положительные выравнивания в виде скаляра между 0 и 1.

Пример: 'JunctionAlpha',0.005

Типы данных: double

Отметьте, чтобы откорректировать длиной расшифровки стенограммы в виде true или false. Установите это значение к false только, когда количество фрагмента независимо от размера элемента, такой что касается небольших библиотек RNA без фрагментации и для 3' секвенирования конца, где все фрагменты имеют ту же длину.

Пример: 'LengthCorrection',false

Типы данных: логический

Имя GTF или файла GFF, содержащего расшифровки стенограммы, чтобы проигнорировать во время анализа в виде строки или вектора символов. Некоторые примеры расшифровок стенограммы, чтобы проигнорировать включают аннотируемые rRNA расшифровки стенограммы, митохондриальные расшифровки стенограммы и другие богатые расшифровки стенограммы. Игнорирование этих расшифровок стенограммы улучшает робастность оценок распространенности.

Пример: 'MaskFile','excludes.gtf'

Типы данных: char | string

Максимальное количество фрагментов, чтобы включать для каждого местоположения прежде, чем пропустить новые фрагменты в виде положительного целого числа. Пропущенные фрагменты отмечены состоянием HIDATA в файле skipped.gtf.

Пример: 'MaxBundleFrags',400000

Типы данных: double

Максимальная геномная длина в парах оснований для пакета в виде положительного целого числа.

Пример: 'MaxBundleLength',3400000

Типы данных: double

Максимальное количество выровненных чтений, чтобы включать для каждого фрагмента прежде, чем пропустить новые чтения в виде положительного целого числа. Inf, значение по умолчанию, не устанавливает предела для максимального количества выровненных чтений.

Пример: 'MaxFragAlignments',1000

Типы данных: double

Максимальное количество базисов в интроне, чтобы сообщить в виде положительного целого числа. cufflinks также игнорирует выравнивания SAM с операциями REF_SKIP CIGAR дольше, чем это значение свойства.

Пример: 'MaxIntronLength',350000

Типы данных: double

Максимальное количество итераций для оценки наибольшего правдоподобия распространенностей в виде положительного целого числа.

Пример: 'MaxMLEIterations',4000

Типы данных: double

Минимальное количество выровненных фрагментов RNA-Seq, чтобы сообщить относительно собранного transfrag в виде положительного целого числа.

Пример: 'MinFragsPerTransfrag',15

Типы данных: double

Минимальное количество пар оснований для интрона в геноме в виде положительного целого числа.

Пример: 'MinIntronLength',50

Типы данных: double

Значение Каффофф, чтобы сообщить о распространенности конкретной изоформы как часть самой богатой изоформы (главная изоформа) в виде скаляра между 0 и 1. Функция отфильтровывает расшифровки стенограммы с распространенностями ниже заданного значения, потому что изоформы, описанные по поводу низких уровней часто, не могут собираться надежно. Значение по умолчанию 0.1, или 10%, главной изоформы гена.

Пример: 'MinIsoformFraction',0.20

Типы данных: double

Отметьте, чтобы улучшить оценку распространенности для чтений, сопоставленных с несколькими геномными положениями с помощью спасательного метода в виде true или false. Если значением является false, функция делит мультисопоставленные чтения однородно ко всем сопоставленным позициям. Если значением является true, функция использует дополнительную информацию, включая генную оценку распространенности, выведенную длину фрагмента, и смещение фрагмента, чтобы улучшить оценку распространенности расшифровки стенограммы.

Спасательный метод описан в [2].

Пример: true

Типы данных: логический

Отметьте, чтобы использовать только фрагменты, совместимые со ссылочной расшифровкой стенограммы, чтобы вычислить значения FPKM в виде true или false.

Пример: 'NormalizeCompatibleHits',false

Типы данных: логический

Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM в виде true или false. Если значением является true, функция включает все фрагменты, включая фрагменты без совместимой ссылки.

Пример: 'NormalizeTotalHits',true

Типы данных: логический

Количество присвоений фрагмента, чтобы выполнить на каждой расшифровке стенограммы в виде положительного целого числа. Для каждого фрагмента, чертившего из расшифровки стенограммы, функция выполняет конкретное количество присвоений вероятностно, чтобы определить неопределенность присвоения расшифровки стенограммы и оценить ковариационную матрицу отклонения для присвоенных количеств фрагмента.

Пример: 'NumFragAssignmentSamples',40

Типы данных: double

Количество ничьих от отрицательного биномиального генератора случайных чисел для каждой расшифровки стенограммы в виде положительного целого числа. Каждый ничья является многими фрагментами, которые функция вероятностно присваивает расшифровкам стенограммы в транскриптоме, чтобы определить неопределенность присвоения и оценить ковариационную матрицу отклонения для присвоенных количеств фрагмента.

Пример: 'NumFragSamples',90

Типы данных: double

Количество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.

Пример: 'NumThreads',4

Типы данных: double

Директория, чтобы сохранить результаты анализа в виде строки или вектора символов.

Пример: 'OutputDirectory',"./AnalysisResults/"

Типы данных: char | string

Количество пар оснований перекрытия с интроном, который функция позволяет при определении, совместимо ли чтение с другой расшифровкой стенограммы в виде положительного целого числа.

Пример: 'OverhangTolerance',5

Типы данных: double

Количество пар оснований позволило нависать над 3' концами каждой ссылочной расшифровки стенограммы во время блока RABT в виде положительного целого числа. Функция использует это свойство при решении, нова ли собранная расшифровка стенограммы или должна быть объединена со ссылкой.

Примечание

Функция только выполняет блок RABT, если вы задаете GTFGuide. В противном случае, RABTOverhangTolerance3 не оказывает влияния на собранную расшифровку стенограммы.

Пример: 'OverhangTolerance3',500

Типы данных: double

Расстояние между transfrags в виде положительного целого числа. Если расстояние ниже заданного значения, функция объединяет transfrags. Значением по умолчанию является 50 пары оснований.

Пример: 'OverlapRadius',40

Типы данных: double

Порог, чтобы включать выравнивания в интронные интервалы в блоке в виде скаляра между 0 и 1. Функция игнорирует интронные выравнивания, если минимальная глубина покрытия, разделенного на количество соединенных чтений, ниже заданного значения. Используйте это свойство отфильтровать чтения, происходящие из не полностью соединенных расшифровок стенограммы.

Пример: 'PreMRNAFraction',0.10

Типы данных: double

Имя GTF или файла GFF, содержащего ссылочную аннотацию раньше, оценивало выражение изоформы в виде строки или вектора символов. Если вы обеспечиваете ReferenceGTF файл, функция не собирает новых расшифровок стенограммы и игнорирует любые выравнивания, несовместимые со ссылочными расшифровками стенограммы.

Пример: 'ReferenceGTF',"isoest.gtf"

Типы данных: char | string

Отберите для генератора случайных чисел в виде неотрицательного целого числа. Устанавливание значения seed гарантирует воспроизводимость результатов анализа.

Пример: 'Seed',10

Типы данных: double

Минимальный процент выравнивания на каждой стороне соединения соединения встык в виде скаляра между 0 и 1. Функция фильтрует выравнивания с процентом, меньшим, чем это значение свойства до блока.

Пример: 'SmallAnchorFraction',0.1

Типы данных: double

Префикс для transfrags, о котором сообщают, в файле выхода GTF в виде строки или вектора символов. Эта опция должна быть строкой или вектором символов с ненулевой длиной.

Пример: 'TranscriptPrefix',"tfrags"

Типы данных: char | string

Минимальное среднее покрытие для 3' обрезки в виде положительного целого числа.

Пример: 'TrimCoverageThreshold',8

Типы данных: double

Минимальный процент среднего покрытия для обрезки 3' концов собранных расшифровок стенограммы в виде скаляра между 0 и 1.

Пример: 'TrimDropoffFraction',0.15

Типы данных: double

Выходные аргументы

свернуть все

Имя файла расшифровки стенограммы, возвращенное как строка. Именем файла является "transcripts.gtf". Файл содержит собранные изоформы, наряду с атрибутами, описывающими распространенность чтений, происходящих из каждой расшифровки стенограммы.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory к "/local/tmp/", выход становится "/local/tmp/transcripts.gtf".

Предполагаемое имя файла выражения уровня изоформы, возвращенное как строка. По умолчанию именем файла является "isoforms.fpkm_tracking". Файл содержит оценки для выражения уровня изоформы в cufflinks FPKM отслеживание формата.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory к "/local/tmp/", выход становится "/local/tmp/isoforms.fpkm_tracking".

Предполагаемое имя файла выражения генного уровня, возвращенное как строка. По умолчанию именем файла является "genes.fpkm_tracking". Файл содержит оценки для выражения генного уровня в cufflinks FPKM отслеживание формата.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory к "/local/tmp/", выход становится "/local/tmp/genes.fpkm_tracking".

Имя файла, содержащего пропущенные расшифровки стенограммы при обработке местоположения, возвращенного как строка. По умолчанию именем файла является "skipped.gtf". 'MaxBundleFrags' опция задает максимальное количество расшифровок стенограммы (фрагменты), чтобы включать для каждого местоположения. После достижения порога функция помещает пропущенные фрагменты в этот файл.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory к "/local/tmp/", выход становится "/local/tmp/skipped.gtf".

Ссылки

[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15.

[2] Mortazavi, Али, Брайан А Уильямс, Кеннет Макку, Лориэн Шэеффер и Барбара Уолд. “Сопоставляя и Определяя количество Транскриптомов млекопитающих RNA-Seq”. Методы природы 5, № 7 (июль 2008): 621–28. https://doi.org/10.1038/nmeth.1226.

Введенный в R2019a