cuffnorm

Нормируйте уровни экспрессии расшифровки стенограммы

свернуть все на странице

Синтаксис

cuffnorm(transcriptsAnnot,alignmentFiles)

cuffnorm(transcriptsAnnot,alignmentFiles,opt)

cuffnorm(transcriptsAnnot,alignmentFiles,Name,Value)

[isoform,gene,tss,cds] = cuffnorm(___)

Описание

пример

cuffnorm(transcriptsAnnot,alignmentFiles) нормирует выражение расшифровки стенограммы к FPKM для выборок в alignmentFiles и корректирует для различий в размере библиотеки [1].

cuffnorm требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Примечание

cuffnorm поддерживается на Mac и платформах UNIX^® только.

cuffnorm(transcriptsAnnot,alignmentFiles,opt) дополнительные опции использования заданы opt.

cuffnorm(transcriptsAnnot,alignmentFiles,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cuffnorm('gyrAB.gtf',["Myco_1_1.sam", "Myco_2_1.sam"],'NumThreads',5) задает, чтобы использовать пять параллельных потоков.

[isoform,gene,tss,cds] = cuffnorm(___) возвращает имена файлов, содержащих нормированные результаты с помощью любой из комбинаций входных аргументов в предыдущих синтаксисах. По умолчанию функция сохранила все файлы к текущему каталогу.

Примеры

свернуть все

Соберите транскриптом и нормируйте уровни экспрессии

Создайте CufflinksOptions объект задать опции запонок, такие как количество параллельных потоков и выходной директории, чтобы сохранить результаты.

cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";

Файлы SAM предусмотрели этот пример, содержат выровненные чтения для Микоплазмы pneumoniae от двух выборок с три, реплицирует каждого. Чтения симулированы 100bp-чтения для двух генов (gyrA и gyrB) расположенный друг рядом с другом на геноме. Все чтения сортируются по ссылочному положению, как требуется по cufflinks.

sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",...
        "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];

Соберите транскриптом от выровненных чтений.

[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);

gtfs список файлов GTF, которые содержат собранные изоформы.

Сравните собранное использование изоформ cuffcompare.

stats = cuffcompare(gtfs);

Объедините собранное использование расшифровок стенограммы cuffmerge.

mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');

mergedGTF отчеты только одна расшифровка стенограммы. Это вызвано тем, что два гена интереса расположены друг рядом с другом, и cuffmerge не может отличить два отличных гена. Вести cuffmerge, используйте ссылочный GTF (gyrAB.gtf) содержа информацию об этих двух генах. Если файл не расположен в той же директории, которую вы запускаете cuffmerge от, необходимо также задать путь к файлу.

gyrAB = which('gyrAB.gtf');
mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',...
			'ReferenceGTF',gyrAB);

Вычислите распространенности (уровни экспрессии) от выровненных чтений для каждой выборки.

abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                        'OutputDirectory','./cuffquantOutput1');
abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],...
                        'OutputDirectory','./cuffquantOutput2');

Оцените значение изменений в выражении для генов и расшифровок стенограммы между условиями путем выполнения использования тестирования дифференциала cuffdiff. cuffdiff функция действует на двух отличных шагах: функция сначала оценивает распространенности от выровненных чтений, и затем выполняет статистический анализ. В некоторых случаях (например, распределяя вычисляющий загрузку через несколько рабочих), выполнение двух шагов отдельно желательно. После выполнения первого шага с cuffquant, можно затем использовать бинарный выходной файл CXB в качестве входа к cuffdiff выполнять статистический анализ. Поскольку cuffdiff возвращает несколько файлов, укажите, что выходная директория рекомендуется.

isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],...
                      'OutputDirectory','./cuffdiffOutput');

Отобразите таблицу, содержащую дифференциальные результаты испытаний выражения для этих двух генов gyrB и gyrA.

readtable(isoformDiff,'FileType','text')

ans =

  2×14 table

        test_id            gene_id        gene              locus             sample_1    sample_2    status     value_1       value_2      log2_fold_change_    test_stat    p_value    q_value    significant
    ________________    _____________    ______    _______________________    ________    ________    ______    __________    __________    _________________    _________    _______    _______    ___________

    'TCONS_00000001'    'XLOC_000001'    'gyrB'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     1.0913e+05    4.2228e+05          1.9522           7.8886      5e-05      5e-05        'yes'   
    'TCONS_00000002'    'XLOC_000001'    'gyrA'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     3.5158e+05    1.1546e+05         -1.6064          -7.3811      5e-05      5e-05        'yes'

Можно использовать cuffnorm сгенерировать нормированные таблицы выражения для последующих анализов. cuffnorm результаты полезны, когда у вас есть много выборок, и вы хотите кластеризировать их или уровни экспрессии графика для генов, которые важны в вашем исследовании. Обратите внимание на то, что вы не можете выполнить дифференциальное аналитическое использование выражения cuffnorm.

Задайте массив ячеек, где каждым элементом является вектор строки, содержащий имена файлов для одной выборки с, реплицирует.

alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                  ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
                      'OutputDirectory', './cuffnormOutput');

Отобразите таблицу, содержащую нормированные уровни экспрессии для каждой расшифровки стенограммы.

readtable(isoformNorm,'FileType','text')

ans =

  2×7 table

      tracking_id          q1_0          q1_2          q1_1          q2_1          q2_0          q2_2   
    ________________    __________    __________    __________    __________    __________    __________

    'TCONS_00000001'    1.0913e+05         78628    1.2132e+05    4.3639e+05    4.2228e+05    4.2814e+05
    'TCONS_00000002'    3.5158e+05    3.7458e+05    3.4238e+05    1.0483e+05    1.1546e+05    1.1105e+05

Имена столбцов начиная с q имеют формат: conditionX_N, указывая, что столбец содержит значения для, реплицируют N conditionX.

Входные параметры

свернуть все

`transcriptsAnnot` — Имя файла аннотации расшифровки стенограммы
представьте в виде строки | вектор символов

Имя файла аннотации расшифровки стенограммы в виде строки или вектора символов. Файл может быть GTF или файлом GFF, произведенным cufflinks, cuffcompare, или другой источник аннотаций GTF.

Пример: "gyrAB.gtf"

Типы данных: char | string

`alignmentFiles` — Имена СЭМА, BAM или файлов CXB
представьте вектор в виде строки | массив ячеек

Имена СЭМА, BAM или файлов CXB, содержащих выравнивание, записывают для каждой выборки в виде векторного массива строки или массива ячеек. Если вы используете массив ячеек, каждым элементом должен быть вектор строки или массив ячеек из символьных векторов, задающий файлы выравнивания для каждого реплицируют той же выборки.

Пример: ["Myco_1_1.sam", "Myco_2_1.sam"]

Типы данных: char | string | cell

`opt` — `cuffnorm` опции
`CuffNormOptions` возразите | строка | вектор символов

cuffnorm опции в виде CuffNormOptions объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале cuffnorm синтаксис опции (снабженный префиксом одним или двумя тире) [1].

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cuffnorm('gyrAB.gtf',["Myco_1_1.sam", "Myco_2_1.sam"],'NumThreads',5)

`'ExtraCommand'` — Дополнительные команды
`""` (значение по умолчанию) | представляет в виде строки | вектор символов

Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB^®.

Пример: 'ExtraCommand','--library-type fr-secondstrand'

Типы данных: char | string

`'IncludeAll'` — Отметьте, чтобы применить все доступные параметры
`false` (значение по умолчанию) | `true`

Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Примечание

Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: логический

`'Labels'` — Метки для выборок
`[]` (значение по умолчанию) | представляет в виде строки | вектор символов | вектор строки | массив ячеек из символьных векторов

Метки для выборок в виде строки, вектора символов, представляют в виде строки вектор или массив ячеек из символьных векторов. Если вы обеспечиваете метки, необходимо задать то же количество меток как входные выборки.

Пример: 'Labels',["mutant1","mutant2"]

Типы данных: char | string | cell

`'LibraryNormalizationMethod'` — Метод, чтобы нормировать размер библиотеки
`"geometric"` (значение по умолчанию) | `"classic-fpkm"` | `"quartile"`

Метод, чтобы нормировать размер библиотеки в виде одной из следующих опций:

"geometric" — Функция масштабирует значения FPKM средним геометрическим средним значением количеств фрагмента через все библиотеки как описано в [2].
"classic-fpkm" — Функция не применяет масштабирования к значениям FPKM или количествам фрагмента.
"quartile" — Функция масштабирует значения FPKM отношением верхних квартилей между количествами фрагмента и средним значением через все библиотеки.

Пример: 'LibraryNormalizationMethod',"classic-fpkm"

Типы данных: char | string

`'NormalizeCompatibleHits'` — Отметьте, чтобы использовать только фрагменты, совместимые со ссылочной расшифровкой стенограммы, чтобы вычислить значения FPKM
`true` (значение по умолчанию) | `false`

Отметьте, чтобы использовать только фрагменты, совместимые со ссылочной расшифровкой стенограммы, чтобы вычислить значения FPKM в виде true или false.

Пример: 'NormalizeCompatibleHits',false

Типы данных: логический

`'NormalizeTotalHits'` — Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM
`false` (значение по умолчанию) | `true`

Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM в виде true или false. Если значением является true, функция включает все фрагменты, включая фрагменты без совместимой ссылки.

Пример: 'NormalizeTotalHits',true

Типы данных: логический

`'NumThreads'` — Количество параллельных потоков, чтобы использовать
1 (значение по умолчанию) | положительное целое число

Количество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.

Пример: 'NumThreads',4

Типы данных: double

`'OutputDirectory'` — Директория, чтобы сохранить результаты анализа
`currentDirectory`) (значение по умолчанию) | представляет в виде строки | вектор символов

Директория, чтобы сохранить результаты анализа в виде строки или вектора символов.

Пример: 'OutputDirectory',"./AnalysisResults/"

Типы данных: char | string

`'OutputFormat'` — Формат для файлов результата
`"simple-table"` (значение по умолчанию) | `"cuffdiff"`

Формат для файлов результата в виде "simple-table" или "cuffdiff".

"simple-table" — Выход находится в разграниченном вкладкой формате таблицы.
"cuffdiff" — Выход находится в той же форме, используемой cuffdiff.

Пример: 'OutputFormat',"cuffdiff"

Типы данных: char | string

`'Seed'` — Отберите для генератора случайных чисел
0 (значение по умолчанию) | неотрицательное целое число

Отберите для генератора случайных чисел в виде неотрицательного целого числа. Устанавливание значения seed гарантирует воспроизводимость результатов анализа.

Пример: 'Seed',10

Типы данных: double

Выходные аргументы

свернуть все

`isoform` — Имя файла, содержащего нормированный уровень экспрессии для изоформы
`"./isoforms.fpkm_table"`

Имя файла, содержащего нормированный уровень экспрессии для каждой изоформы, возвращенной как строка.

Выводимая строка также включает информацию о директории, заданную OutputDirectory. Значением по умолчанию является текущий каталог. Если вы устанавливаете OutputDirectory к "/local/tmp/", выход становится "/local/tmp/isoforms.fpkm_table".

`gene` — Имя файла, содержащего нормированный уровень экспрессии для гена
`"./genes.fpkm_table"`

Имя файла, содержащего нормированный уровень экспрессии для каждого гена, возвращенного как строка.

`tss` — Имя файла, содержащего нормированный уровень экспрессии для расшифровки стенограммы, создает сайт
`"./tss_groups.fpkm_table"`

Имя файла, содержащего нормированный уровень экспрессии для каждой расшифровки стенограммы создает сайт (TSS), возвращенной как строка.

`cds` — Имя файла, содержащего нормированный уровень экспрессии для кодирования последовательности
`"./cds.fpkm_table"`

Имя файла, содержащего нормированный уровень экспрессии для каждой последовательности кодирования, возвращенной как строка.

Ссылки

[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15.

Смотрите также

cufflinks | CuffNormOptions

Темы

Пакеты программной поддержки Bioinformatics Toolbox

Внешние веб-сайты

Руководство запонок

Введенный в R2019a

Документация

cuffnorm

Синтаксис

Описание

Примеры

Соберите транскриптом и нормируйте уровни экспрессии

Входные параметры

`transcriptsAnnot` — Имя файла аннотации расшифровки стенограммы
представьте в виде строки | вектор символов

`alignmentFiles` — Имена СЭМА, BAM или файлов CXB
представьте вектор в виде строки | массив ячеек

`opt` — `cuffnorm` опции
`CuffNormOptions` возразите | строка | вектор символов

Аргументы в виде пар имя-значение

`'ExtraCommand'` — Дополнительные команды
`""` (значение по умолчанию) | представляет в виде строки | вектор символов

`'IncludeAll'` — Отметьте, чтобы применить все доступные параметры
`false` (значение по умолчанию) | `true`

`'Labels'` — Метки для выборок
`[]` (значение по умолчанию) | представляет в виде строки | вектор символов | вектор строки | массив ячеек из символьных векторов

`'LibraryNormalizationMethod'` — Метод, чтобы нормировать размер библиотеки
`"geometric"` (значение по умолчанию) | `"classic-fpkm"` | `"quartile"`

`'NormalizeTotalHits'` — Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM
`false` (значение по умолчанию) | `true`

`'NumThreads'` — Количество параллельных потоков, чтобы использовать
1 (значение по умолчанию) | положительное целое число

`'OutputDirectory'` — Директория, чтобы сохранить результаты анализа
`currentDirectory`) (значение по умолчанию) | представляет в виде строки | вектор символов

`'OutputFormat'` — Формат для файлов результата
`"simple-table"` (значение по умолчанию) | `"cuffdiff"`

`'Seed'` — Отберите для генератора случайных чисел
0 (значение по умолчанию) | неотрицательное целое число

Выходные аргументы

`isoform` — Имя файла, содержащего нормированный уровень экспрессии для изоформы
`"./isoforms.fpkm_table"`

`gene` — Имя файла, содержащего нормированный уровень экспрессии для гена
`"./genes.fpkm_table"`

`tss` — Имя файла, содержащего нормированный уровень экспрессии для расшифровки стенограммы, создает сайт
`"./tss_groups.fpkm_table"`

`cds` — Имя файла, содержащего нормированный уровень экспрессии для кодирования последовательности
`"./cds.fpkm_table"`

Ссылки

Смотрите также

Темы

Внешние веб-сайты

Документация Bioinformatics Toolbox

Поддержка

Документация

cuffnorm

Синтаксис

Описание

Примеры

Соберите транскриптом и нормируйте уровни экспрессии

Входные параметры

transcriptsAnnot — Имя файла аннотации расшифровки стенограммы представьте в виде строки | вектор символов

alignmentFiles — Имена СЭМА, BAM или файлов CXB представьте вектор в виде строки | массив ячеек

opt — cuffnorm опции CuffNormOptions возразите | строка | вектор символов

Аргументы в виде пар имя-значение

'ExtraCommand' — Дополнительные команды "" (значение по умолчанию) | представляет в виде строки | вектор символов

'IncludeAll' — Отметьте, чтобы применить все доступные параметры false (значение по умолчанию) | true

'Labels' — Метки для выборок [] (значение по умолчанию) | представляет в виде строки | вектор символов | вектор строки | массив ячеек из символьных векторов

'LibraryNormalizationMethod' — Метод, чтобы нормировать размер библиотеки "geometric" (значение по умолчанию) | "classic-fpkm" | "quartile"

'NormalizeTotalHits' — Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM false (значение по умолчанию) | true

'NumThreads' — Количество параллельных потоков, чтобы использовать1 (значение по умолчанию) | положительное целое число

'OutputDirectory' — Директория, чтобы сохранить результаты анализа currentDirectory) (значение по умолчанию) | представляет в виде строки | вектор символов

'OutputFormat' — Формат для файлов результата "simple-table" (значение по умолчанию) | "cuffdiff"

'Seed' — Отберите для генератора случайных чисел0 (значение по умолчанию) | неотрицательное целое число

Выходные аргументы

isoform — Имя файла, содержащего нормированный уровень экспрессии для изоформы "./isoforms.fpkm_table"

gene — Имя файла, содержащего нормированный уровень экспрессии для гена "./genes.fpkm_table"

tss — Имя файла, содержащего нормированный уровень экспрессии для расшифровки стенограммы, создает сайт "./tss_groups.fpkm_table"

cds — Имя файла, содержащего нормированный уровень экспрессии для кодирования последовательности "./cds.fpkm_table"

Ссылки

Смотрите также

Темы

Внешние веб-сайты

Документация Bioinformatics Toolbox

Поддержка

`transcriptsAnnot` — Имя файла аннотации расшифровки стенограммы
представьте в виде строки | вектор символов

`alignmentFiles` — Имена СЭМА, BAM или файлов CXB
представьте вектор в виде строки | массив ячеек

`opt` — `cuffnorm` опции
`CuffNormOptions` возразите | строка | вектор символов

`'ExtraCommand'` — Дополнительные команды
`""` (значение по умолчанию) | представляет в виде строки | вектор символов

`'IncludeAll'` — Отметьте, чтобы применить все доступные параметры
`false` (значение по умолчанию) | `true`

`'Labels'` — Метки для выборок
`[]` (значение по умолчанию) | представляет в виде строки | вектор символов | вектор строки | массив ячеек из символьных векторов

`'LibraryNormalizationMethod'` — Метод, чтобы нормировать размер библиотеки
`"geometric"` (значение по умолчанию) | `"classic-fpkm"` | `"quartile"`

`'NormalizeTotalHits'` — Отметьте, чтобы включать все фрагменты, чтобы вычислить значения FPKM
`false` (значение по умолчанию) | `true`

`'NumThreads'` — Количество параллельных потоков, чтобы использовать
1 (значение по умолчанию) | положительное целое число

`'OutputDirectory'` — Директория, чтобы сохранить результаты анализа
`currentDirectory`) (значение по умолчанию) | представляет в виде строки | вектор символов

`'OutputFormat'` — Формат для файлов результата
`"simple-table"` (значение по умолчанию) | `"cuffdiff"`

`'Seed'` — Отберите для генератора случайных чисел
0 (значение по умолчанию) | неотрицательное целое число

`isoform` — Имя файла, содержащего нормированный уровень экспрессии для изоформы
`"./isoforms.fpkm_table"`

`gene` — Имя файла, содержащего нормированный уровень экспрессии для гена
`"./genes.fpkm_table"`

`tss` — Имя файла, содержащего нормированный уровень экспрессии для расшифровки стенограммы, создает сайт
`"./tss_groups.fpkm_table"`

`cds` — Имя файла, содержащего нормированный уровень экспрессии для кодирования последовательности
`"./cds.fpkm_table"`