cuffnorm

Нормализовать уровни выражений транскриптов

свернуть все на странице

Синтаксис

cuffnorm (transcriptsAnnot, alignityFiles)

cuffnorm (transcriptsAnnot, alignureFiles, opt)

cuffnorm (транскрипция Annot, файл, имя, значение)

[изоформа, ген, tss, cds] = манжета (___)

Описание

пример

cuffnorm(transcriptsAnnot,alignmentFiles) нормализует экспрессию транскрипта к FPKM для образцов в alignmentFiles и корректирует различия в размере библиотеки [1].

cuffnorm требуется пакет поддержки «Запонки» для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.

Примечание

cuffnorm поддерживается только на платформах Mac и UNIX ®.

cuffnorm(transcriptsAnnot,alignmentFiles,opt) использует дополнительные параметры, указанные opt.

cuffnorm(transcriptsAnnot,alignmentFiles,Name,Value) использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, cuffnorm('gyrAB.gtf',["Myco_1_1.sam", "Myco_2_1.sam"],'NumThreads',5) указывает на использование пяти параллельных потоков.

[isoform,gene,tss,cds] = cuffnorm(___) возвращает имена файлов, содержащих нормализованные результаты, используя любую из комбинаций входных аргументов в предыдущих синтаксисах. По умолчанию функция сохраняет все файлы в текущей папке.

Примеры

свернуть все

Сборка транскриптома и нормализация уровней экспрессии

Создать CufflinksOptions объект для определения параметров cfflinks, таких как количество параллельных потоков и папка вывода для хранения результатов.

cflOpt = CufflinksOptions;
cflOpt.NumThreads = 8;
cflOpt.OutputDirectory = "./cufflinksOut";

Файлы SAM, представленные в этом примере, содержат выровненные чтения для Mycoplasma pneumoniae из двух образцов с тремя репликациями каждый. Считывание моделируется 100 bp для двух генов (gyrA и gyrB) расположены рядом друг с другом на геноме. Все операции чтения сортируются по ссылочному положению, как требуется cufflinks.

sams = ["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam",...
        "Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"];

Соберите транскриптом из выровненных считываний.

[gtfs,isofpkm,genes,skipped] = cufflinks(sams,cflOpt);

gtfs - список GTF-файлов, содержащих собранные изоформы.

Сравнение собранных изоформ с помощью cuffcompare.

stats = cuffcompare(gtfs);

Объединить собранные стенограммы с помощью cuffmerge.

mergedGTF = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput');

mergedGTF сообщает только одну стенограмму. Это потому, что два интересующих гена расположены рядом друг с другом, и cuffmerge не может различить два различных гена. Вести cuffmerge, использовать эталонный GTF (gyrAB.gtf), содержащий информацию об этих двух генах. Если файл находится не в том же каталоге, в котором выполняется cuffmerge из, необходимо также указать путь к файлу.

gyrAB = which('gyrAB.gtf');
mergedGTF2 = cuffmerge(gtfs,'OutputDirectory','./cuffMergeOutput2',...
			'ReferenceGTF',gyrAB);

Рассчитайте плотность (уровни выражений) на основе выровненных чтений для каждого образца.

abundances1 = cuffquant(mergedGTF2,["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                        'OutputDirectory','./cuffquantOutput1');
abundances2 = cuffquant(mergedGTF2,["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"],...
                        'OutputDirectory','./cuffquantOutput2');

Оцените значимость изменений в экспрессии генов и транскриптов между состояниями, выполнив дифференциальное тестирование с использованием cuffdiff. cuffdiff функция работает в два отдельных шага: функция сначала оценивает изобилие из выровненных считываний, а затем выполняет статистический анализ. В некоторых случаях (например, распределение вычислительной нагрузки между несколькими работниками) выполнение этих двух шагов по отдельности является желательным. После выполнения первого шага с cuffquant, затем можно использовать двоичный выходной файл CXB в качестве входных данных для cuffdiff для выполнения статистического анализа. Поскольку cuffdiff возвращает несколько файлов, укажите рекомендуемый выходной каталог.

isoformDiff = cuffdiff(mergedGTF2,[abundances1,abundances2],...
                      'OutputDirectory','./cuffdiffOutput');

Отображение таблицы, содержащей результаты теста дифференциальной экспрессии для двух генов gyrB и gyrA.

readtable(isoformDiff,'FileType','text')

ans =

  2×14 table

        test_id            gene_id        gene              locus             sample_1    sample_2    status     value_1       value_2      log2_fold_change_    test_stat    p_value    q_value    significant
    ________________    _____________    ______    _______________________    ________    ________    ______    __________    __________    _________________    _________    _______    _______    ___________

    'TCONS_00000001'    'XLOC_000001'    'gyrB'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     1.0913e+05    4.2228e+05          1.9522           7.8886      5e-05      5e-05        'yes'   
    'TCONS_00000002'    'XLOC_000001'    'gyrA'    'NC_000912.1:2868-7340'      'q1'        'q2'       'OK'     3.5158e+05    1.1546e+05         -1.6064          -7.3811      5e-05      5e-05        'yes'

Вы можете использовать cuffnorm для создания нормализованных таблиц выражений для дальнейшего анализа. cuffnorm результаты полезны, когда у вас есть много образцов, и вы хотите сгруппировать их или построить график уровней экспрессии для генов, которые важны в вашем исследовании. Обратите внимание, что невозможно выполнить дифференциальный анализ выражений с помощью cuffnorm.

Укажите массив ячеек, где каждый элемент является строковым вектором, содержащим имена файлов для одного образца с репликациями.

alignmentFiles = {["Myco_1_1.sam","Myco_1_2.sam","Myco_1_3.sam"],...
                  ["Myco_2_1.sam", "Myco_2_2.sam", "Myco_2_3.sam"]}
isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...
                      'OutputDirectory', './cuffnormOutput');

Отображение таблицы, содержащей нормализованные уровни выражений для каждого транскрипта.

readtable(isoformNorm,'FileType','text')

ans =

  2×7 table

      tracking_id          q1_0          q1_2          q1_1          q2_1          q2_0          q2_2   
    ________________    __________    __________    __________    __________    __________    __________

    'TCONS_00000001'    1.0913e+05         78628    1.2132e+05    4.3639e+05    4.2228e+05    4.2814e+05
    'TCONS_00000002'    3.5158e+05    3.7458e+05    3.4238e+05    1.0483e+05    1.1546e+05    1.1105e+05

Имена столбцов, начинающиеся с q, имеют формат conditionX_N, указывающий, что столбец содержит значения для репликации N условия X.

Входные аргументы

свернуть все

`transcriptsAnnot` - Имя файла аннотации стенограммы
строка | символьный вектор

Имя файла аннотации текста, указанного как строковый или символьный вектор. Файл может быть файлом GTF или GFF, созданным cufflinks, cuffcompareили другой источник аннотаций GTF.

Пример: "gyrAB.gtf"

Типы данных: char | string

`alignmentFiles` - имена файлов SAM, BAM или CXB;
строковый вектор | массив ячеек

Имена файлов SAM, BAM или CXB, содержащих записи выравнивания для каждого образца, указанного как строковый вектор или массив ячеек. При использовании массива ячеек каждый элемент должен быть строковым вектором или массивом символьных векторов, задающих файлы выравнивания для каждой копии одного образца.

Пример: ["Myco_1_1.sam", "Myco_2_1.sam"]

Типы данных: char | string | cell

`opt` — `cuffnorm` варианты
`CuffNormOptions` объект | строка | символьный вектор

cuffnorm опции, указанные как CuffNormOptions объект, строка или символьный вектор. Вектор строки или символа должен быть в оригинале cuffnorm синтаксис параметра (префикс одного или двух тире) [1].

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: cuffnorm('gyrAB.gtf',["Myco_1_1.sam", "Myco_2_1.sam"],'NumThreads',5)

`'ExtraCommand'` - Дополнительные команды
`""` (по умолчанию) | строка | символьный вектор

Команды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ^®.

Пример: 'ExtraCommand','--library-type fr-secondstrand'

Типы данных: char | string

`'IncludeAll'` - Флажок для применения всех доступных опций
`false` (по умолчанию) | `true`

Исходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.

Примечание

Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: logical

`'Labels'` - Этикетки для образцов
`[]` (по умолчанию) | строка | вектор символов | вектор строк | массив ячеек векторов символов

Метки для выборок, указанные как строка, символьный вектор, строковый вектор или массив ячеек символьных векторов. При предоставлении меток необходимо указать то же количество меток, что и входные образцы.

Пример: 'Labels',["mutant1","mutant2"]

Типы данных: char | string | cell

`'LibraryNormalizationMethod'` - Метод нормализации размера библиотеки
`"geometric"` (по умолчанию) | `"classic-fpkm"` | `"quartile"`

Метод нормализации размера библиотеки, указанный как один из следующих параметров.

"geometric" - Функция масштабирует значения FPKM на среднее среднее геометрическое количества фрагментов во всех библиотеках, как описано в [2].
"classic-fpkm" - Функция не применяет масштабирование к значениям FPKM или подсчетам фрагментов.
"quartile" - функция масштабирует значения FPKM по соотношению верхних квартилей между количеством фрагментов и средним значением по всем библиотекам.

Пример: 'LibraryNormalizationMethod',"classic-fpkm"

Типы данных: char | string

`'NormalizeCompatibleHits'` - Флаг для использования только фрагментов, совместимых со ссылочным транскриптом, для вычисления значений FPKM
`true` (по умолчанию) | `false`

Флаг для использования только фрагментов, совместимых со ссылочным транскриптом, для вычисления значений FPKM, указанных как true или false.

Пример: 'NormalizeCompatibleHits',false

Типы данных: logical

`'NormalizeTotalHits'` - Флаг для включения всех фрагментов для вычисления значений FPKM
`false` (по умолчанию) | `true`

Флаг для включения всех фрагментов для вычисления значений FPKM, указанных как true или false. Если значение равно trueфункция включает все фрагменты, включая фрагменты без совместимой ссылки.

Пример: 'NormalizeTotalHits',true

Типы данных: logical

`'NumThreads'` - Количество параллельных потоков для использования
`1` (по умолчанию) | положительное целое число

Число параллельных потоков для использования, указанное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков, как правило, значительно улучшает время выполнения, но увеличивает объем памяти.

Пример: 'NumThreads',4

Типы данных: double

`'OutputDirectory'` - Каталог для хранения результатов анализа
текущий каталог (`"./"`) (по умолчанию) | строка | символьный вектор

Каталог для хранения результатов анализа, указанный как строковый или символьный вектор.

Пример: 'OutputDirectory',"./AnalysisResults/"

Типы данных: char | string

`'OutputFormat'` - Формат для файлов результатов
`"simple-table"` (по умолчанию) | `"cuffdiff"`

Формат файлов результатов, указанный как "simple-table" или "cuffdiff".

"simple-table" - Вывод в формате таблицы с разделителями табуляции.
"cuffdiff" - Вывод в той же форме, что и cuffdiff.

Пример: 'OutputFormat',"cuffdiff"

Типы данных: char | string

`'Seed'` - Начальное число для генератора случайных чисел
`0` (по умолчанию) | неотрицательное целое число

Начальное число для генератора случайных чисел, указанное как неотрицательное целое число. Установка начального значения обеспечивает воспроизводимость результатов анализа.

Пример: 'Seed',10

Типы данных: double

Выходные аргументы

свернуть все

`isoform` - Имя файла, содержащего нормализованный уровень выражения для изоформы
`"./isoforms.fpkm_table"`

Имя файла, содержащего нормализованный уровень выражения для каждой изоформы, возвращаемое в виде строки.

Выходная строка также включает информацию каталога, определенную OutputDirectory. По умолчанию используется текущий каталог. Если установить OutputDirectory кому "/local/tmp/", выход становится "/local/tmp/isoforms.fpkm_table".

`gene` - Имя файла, содержащего нормализованный уровень экспрессии для гена
`"./genes.fpkm_table"`

Имя файла, содержащего нормализованный уровень экспрессии для каждого гена, возвращаемого в виде строки.

`tss` - Имя файла, содержащего нормализованный уровень выражения для начального сайта транскрипта
`"./tss_groups.fpkm_table"`

Имя файла, содержащего нормализованный уровень выражения для каждого начального сайта транскрипта (TSS), возвращаемое в виде строки.

`cds` - Имя файла, содержащего нормализованный уровень выражения для кодирующей последовательности
`"./cds.fpkm_table"`

Имя файла, содержащего нормализованный уровень выражения для каждой кодирующей последовательности, возвращаемое в виде строки.

Ссылки

[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертеа, Али Мортазави, Гордон Кван, Марике Дж. ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пэхтер. «Сборка и количественная оценка транскриптов с помощью РНК-Seq выявляет необъявленные транскрипты и переключение изоформ во время дифференцировки клеток». Биотехнология природы 28, № 5 (май 2010 года): 511-15.

См. также

cufflinks | CuffNormOptions

Темы

Пакеты поддержки ПО инструментария для биоинформатики

Внешние веб-сайты

Манжеты вручную

Представлен в R2019a

Документация

cuffnorm

Синтаксис

Описание

Примеры

Сборка транскриптома и нормализация уровней экспрессии

Входные аргументы

`transcriptsAnnot` - Имя файла аннотации стенограммы
строка | символьный вектор

`alignmentFiles` - имена файлов SAM, BAM или CXB;
строковый вектор | массив ячеек

`opt` — `cuffnorm` варианты
`CuffNormOptions` объект | строка | символьный вектор

Аргументы пары «имя-значение»

`'ExtraCommand'` - Дополнительные команды
`""` (по умолчанию) | строка | символьный вектор

`'IncludeAll'` - Флажок для применения всех доступных опций
`false` (по умолчанию) | `true`

`'Labels'` - Этикетки для образцов
`[]` (по умолчанию) | строка | вектор символов | вектор строк | массив ячеек векторов символов

`'LibraryNormalizationMethod'` - Метод нормализации размера библиотеки
`"geometric"` (по умолчанию) | `"classic-fpkm"` | `"quartile"`

`'NormalizeCompatibleHits'` - Флаг для использования только фрагментов, совместимых со ссылочным транскриптом, для вычисления значений FPKM
`true` (по умолчанию) | `false`

`'NormalizeTotalHits'` - Флаг для включения всех фрагментов для вычисления значений FPKM
`false` (по умолчанию) | `true`

`'NumThreads'` - Количество параллельных потоков для использования
`1` (по умолчанию) | положительное целое число

`'OutputDirectory'` - Каталог для хранения результатов анализа
текущий каталог (`"./"`) (по умолчанию) | строка | символьный вектор

`'OutputFormat'` - Формат для файлов результатов
`"simple-table"` (по умолчанию) | `"cuffdiff"`

`'Seed'` - Начальное число для генератора случайных чисел
`0` (по умолчанию) | неотрицательное целое число

Выходные аргументы

`isoform` - Имя файла, содержащего нормализованный уровень выражения для изоформы
`"./isoforms.fpkm_table"`

`gene` - Имя файла, содержащего нормализованный уровень экспрессии для гена
`"./genes.fpkm_table"`

`tss` - Имя файла, содержащего нормализованный уровень выражения для начального сайта транскрипта
`"./tss_groups.fpkm_table"`

`cds` - Имя файла, содержащего нормализованный уровень выражения для кодирующей последовательности
`"./cds.fpkm_table"`

Ссылки

См. также

Темы

Внешние веб-сайты

Документация по инструментарию биоинформатики

Поддержка

Документация

cuffnorm

Синтаксис

Описание

Примеры

Сборка транскриптома и нормализация уровней экспрессии

Входные аргументы

transcriptsAnnot - Имя файла аннотации стенограммы строка | символьный вектор

alignmentFiles - имена файлов SAM, BAM или CXB; строковый вектор | массив ячеек

opt — cuffnorm варианты CuffNormOptions объект | строка | символьный вектор

Аргументы пары «имя-значение»

'ExtraCommand' - Дополнительные команды "" (по умолчанию) | строка | символьный вектор

'IncludeAll' - Флажок для применения всех доступных опций false (по умолчанию) | true

'Labels' - Этикетки для образцов [] (по умолчанию) | строка | вектор символов | вектор строк | массив ячеек векторов символов

'LibraryNormalizationMethod' - Метод нормализации размера библиотеки "geometric" (по умолчанию) | "classic-fpkm" | "quartile"

'NormalizeCompatibleHits' - Флаг для использования только фрагментов, совместимых со ссылочным транскриптом, для вычисления значений FPKM true (по умолчанию) | false

'NormalizeTotalHits' - Флаг для включения всех фрагментов для вычисления значений FPKM false (по умолчанию) | true

'NumThreads' - Количество параллельных потоков для использования 1 (по умолчанию) | положительное целое число

'OutputDirectory' - Каталог для хранения результатов анализа текущий каталог ("./") (по умолчанию) | строка | символьный вектор

'OutputFormat' - Формат для файлов результатов "simple-table" (по умолчанию) | "cuffdiff"

'Seed' - Начальное число для генератора случайных чисел 0 (по умолчанию) | неотрицательное целое число

Выходные аргументы

isoform - Имя файла, содержащего нормализованный уровень выражения для изоформы "./isoforms.fpkm_table"

gene - Имя файла, содержащего нормализованный уровень экспрессии для гена "./genes.fpkm_table"

tss - Имя файла, содержащего нормализованный уровень выражения для начального сайта транскрипта "./tss_groups.fpkm_table"

cds - Имя файла, содержащего нормализованный уровень выражения для кодирующей последовательности "./cds.fpkm_table"

Ссылки

См. также

Темы

Внешние веб-сайты

Документация по инструментарию биоинформатики

Поддержка

`transcriptsAnnot` - Имя файла аннотации стенограммы
строка | символьный вектор

`alignmentFiles` - имена файлов SAM, BAM или CXB;
строковый вектор | массив ячеек

`opt` — `cuffnorm` варианты
`CuffNormOptions` объект | строка | символьный вектор

`'ExtraCommand'` - Дополнительные команды
`""` (по умолчанию) | строка | символьный вектор

`'IncludeAll'` - Флажок для применения всех доступных опций
`false` (по умолчанию) | `true`

`'Labels'` - Этикетки для образцов
`[]` (по умолчанию) | строка | вектор символов | вектор строк | массив ячеек векторов символов

`'LibraryNormalizationMethod'` - Метод нормализации размера библиотеки
`"geometric"` (по умолчанию) | `"classic-fpkm"` | `"quartile"`

`'NormalizeCompatibleHits'` - Флаг для использования только фрагментов, совместимых со ссылочным транскриптом, для вычисления значений FPKM
`true` (по умолчанию) | `false`

`'NormalizeTotalHits'` - Флаг для включения всех фрагментов для вычисления значений FPKM
`false` (по умолчанию) | `true`

`'NumThreads'` - Количество параллельных потоков для использования
`1` (по умолчанию) | положительное целое число

`'OutputDirectory'` - Каталог для хранения результатов анализа
текущий каталог (`"./"`) (по умолчанию) | строка | символьный вектор

`'OutputFormat'` - Формат для файлов результатов
`"simple-table"` (по умолчанию) | `"cuffdiff"`

`'Seed'` - Начальное число для генератора случайных чисел
`0` (по умолчанию) | неотрицательное целое число

`isoform` - Имя файла, содержащего нормализованный уровень выражения для изоформы
`"./isoforms.fpkm_table"`

`gene` - Имя файла, содержащего нормализованный уровень экспрессии для гена
`"./genes.fpkm_table"`

`tss` - Имя файла, содержащего нормализованный уровень выражения для начального сайта транскрипта
`"./tss_groups.fpkm_table"`

`cds` - Имя файла, содержащего нормализованный уровень выражения для кодирующей последовательности
`"./cds.fpkm_table"`