cuffgffread

Фильтрация и преобразование файлов GFF и GTF

Описание

пример

cuffgffread(input,output) читает input GFF или GTF файл и записывает обязательные столбцы в output Файл GFF [1]. Функция может также вернуть файл GTF-формата с помощью 'GTFOutput' опция.

cuffgffread требуется пакет поддержки Cufflinks для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.

Примечание

cuffgffread поддерживается в Mac и UNIX® только платформы.

cuffgffread(input,output,opt) использует дополнительные опции, заданные opt.

cuffgffread(input,output,Name,Value) использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в файле выхода.

Примеры

свернуть все

Преобразуйте файл GTF в файл GFF с сохранением всех атрибутов.

cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)

Можно также задать опции с помощью объекта. Для образца укажите выход в формате GTF.

opt = CuffGFFReadOptions;
opt.GTFOutput = true;
opt.PreserveAttributes = true;
cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);

Если у вас есть объект options, можно извлечь эквивалентные исходные опции для всех свойств объекта, используя getOptionsTable.

getOptionsTable(opt)
ans =

  33×3 table

                                        PropertyName                FlagName        FlagShortName
                                 ___________________________    ________________    _____________

    AppendDescription            'AppendDescription'            '-A'                    ''       
    CheckOppositeStrand          'CheckOppositeStrand'          '-B'                    ''       
    CheckPhase                   'CheckPhase'                   '-H'                    ''       
    Cluster                      'Cluster'                      '--cluster-only'        ''       
    CodingOnly                   'CodingOnly'                   '-C'                    ''       
    CollapseContainer            'CollapseContainer'            '-K'                    ''       
    CollapseFull                 'CollapseFull'                 '-Q'                    ''       
    CoordinateRange              'CoordinateRange'              '-r'                    ''       
    DiscardInvalidCDS            'DiscardInvalidCDS'            '-J'                    ''       
    DiscardNonCanonicalSplice    'DiscardNonCanonicalSplice'    '-N'                    ''       
    DiscardSingleExon            'DiscardSingleExon'            '-U'                    ''       
    DiscardTerminatedCDS         'DiscardTerminatedCDS'         '-V'                    ''       
    FastaCDSFile                 'FastaCDSFile'                 '-x'                    ''       
    FastaExonsFile               'FastaExonsFile'               '-w'                    ''       
    FastaProteinFile             'FastaProteinFile'             '-y'                    ''       
    FirstExonOnly                'FirstExonOnly'                '-G'                    ''       
    ForceExons                   'ForceExons'                   '--force-exons'         ''       
    FullyContained               'FullyContained'               '-R'                    ''       
    GTFOutput                    'GTFOutput'                    '-T'                    ''       
    MaxIntronLength              'MaxIntronLength'              '-i'                    ''       
    Merge                        'Merge'                        '--merge'               '-M'     
    MergeCloseExons              'MergeCloseExons'              '-Z'                    ''       
    MergeInfoFile                'MergeInfoFile'                '-d'                    ''       
    PreserveAttributes           'PreserveAttributes'           '-F'                    ''       
    Pseudo                       'Pseudo'                       '--no-pseudo'           ''       
    ReplacementTable             'ReplacementTable'             '-m'                    ''       
    SequenceFile                 'SequenceFile'                 '-g'                    ''       
    SequenceInfo                 'SequenceInfo'                 '-s'                    ''       
    UrlDecode                    'UrlDecode'                    '-D'                    ''       
    UseEnsemblConversion         'UseEnsemblConversion'         '-L'                    ''       
    UseNonTranscript             'UseNonTranscript'             '-O'                    ''       
    UseTrackName                 'UseTrackName'                 '-t'                    ''       
    WriteCoordinates             'WriteCoordinates'             '-W'                    ''       

Входные параметры

свернуть все

Вход файла, заданное как строковый или символьный вектор. Файл может быть GTF или GFF файлом.

Пример: 'gyrAB.gtf'

Типы данных: char | string

Выход файла, заданное как строковый или символьный вектор. По умолчанию выход файл GFF. Задайте 'GTFOutput' на true для получения выходного файла GTF.

Пример: 'gyrAB.gff'

Типы данных: char | string

cuffgffread опции, заданные как CuffGFFReadOptions объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале gffread синтаксис опции (префикс одним или двумя штрихами) [1].

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')

Флаг для добавления описаний файлов из файлов последовательности в descr атрибут выходной записи GFF, заданный как true или false. Задайте файлы последовательности с помощью SequenceInfo опция.

Пример: 'AppendDescription',true

Типы данных: logical

Флаг для проверки противоположной цепи при проверке на наличие внутрикадровых стоповых кодонов, указанный как true или false.

Пример: 'CheckOppositeStrand',true

Типы данных: logical

Флаг для корректировки фазы последовательности кодирования при проверке на наличие в кадре стоповых кодонов, заданный как true или false.

Пример: 'CheckPhase',true

Типы данных: logical

Флаг для кластеризации входных транскриптов в локусы, заданный как true или false. Эта опция аналогична опции Merge свойство, за исключением того, что оно не свернет полностью содержащиеся транскрипты с идентичными интронами.

Пример: 'Cluster',false

Типы данных: logical

Флаг для сброса транскриптов без функций кодирующей последовательности (CDS), заданный как true или false.

Пример: 'CodingOnly',true

Типы данных: logical

Флаг для свертки полностью содержащихся транскриптов, которые короче с меньшим количеством интронов, чем контейнер, заданный как true или false. Это свойство применяется только при установке Merge на true.

Пример: 'CollapseContainer',true

Типы данных: logical

Флаг для свертки более коротких транскриптов, перекрывающихся, по крайней мере, на 80% с другим единственным транскриптом экзона, заданный как true или false. Это свойство применяется только при установке Merge на true.

Пример: 'CollapseFull',true

Типы данных: logical

Геномная область значений для фильтрации транскриптов, заданный как строковый или символьный вектор. Формат должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end являются геномными положениями, chr является необязательным именем хромосомы или contig и необязательным strand ('+' или '-').

Пример: 'CoordinateRange',“+NC_000912.1:4821..7340”

Типы данных: char | string

Флаг для игнорирования транскриптов мРНК, либо не имеющих стартового, либо стопового кодона, либо имеющих в кадре стоповый кодон, заданный как true или false.

Пример: 'DiscardInvalidCDS',true

Типы данных: logical

Флаг, чтобы игнорировать мультиксонные транскрипты мРНК, которые имеют интрон с неканонической последовательностью сращивания, заданный как true или false. Неканоническая последовательность сращивания - это любая последовательность сращивания, отличная от "GT-AG", "CG-AG", или "AT-AC".

Пример: 'DiscardNonCanonicalSplice',true

Типы данных: logical

Флаг, чтобы игнорировать транскрипты, охватывающие один экзон, заданный как true или false.

Пример: 'DiscardSingleExon',true

Типы данных: logical

Флаг для игнорирования транскриптов с внутрикадровым стоповым кодоном, заданный как true или false.

Пример: 'DiscardTerminatedCDS',true

Типы данных: logical

Команды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.

Пример: 'ExtraCommand',"-E"

Типы данных: char | string

Имя файла для сохранения сращенных последовательностей кодирования в формате FASTA, заданное как строковый или символьный вектор.

Пример: 'FastaCDSFile',"splicedCoding.FASTA"

Типы данных: char | string

Имя файла для сохранения сращенных экзонов в формате FASTA, заданное как строковый или символьный вектор.

Пример: 'FastaExonsFile',"splicedExon.FASTA"

Типы данных: char | string

Имя файла для сохранения трансляции белка кодирующих последовательностей в формате FASTA, заданном как строковый или символьный вектор.

Пример: 'FastaProteinFile',"translated.FASTA"

Типы данных: char | string

Флаг для анализа дополнительных атрибутов только из первого экзона, заданный как true или false.

Пример: 'FirstExonOnly',true

Типы данных: logical

Флаг для перечисления функций GFF самого низкого уровня в качестве признаков экзона в файле выхода, заданный как true или false.

Пример: 'ForceExons',true

Типы данных: logical

Флаг для сброса транскриптов, не содержащихся полностью в области значений, указанный как true или false. Задайте область значений используя CoordinateRange опция.

Пример: 'FullyContained',true

Типы данных: logical

Флаг для вывода файлов транскрипта GTF-формата, заданный как true или false.

Пример: 'GTFOutput',true

Типы данных: logical

Исходный (нативный) синтаксис префиксируется одним или двумя штрихами. По умолчанию функция преобразует только указанные опции. Если значение trueпрограммное обеспечение преобразует все доступные опции со значениями по умолчанию для неопределенных опций в исходный синтаксис.

Примечание

Если вы задаете IncludeAll на trueпрограммное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN, Inf, [], '', или "", тогда программное обеспечение не преобразует соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: logical

Максимальная длина интрона для включения транскрипта в файл выхода, заданная как положительное целое число. Inf, значение по умолчанию, не устанавливает предела на длину интрона.

Пример: 'MaxIntronLength',500

Типы данных: double

Флаг для слияния транскриптов в локусы путем свертывания транскриптов с идентичными интронами, заданный как true или false.

Пример: 'Merge',true

Типы данных: logical

Флаг для объединения экзонов в один экзон при разделении менее чем 4 интронами с базовой парой, заданный как true или false.

Пример: 'MergeCloseExons',true

Типы данных: logical

Имя файла для сохранения информации о дубликатах при слиянии, заданное как строковый или символьный вектор. Это свойство применяется только при установке Merge на true.

Пример: 'MergeInfoFile',"duplicates.txt"

Типы данных: char | string

Флаг для сохранения всех атрибутов в файле выхода, заданный как true или false.

Пример: 'PreserveAttributes',true

Типы данных: logical

Флаг для фильтрации записей, содержащих слово «pseudo», заданный как true или false.

Пример: 'Pseudo',false

Типы данных: logical

Имя файла, содержащего таблицу замещения, заданное как строковый или символьный вектор. Таблица должна иметь два столбца, где в первом столбце содержатся исходные идентификаторы транскриптов, а во втором - новые идентификаторы транскриптов. Ниже приведена таблица примеров.

origTranscript1

newTranscript1

origTranscript2

newTranscript2

origTranscript3

newTranscript3

Если вы предоставляете таблицу замещения, функция заменяет идентификаторы транскриптов, найденные в первом столбце, новыми идентификаторами транскриптов из второго столбца и отфильтровывает эти транскрипты, не найденные.

Пример: 'ReplacementTable',"replaceTbl.txt"

Типы данных: char | string

Имя файла FASTA-формата, содержащего геномные последовательности для всех входных отображений, заданное как строковый или символьный вектор.

Пример: 'SequenceFile',"seqs.fasta"

Типы данных: char | string

Имя файла с разделителем табуляцией с дополнительной информацией о каждой входной последовательности, заданное как строковый или символьный вектор. Этот файл должен иметь три столбца: столбец с именем последовательности, столбец с длиной последовательности и столбец с описанием последовательности. Если AppendDescription является trueописание последовательности включено в качестве атрибута в выходной файл GFF.

Пример: 'SequenceInfo',"seqinfo.txt"

Типы данных: char | string

Флаг для декодирования кодированных URL символов в именах атрибутов, заданный как true или false. Например, «транскрипт% 20description» декодируется на «описание транскрипта».

Пример: 'UrlDecode',true

Типы данных: logical

Флаг для использования метода преобразования GTF-to-GFF3 из Ensembl, заданный как true или false.

Пример: 'UseEnsemblConversion',true

Типы данных: logical

Флаг для включения нетранскриптных записей GFF в файл выхода, заданный как true или false.

Пример: 'UseNonTranscript',true

Типы данных: logical

Флаг для использования имени дорожки во втором столбце выходной линии GFF, заданный как true или false.

Пример: 'UseTrackName',true

Типы данных: logical

Флаг для записи координат экзона, проецируемых на сращенную последовательность, заданный как true или false. Это свойство применяется только тогда, когда FastaExonsFile или FastaCDSFile задан.

Пример: 'WriteCoordinates',true

Типы данных: logical

Ссылки

[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертея, Али Мортазави, Гордон Кван, Марийке Дж. Ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пахтер. «Сборка транскрипта и количественное определение РНК-Seq обнаруживает неаннотированные транскрипты и переключение изоформы во время дифференциации камер». Биотехнология природы 28, № 5 (май 2010): 511-15.

Введенный в R2019a