exponenta event banner

cuffgffread

Фильтрация и преобразование файлов GFF и GTF

Описание

пример

cuffgffread(input,output) считывает input GFF или GTF-файл и записывает обязательные столбцы в output GFF-файл [1]. Функция также может вернуть файл формата GTF с помощью 'GTFOutput' вариант.

cuffgffread требуется пакет поддержки «Запонки» для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.

Примечание

cuffgffread поддерживается только на платформах Mac и UNIX ®.

cuffgffread(input,output,opt) использует дополнительные параметры, указанные в opt.

cuffgffread(input,output,Name,Value) использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в выходном файле.

Примеры

свернуть все

Преобразование файла GTF в файл GFF с сохранением всех атрибутов.

cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)

Можно также задать параметры с помощью объекта. Например, укажите вывод в формате GTF.

opt = CuffGFFReadOptions;
opt.GTFOutput = true;
opt.PreserveAttributes = true;
cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);

При наличии объекта options можно извлечь эквивалентные исходные опции для всех свойств объекта с помощью getOptionsTable.

getOptionsTable(opt)
ans =

  33×3 table

                                        PropertyName                FlagName        FlagShortName
                                 ___________________________    ________________    _____________

    AppendDescription            'AppendDescription'            '-A'                    ''       
    CheckOppositeStrand          'CheckOppositeStrand'          '-B'                    ''       
    CheckPhase                   'CheckPhase'                   '-H'                    ''       
    Cluster                      'Cluster'                      '--cluster-only'        ''       
    CodingOnly                   'CodingOnly'                   '-C'                    ''       
    CollapseContainer            'CollapseContainer'            '-K'                    ''       
    CollapseFull                 'CollapseFull'                 '-Q'                    ''       
    CoordinateRange              'CoordinateRange'              '-r'                    ''       
    DiscardInvalidCDS            'DiscardInvalidCDS'            '-J'                    ''       
    DiscardNonCanonicalSplice    'DiscardNonCanonicalSplice'    '-N'                    ''       
    DiscardSingleExon            'DiscardSingleExon'            '-U'                    ''       
    DiscardTerminatedCDS         'DiscardTerminatedCDS'         '-V'                    ''       
    FastaCDSFile                 'FastaCDSFile'                 '-x'                    ''       
    FastaExonsFile               'FastaExonsFile'               '-w'                    ''       
    FastaProteinFile             'FastaProteinFile'             '-y'                    ''       
    FirstExonOnly                'FirstExonOnly'                '-G'                    ''       
    ForceExons                   'ForceExons'                   '--force-exons'         ''       
    FullyContained               'FullyContained'               '-R'                    ''       
    GTFOutput                    'GTFOutput'                    '-T'                    ''       
    MaxIntronLength              'MaxIntronLength'              '-i'                    ''       
    Merge                        'Merge'                        '--merge'               '-M'     
    MergeCloseExons              'MergeCloseExons'              '-Z'                    ''       
    MergeInfoFile                'MergeInfoFile'                '-d'                    ''       
    PreserveAttributes           'PreserveAttributes'           '-F'                    ''       
    Pseudo                       'Pseudo'                       '--no-pseudo'           ''       
    ReplacementTable             'ReplacementTable'             '-m'                    ''       
    SequenceFile                 'SequenceFile'                 '-g'                    ''       
    SequenceInfo                 'SequenceInfo'                 '-s'                    ''       
    UrlDecode                    'UrlDecode'                    '-D'                    ''       
    UseEnsemblConversion         'UseEnsemblConversion'         '-L'                    ''       
    UseNonTranscript             'UseNonTranscript'             '-O'                    ''       
    UseTrackName                 'UseTrackName'                 '-t'                    ''       
    WriteCoordinates             'WriteCoordinates'             '-W'                    ''       

Входные аргументы

свернуть все

Имя входного файла, указанное как строковый или символьный вектор. Файл может быть GTF или GFF.

Пример: 'gyrAB.gtf'

Типы данных: char | string

Имя выходного файла, указанное как строковый или символьный вектор. По умолчанию результатом является файл GFF. Набор 'GTFOutput' кому true для получения выходного файла GTF.

Пример: 'gyrAB.gff'

Типы данных: char | string

cuffgffread опции, указанные как CuffGFFReadOptions объект, строка или символьный вектор. Вектор строки или символа должен быть в оригинале gffread синтаксис параметра (префикс одного или двух тире) [1].

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')

Флажок для добавления описаний файлов из файлов последовательности в descr атрибут выходной записи GFF, указанный как true или false. Укажите файлы последовательности с помощью SequenceInfo вариант.

Пример: 'AppendDescription',true

Типы данных: logical

Флаг для проверки противоположной цепи при проверке на наличие стоп-кодонов в кадре, указанный как true или false.

Пример: 'CheckOppositeStrand',true

Типы данных: logical

Флаг для настройки фазы кодирующей последовательности при проверке на наличие стоп-кодонов в кадре, указанный как true или false.

Пример: 'CheckPhase',true

Типы данных: logical

Флаг для кластеризации входных транскриптов в локусы, указанные как true или false. Этот параметр совпадает с параметром Merge свойство, за исключением того, что оно не разрушает полностью содержащиеся транскрипты с идентичными интронами.

Пример: 'Cluster',false

Типы данных: logical

Флаг для отбрасывания транскриптов без функции последовательности кодирования (CDS), указанный как true или false.

Пример: 'CodingOnly',true

Типы данных: logical

Флаг для свертывания полностью содержал транскрипты, которые короче с меньшим количеством интронов, чем контейнер, указанный как true или false. Это свойство применяется только при установке Merge кому true.

Пример: 'CollapseContainer',true

Типы данных: logical

Флаг для свертывания более коротких транскриптов, перекрывающих по меньшей мере 80% с другим транскриптом одного экзона, указанным как true или false. Это свойство применяется только при установке Merge кому true.

Пример: 'CollapseFull',true

Типы данных: logical

Геномный диапазон для фильтрации транскриптов, указанный как строковый или символьный вектор. Формат должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end - геномные положения, chr является необязательным именем хромосомы или контига и необязательным strand ('+' или '-').

Пример: 'CoordinateRange',“+NC_000912.1:4821..7340”

Типы данных: char | string

Флаг для игнорирования транскриптов мРНК, либо не имеющих стартового или стоп-кодона, либо имеющих in-frame stop-кодон, указанный как true или false.

Пример: 'DiscardInvalidCDS',true

Типы данных: logical

Флаг для игнорирования многоэкзонных транскриптов мРНК, которые имеют интрон с неканонической последовательностью сплайсинга, указанный как true или false. Неканоническая последовательность сращивания представляет собой любую последовательность сращивания, отличную от "GT-AG", "CG-AG", или "AT-AC".

Пример: 'DiscardNonCanonicalSplice',true

Типы данных: logical

Флаг для игнорирования транскриптов, охватывающих один экзон, указанный как true или false.

Пример: 'DiscardSingleExon',true

Типы данных: logical

Флаг для игнорирования транскриптов с внутрикадровым стоп-кодоном, указанный как true или false.

Пример: 'DiscardTerminatedCDS',true

Типы данных: logical

Команды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ®.

Пример: 'ExtraCommand',"-E"

Типы данных: char | string

Имя файла для сохранения сплайсированных кодовых последовательностей в формате FASTA, заданного как строковый или символьный вектор.

Пример: 'FastaCDSFile',"splicedCoding.FASTA"

Типы данных: char | string

Имя файла для сохранения связанных экзонов в формате FASTA, указанное как строковый или символьный вектор.

Пример: 'FastaExonsFile',"splicedExon.FASTA"

Типы данных: char | string

Имя файла для сохранения трансляции белка кодирующих последовательностей в формате FASTA, заданного как строковый или символьный вектор.

Пример: 'FastaProteinFile',"translated.FASTA"

Типы данных: char | string

Флажок для анализа дополнительных атрибутов только из первого экзона, указанного как true или false.

Пример: 'FirstExonOnly',true

Типы данных: logical

Флажок для перечисления элементов GFF самого низкого уровня в качестве элементов экзонов в выходном файле, указанный как true или false.

Пример: 'ForceExons',true

Типы данных: logical

Флаг для отбрасывания транскриптов, не содержащихся полностью в диапазоне, указанный как true или false. Укажите диапазон с помощью CoordinateRange вариант.

Пример: 'FullyContained',true

Типы данных: logical

Флаг для вывода файлов транскриптов формата GTF, указанный как true или false.

Пример: 'GTFOutput',true

Типы данных: logical

Исходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.

Примечание

Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: logical

Максимальная длина интрона для транскрипта, включаемого в выходной файл, заданная как положительное целое число. Inf, значение по умолчанию, не устанавливает ограничения на длину интрона.

Пример: 'MaxIntronLength',500

Типы данных: double

Флаг для объединения транскриптов в локусы путем свертывания транскриптов с идентичными интронами, указанный как true или false.

Пример: 'Merge',true

Типы данных: logical

Флажок для объединения экзонов в один экзон, если он разделен менее чем 4 основными парами интронов, указанными как true или false.

Пример: 'MergeCloseExons',true

Типы данных: logical

Имя файла для сохранения информации о дубликатах при объединении, указанное как строковый или символьный вектор. Это свойство применяется только при установке Merge кому true.

Пример: 'MergeInfoFile',"duplicates.txt"

Типы данных: char | string

Флаг для сохранения всех атрибутов в выходном файле, указанный как true или false.

Пример: 'PreserveAttributes',true

Типы данных: logical

Флаг для фильтрации записей, содержащих слово «псевдо», указанное как true или false.

Пример: 'Pseudo',false

Типы данных: logical

Имя файла, содержащего таблицу замены, заданную как строковый или символьный вектор. Таблица должна иметь два столбца, где первый столбец содержит исходные идентификаторы транскрипта, а второй столбец содержит новые идентификаторы транскрипта. Ниже приводится пример таблицы.

origTranscript1

newTranscript1

origTranscript2

newTranscript2

origTranscript3

newTranscript3

Если предоставляется таблица замены, функция заменяет идентификаторы транскриптов, найденные в первом столбце, новыми идентификаторами транскриптов из второго столбца и отфильтровывает те транскрипты, которые не найдены.

Пример: 'ReplacementTable',"replaceTbl.txt"

Типы данных: char | string

Имя файла формата FASTA, содержащего геномные последовательности для всех входных сопоставлений, указанных как строковый или символьный вектор.

Пример: 'SequenceFile',"seqs.fasta"

Типы данных: char | string

Имя файла, разделенного табуляцией, с дополнительной информацией о каждой последовательности ввода, указанной как строковый или символьный вектор. Этот файл должен содержать три столбца: столбец имени последовательности, столбец длины последовательности и столбец описания последовательности. Если AppendDescription является trueописание последовательности включается в качестве атрибута в выходной файл GFF.

Пример: 'SequenceInfo',"seqinfo.txt"

Типы данных: char | string

Флаг для декодирования символов в кодировке URL в именах атрибутов, указанный как true или false. Например, «transcript% 20description» декодируется в «transcript description».

Пример: 'UrlDecode',true

Типы данных: logical

Флаг для использования метода преобразования GTF-to-GFF3 из Ensembl, указанного как true или false.

Пример: 'UseEnsemblConversion',true

Типы данных: logical

Флаг для включения нетранскриптовых GFF-записей в выходной файл, указанный как true или false.

Пример: 'UseNonTranscript',true

Типы данных: logical

Флаг для использования имени дорожки во втором столбце выходной строки GFF, указанный как true или false.

Пример: 'UseTrackName',true

Типы данных: logical

Флаг для записи координат экзона, спроецированных на сращиваемую последовательность, указанный как true или false. Это свойство применяется только в том случае, если FastaExonsFile или FastaCDSFile указывается.

Пример: 'WriteCoordinates',true

Типы данных: logical

Ссылки

[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертеа, Али Мортазави, Гордон Кван, Марике Дж. ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пэхтер. «Сборка и количественная оценка транскриптов с помощью РНК-Seq выявляет необъявленные транскрипты и переключение изоформ во время дифференцировки клеток». Биотехнология природы 28, № 5 (май 2010 года): 511-15.

Представлен в R2019a