cuffgffread

Отфильтруйте и преобразуйте файлы GTF и GFF

Синтаксис

cuffgffread(input,output)
cuffgffread(input,output,opt)
cuffgffread(input,output,Name,Value)

Описание

пример

cuffgffread(input,output) читает GFF input или файл GTF и пишет обязательные столбцы в файл [1] GFF output. Функция может также возвратить файл формата GTF с помощью опции 'GTFOutput'.

cuffgffread требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.

Примечание

cuffgffread поддерживается на Mac и платформах UNIX® только.

cuffgffread(input,output,opt) использует дополнительные опции, заданные opt.

cuffgffread(input,output,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в выходном файле.

Примеры

свернуть все

Преобразуйте файл GTF в файл GFF при сохранении всех атрибутов.

cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)

Можно также установить опции с помощью объекта. Например, задайте вывод, чтобы быть в формате GTF.

opt = CuffGFFReadOptions;
opt.GTFOutput = true;
opt.PreserveAttributes = true;
cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);

Если у вас есть объект опций, можно получить эквивалентные исходные опции для всех свойств объектов с помощью getOptionsTable.

getOptionsTable(opt)
ans =

  33×3 table

                                        PropertyName                FlagName        FlagShortName
                                 ___________________________    ________________    _____________

    AppendDescription            'AppendDescription'            '-A'                    ''       
    CheckOppositeStrand          'CheckOppositeStrand'          '-B'                    ''       
    CheckPhase                   'CheckPhase'                   '-H'                    ''       
    Cluster                      'Cluster'                      '--cluster-only'        ''       
    CodingOnly                   'CodingOnly'                   '-C'                    ''       
    CollapseContainer            'CollapseContainer'            '-K'                    ''       
    CollapseFull                 'CollapseFull'                 '-Q'                    ''       
    CoordinateRange              'CoordinateRange'              '-r'                    ''       
    DiscardInvalidCDS            'DiscardInvalidCDS'            '-J'                    ''       
    DiscardNonCanonicalSplice    'DiscardNonCanonicalSplice'    '-N'                    ''       
    DiscardSingleExon            'DiscardSingleExon'            '-U'                    ''       
    DiscardTerminatedCDS         'DiscardTerminatedCDS'         '-V'                    ''       
    FastaCDSFile                 'FastaCDSFile'                 '-x'                    ''       
    FastaExonsFile               'FastaExonsFile'               '-w'                    ''       
    FastaProteinFile             'FastaProteinFile'             '-y'                    ''       
    FirstExonOnly                'FirstExonOnly'                '-G'                    ''       
    ForceExons                   'ForceExons'                   '--force-exons'         ''       
    FullyContained               'FullyContained'               '-R'                    ''       
    GTFOutput                    'GTFOutput'                    '-T'                    ''       
    MaxIntronLength              'MaxIntronLength'              '-i'                    ''       
    Merge                        'Merge'                        '--merge'               '-M'     
    MergeCloseExons              'MergeCloseExons'              '-Z'                    ''       
    MergeInfoFile                'MergeInfoFile'                '-d'                    ''       
    PreserveAttributes           'PreserveAttributes'           '-F'                    ''       
    Pseudo                       'Pseudo'                       '--no-pseudo'           ''       
    ReplacementTable             'ReplacementTable'             '-m'                    ''       
    SequenceFile                 'SequenceFile'                 '-g'                    ''       
    SequenceInfo                 'SequenceInfo'                 '-s'                    ''       
    UrlDecode                    'UrlDecode'                    '-D'                    ''       
    UseEnsemblConversion         'UseEnsemblConversion'         '-L'                    ''       
    UseNonTranscript             'UseNonTranscript'             '-O'                    ''       
    UseTrackName                 'UseTrackName'                 '-t'                    ''       
    WriteCoordinates             'WriteCoordinates'             '-W'                    ''       

Входные параметры

свернуть все

Введите имя файла, заданное как строка или вектор символов. Файл может быть GTF или файлом GFF.

Пример: 'gyrAB.gtf'

Типы данных: char | string

Имя выходного файла, заданное как строка или вектор символов. По умолчанию вывод является файлом GFF. Установите 'GTFOutput' на true получать выходной файл GTF.

Пример: 'gyrAB.gff'

Типы данных: char | string

Опции cuffgffread, заданные как объект CuffGFFReadOptions, строка или вектор символов. Строка или вектор символов должны быть в исходном синтаксисе опции gffread (снабжены префиксом одним или двумя тире) [1].

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')

Отметьте, чтобы добавить описания файлов от файлов последовательности до атрибута descr записи вывода GFF, заданной как true или false. Задайте файлы последовательности с помощью опции SequenceInfo.

Пример: 'AppendDescription',true

Типы данных: логический

Отметьте, чтобы проверять противоположную скрутку при проверке на кодоны остановки в кадре, заданные как true или false.

Пример: 'CheckOppositeStrand',true

Типы данных: логический

Отметьте, чтобы настроить фазу последовательности кодирования при проверке на кодоны остановки в кадре, заданные как true или false.

Пример: 'CheckPhase',true

Типы данных: логический

Отметьте, чтобы кластеризировать входные расшифровки стенограммы в места, заданные как true или false. Эта опция совпадает со свойством Merge, за исключением того, что это не сворачивает полностью содержавшие расшифровки стенограммы с идентичными интронами.

Пример: 'Cluster',false

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы без кодирования функции последовательности (CDS), заданный как true или false.

Пример: 'CodingOnly',true

Типы данных: логический

Отметьте, чтобы свернуть полностью содержавшие расшифровки стенограммы, которые короче с меньшим количеством интронов, чем контейнер, заданный как true или false. Это свойство применяется только, когда вы устанавливаете Merge на true.

Пример: 'CollapseContainer',true

Типы данных: логический

Отметьте, чтобы свернуть более короткие расшифровки стенограммы перекрывающиеся по крайней мере 80% с другой одной расшифровкой стенограммы экзона, заданной как true или false. Это свойство применяется только, когда вы устанавливаете Merge на true.

Пример: 'CollapseFull',true

Типы данных: логический

Геномная область значений, чтобы отфильтровать расшифровки стенограммы, заданные как строка или вектор символов. Форматом должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end являются геномными положениями, chr является дополнительной хромосомой или именем контига и дополнительным strand ('+' или '-').

Пример: 'CoordinateRange',“+NC_000912.1:4821..7340”

Типы данных: char | string

Отметьте, чтобы проигнорировать mRNA расшифровки стенограммы или недостаток в запуске или кодон остановки или наличие кодона остановки в кадре, заданного как true или false.

Пример: 'DiscardInvalidCDS',true

Типы данных: логический

Отметьте, чтобы проигнорировать мультиэкзон mRNA расшифровки стенограммы, которые имеют интрон с неканонической последовательностью соединения встык, заданной как true или false. Неканоническая последовательность соединения встык является любой последовательностью соединения встык кроме "GT-AG", "CG-AG" или "AT-AC".

Пример: 'DiscardNonCanonicalSplice',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы, охватывающие один экзон, заданный как true или false.

Пример: 'DiscardSingleExon',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы с кодоном остановки в кадре, заданным как true или false.

Пример: 'DiscardTerminatedCDS',true

Типы данных: логический

Дополнительные команды, заданные как строка или вектор символов. Команды должны быть в исходном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB. Когда функция преобразовывает исходные флаги в свойства MATLAB, она хранит любые нераспознанные флаги в этой опции.

Пример: 'ExtraCommand',"-E"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные последовательности кодирования в формате FASTA, заданном как строка или вектор символов.

Пример: 'FastaCDSFile',"splicedCoding.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные экзоны в формате FASTA, заданном как строка или вектор символов.

Пример: 'FastaExonsFile',"splicedExon.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить перевод белка кодирования последовательностей в формате FASTA, заданном как строка или вектор символов.

Пример: 'FastaProteinFile',"translated.FASTA"

Типы данных: char | string

Отметьте, чтобы проанализировать дополнительные атрибуты только от первого экзона, заданного как true или false.

Пример: 'FirstExonOnly',true

Типы данных: логический

Отметьте, чтобы перечислить самый низкий уровень функции GFF, когда экзон показывает в выходном файле, заданном как true или false.

Пример: 'ForceExons',true

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы, не содержавшие полностью в области значений, заданной как true или false. Задайте область значений с помощью опции CoordinateRange.

Пример: 'FullyContained',true

Типы данных: логический

Отметьте, чтобы вывести файлы расшифровки стенограммы формата GTF, заданные как true или false.

Пример: 'GTFOutput',true

Типы данных: логический

Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций, заданный как true или false. Исходный синтаксис снабжается префиксом одним или двумя тире, такими как '-d 100 -e 80'. По умолчанию функция преобразовывает только заданные опции. Если значением является true, функция преобразовывает все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Пример: 'IncludeAll',true

Типы данных: логический

Максимальная длина интрона для расшифровки стенограммы, чтобы включать в выходной файл, заданный как положительное целое число. Inf, значение по умолчанию, не устанавливает предела для длины интрона.

Пример: 'MaxIntronLength',500

Типы данных: double

Отметьте, чтобы объединить расшифровки стенограммы в места путем сворачивания расшифровок стенограммы с идентичными интронами, заданными как true или false.

Пример: 'Merge',true

Типы данных: логический

Отметьте, чтобы объединить экзоны в один экзон, когда разделено меньше чем 4 интронами пары оснований, заданными как true или false.

Пример: 'MergeCloseExons',true

Типы данных: логический

Имя файла, чтобы сохранить информацию на копиях при слиянии, заданный как строка или вектор символов. Это свойство применяется только, когда вы устанавливаете Merge на true.

Пример: 'MergeInfoFile',"duplicates.txt"

Типы данных: char | string

Отметьте, чтобы сохранить все атрибуты в выходном файле, заданном как true или false.

Пример: 'PreserveAttributes',true

Типы данных: логический

Отметьте, чтобы отфильтровать записи, содержащие слово, "псевдо", заданное как true или false.

Пример: 'Pseudo',false

Типы данных: логический

Имя файла, содержащего заменяющую таблицу, заданную как строка или вектор символов. Таблица должна иметь два столбца, где первый столбец содержит исходные идентификаторы расшифровки стенограммы, и второй столбец содержит новые идентификаторы расшифровки стенограммы. Таблица в качестве примера следует.

origTranscript1

newTranscript1

origTranscript2

newTranscript2

origTranscript3

newTranscript3

Если вы предоставляете заменяющую таблицу, функция заменяет идентификаторы расшифровки стенограммы, найденные в первом столбце с новыми идентификаторами расшифровок стенограммы из второго столбца, и отфильтровывает те расшифровки стенограммы, не найденные.

Пример: 'ReplacementTable',"replaceTbl.txt"

Типы данных: char | string

Имя FASTA-файла-формата, содержащего геномные последовательности для всех входных отображений, заданных как строка или вектор символов.

Пример: 'SequenceFile',"seqs.fasta"

Типы данных: char | string

Имя файла с разделением табуляцией с дополнительной информацией о каждой входной последовательности, заданной как строка или вектор символов. Этот файл должен иметь три столбца: столбец имени последовательности, столбец длины последовательности и столбец описания последовательности. Если AppendDescription является true, описание последовательности включено как атрибут в файле вывода GFF.

Пример: 'SequenceInfo',"seqinfo.txt"

Типы данных: char | string

Отметьте, чтобы декодировать закодированные URL символы в названиях атрибута, заданных как true или false. Например, "transcript%20description" декодируется к "описанию расшифровки стенограммы".

Пример: 'UrlDecode',true

Типы данных: логический

Отметьте, чтобы использовать GTF-to-GFF3 метод преобразования от Ensembl, заданного как true или false.

Пример: 'UseEnsemblConversion',true

Типы данных: логический

Отметьте, чтобы включать нерасшифровку стенограммы записи GFF в выходной файл, заданный как true или false.

Пример: 'UseNonTranscript',true

Типы данных: логический

Отметьте, чтобы использовать имя дорожки во втором столбце GFF строка вывода, заданная как true или false.

Пример: 'UseTrackName',true

Типы данных: логический

Отметьте, чтобы записать координаты экзона, спроектированные на соединенную последовательность, заданную как true или false. Это свойство применяется только, когда FastaExonsFile или FastaCDSFile заданы.

Пример: 'WriteCoordinates',true

Типы данных: логический

Ссылки

[1] Trapnell, C., Б. Уильямс, Г. Пертеа, А. Мортэзэви, Г. Кван, Дж. ван Бэрен, С. Залцберг, B. Пустошь и Л. Пэчтер. 2010. Блок расшифровки стенограммы и квантификация RNA-Seq показывают неаннотируемые расшифровки стенограммы и изоформу, переключающуюся во время клеточной дифференцировки. Биотехнология природы. 28:511–515.

Смотрите также

|

Внешние веб-сайты

Введенный в R2019a

Для просмотра документации необходимо авторизоваться на сайте