cuffgffread

Отфильтруйте и преобразуйте файлы GTF и GFF

Описание

пример

cuffgffread(input,output) читает input GFF или файл GTF и записи обязательные столбцы к output Файл [1] GFF. Функция может также возвратить файл формата GTF с помощью 'GTFOutput' опция.

cuffgffread требует Пакета Поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.

Примечание

cuffgffread поддерживается на Mac и платформах UNIX® только.

cuffgffread(input,output,opt) использует дополнительные опции, заданные opt.

cuffgffread(input,output,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в выходном файле.

Примеры

свернуть все

Преобразуйте файл GTF в файл GFF при сохранении всех атрибутов.

cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)

Можно также установить опции с помощью объекта. Например, задайте выход, чтобы быть в формате GTF.

opt = CuffGFFReadOptions;
opt.GTFOutput = true;
opt.PreserveAttributes = true;
cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);

Если у вас есть объект опций, можно получить эквивалентные исходные опции для всех свойств объектов с помощью getOptionsTable.

getOptionsTable(opt)
ans =

  33×3 table

                                        PropertyName                FlagName        FlagShortName
                                 ___________________________    ________________    _____________

    AppendDescription            'AppendDescription'            '-A'                    ''       
    CheckOppositeStrand          'CheckOppositeStrand'          '-B'                    ''       
    CheckPhase                   'CheckPhase'                   '-H'                    ''       
    Cluster                      'Cluster'                      '--cluster-only'        ''       
    CodingOnly                   'CodingOnly'                   '-C'                    ''       
    CollapseContainer            'CollapseContainer'            '-K'                    ''       
    CollapseFull                 'CollapseFull'                 '-Q'                    ''       
    CoordinateRange              'CoordinateRange'              '-r'                    ''       
    DiscardInvalidCDS            'DiscardInvalidCDS'            '-J'                    ''       
    DiscardNonCanonicalSplice    'DiscardNonCanonicalSplice'    '-N'                    ''       
    DiscardSingleExon            'DiscardSingleExon'            '-U'                    ''       
    DiscardTerminatedCDS         'DiscardTerminatedCDS'         '-V'                    ''       
    FastaCDSFile                 'FastaCDSFile'                 '-x'                    ''       
    FastaExonsFile               'FastaExonsFile'               '-w'                    ''       
    FastaProteinFile             'FastaProteinFile'             '-y'                    ''       
    FirstExonOnly                'FirstExonOnly'                '-G'                    ''       
    ForceExons                   'ForceExons'                   '--force-exons'         ''       
    FullyContained               'FullyContained'               '-R'                    ''       
    GTFOutput                    'GTFOutput'                    '-T'                    ''       
    MaxIntronLength              'MaxIntronLength'              '-i'                    ''       
    Merge                        'Merge'                        '--merge'               '-M'     
    MergeCloseExons              'MergeCloseExons'              '-Z'                    ''       
    MergeInfoFile                'MergeInfoFile'                '-d'                    ''       
    PreserveAttributes           'PreserveAttributes'           '-F'                    ''       
    Pseudo                       'Pseudo'                       '--no-pseudo'           ''       
    ReplacementTable             'ReplacementTable'             '-m'                    ''       
    SequenceFile                 'SequenceFile'                 '-g'                    ''       
    SequenceInfo                 'SequenceInfo'                 '-s'                    ''       
    UrlDecode                    'UrlDecode'                    '-D'                    ''       
    UseEnsemblConversion         'UseEnsemblConversion'         '-L'                    ''       
    UseNonTranscript             'UseNonTranscript'             '-O'                    ''       
    UseTrackName                 'UseTrackName'                 '-t'                    ''       
    WriteCoordinates             'WriteCoordinates'             '-W'                    ''       

Входные параметры

свернуть все

Введите имя файла в виде строки или вектора символов. Файл может быть GTF или файлом GFF.

Пример: 'gyrAB.gtf'

Типы данных: char | string

Имя выходного файла в виде строки или вектора символов. По умолчанию выход является файлом GFF. Установите 'GTFOutput' к true получить выходной файл GTF.

Пример: 'gyrAB.gff'

Типы данных: char | string

cuffgffread опции в виде CuffGFFReadOptions объект, строка или вектор символов. Строка или вектор символов должны быть в исходном gffread синтаксис опции (снабженный префиксом одним или двумя тире) [1].

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')

Отметьте, чтобы добавить описания файлов от файлов последовательности до descr атрибут выхода GFF записывает в виде true или false. Задайте файлы последовательности с помощью SequenceInfo опция.

Пример: 'AppendDescription',true

Типы данных: логический

Отметьте, чтобы проверять противоположную скрутку при проверке на кодоны остановки в системе координат в виде true или false.

Пример: 'CheckOppositeStrand',true

Типы данных: логический

Отметьте, чтобы настроить фазу последовательности кодирования при проверке на кодоны остановки в системе координат в виде true или false.

Пример: 'CheckPhase',true

Типы данных: логический

Отметьте, чтобы кластеризировать входные расшифровки стенограммы в места в виде true или false. Эта опция совпадает с Merge свойство, за исключением того, что это не сворачивает полностью содержавшие расшифровки стенограммы с идентичными интронами.

Пример: 'Cluster',false

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы без кодирования функции последовательности (CDS) в виде true или false.

Пример: 'CodingOnly',true

Типы данных: логический

Отметьте, чтобы свернуть полностью содержавшие расшифровки стенограммы, которые короче с меньшим количеством интронов, чем контейнер в виде true или false. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'CollapseContainer',true

Типы данных: логический

Отметьте, чтобы свернуть более короткие расшифровки стенограммы перекрывающиеся по крайней мере 80% с другой одной расшифровкой стенограммы экзона в виде true или false. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'CollapseFull',true

Типы данных: логический

Геномная область значений, чтобы отфильтровать расшифровки стенограммы в виде строки или вектора символов. Форматом должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end геномные положения, chr дополнительная хромосома или имя контига и дополнительный strand ('+' или '-').

Пример: 'CoordinateRange',“+NC_000912.1:4821..7340”

Типы данных: char | string

Отметьте, чтобы проигнорировать mRNA расшифровки стенограммы или недостаток в запуске или кодон остановки или наличие кодона остановки в системе координат в виде true или false.

Пример: 'DiscardInvalidCDS',true

Типы данных: логический

Отметьте, чтобы проигнорировать мультиэкзон mRNA расшифровки стенограммы, которые имеют интрон с неканонической последовательностью соединения встык в виде true или false. Неканоническая последовательность соединения встык является любой последовательностью соединения встык кроме "GT-AG", "CG-AG", или "AT-AC".

Пример: 'DiscardNonCanonicalSplice',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы, охватывающие один экзон в виде true или false.

Пример: 'DiscardSingleExon',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы с кодоном остановки в системе координат в виде true или false.

Пример: 'DiscardTerminatedCDS',true

Типы данных: логический

Дополнительные команды в виде строки или вектора символов. Команды должны быть в исходном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB. Когда функция преобразует исходные флаги в свойства MATLAB, она хранит любые нераспознанные флаги в этой опции.

Пример: 'ExtraCommand',"-E"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные последовательности кодирования в формате FASTA в виде строки или вектора символов.

Пример: 'FastaCDSFile',"splicedCoding.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные экзоны в формате FASTA в виде строки или вектора символов.

Пример: 'FastaExonsFile',"splicedExon.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить перевод белка кодирования последовательностей в формате FASTA в виде строки или вектора символов.

Пример: 'FastaProteinFile',"translated.FASTA"

Типы данных: char | string

Отметьте, чтобы проанализировать дополнительные атрибуты только от первого экзона в виде true или false.

Пример: 'FirstExonOnly',true

Типы данных: логический

Отметьте, чтобы перечислить самый низкий уровень функции GFF, когда экзон показывает в выходном файле в виде true или false.

Пример: 'ForceExons',true

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы, не содержавшие полностью в области значений в виде true или false. Укажите диапазон с помощью CoordinateRange опция.

Пример: 'FullyContained',true

Типы данных: логический

Отметьте, чтобы вывести файлы расшифровки стенограммы формата GTF в виде true или false.

Пример: 'GTFOutput',true

Типы данных: логический

Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис опций в виде true или false. Исходный синтаксис снабжается префиксом одним или двумя тире, такими как '-d 100 -e 80'. По умолчанию функция преобразует только заданные опции. Если значением является true, функция преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Пример: 'IncludeAll',true

Типы данных: логический

Максимальная длина интрона для расшифровки стенограммы, чтобы включать в выходной файл в виде положительного целого числа. Inf, значение по умолчанию, не устанавливает предела для длины интрона.

Пример: 'MaxIntronLength',500

Типы данных: double

Отметьте, чтобы объединить расшифровки стенограммы в места путем сворачивания расшифровок стенограммы с идентичными интронами в виде true или false.

Пример: 'Merge',true

Типы данных: логический

Отметьте, чтобы объединить экзоны в один экзон, когда разделено меньше чем 4 интронами пары оснований в виде true или false.

Пример: 'MergeCloseExons',true

Типы данных: логический

Имя файла, чтобы сохранить информацию на копиях при слиянии в виде строки или вектора символов. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'MergeInfoFile',"duplicates.txt"

Типы данных: char | string

Отметьте, чтобы сохранить все атрибуты в выходном файле в виде true или false.

Пример: 'PreserveAttributes',true

Типы данных: логический

Отметьте, чтобы отфильтровать записи, содержащие слово, "псевдо" в виде true или false.

Пример: 'Pseudo',false

Типы данных: логический

Имя файла, содержащего заменяющую таблицу в виде строки или вектора символов. Таблица должна иметь два столбца, где первый столбец содержит исходные идентификаторы расшифровки стенограммы, и второй столбец содержит новые идентификаторы расшифровки стенограммы. Таблица в качестве примера следует.

origTranscript1

newTranscript1

origTranscript2

newTranscript2

origTranscript3

newTranscript3

Если вы предоставляете заменяющую таблицу, функция заменяет идентификаторы расшифровки стенограммы, найденные в первом столбце с новыми идентификаторами расшифровок стенограммы из второго столбца, и отфильтровывает те расшифровки стенограммы, не найденные.

Пример: 'ReplacementTable',"replaceTbl.txt"

Типы данных: char | string

Имя FASTA-файла-формата, содержащего геномные последовательности для всех входных отображений в виде строки или вектора символов.

Пример: 'SequenceFile',"seqs.fasta"

Типы данных: char | string

Имя файла с разделением табуляцией с дополнительной информацией о каждой входной последовательности в виде строки или вектора символов. Этот файл должен иметь три столбца: столбец имени последовательности, столбец длины последовательности и столбец описания последовательности. Если AppendDescription true, описание последовательности включено как атрибут в файле выхода GFF.

Пример: 'SequenceInfo',"seqinfo.txt"

Типы данных: char | string

Отметьте, чтобы декодировать закодированные URL символы в названиях атрибута в виде true или false. Например, "transcript%20description" декодируется к "описанию расшифровки стенограммы".

Пример: 'UrlDecode',true

Типы данных: логический

Отметьте, чтобы использовать GTF-to-GFF3 метод преобразования от Ensembl в виде true или false.

Пример: 'UseEnsemblConversion',true

Типы данных: логический

Отметьте, чтобы включать нерасшифровку стенограммы записи GFF в выходной файл в виде true или false.

Пример: 'UseNonTranscript',true

Типы данных: логический

Отметьте, чтобы использовать имя дорожки во втором столбце GFF линия выхода в виде true или false.

Пример: 'UseTrackName',true

Типы данных: логический

Отметьте, чтобы записать координаты экзона, спроектированные на соединенную последовательность в виде true или false. Это свойство применяется только когда FastaExonsFile или FastaCDSFile задан.

Пример: 'WriteCoordinates',true

Типы данных: логический

Ссылки

[1] Trapnell, C., Б. Уильямс, Г. Пертеа, А. Мортэзэви, Г. Кван, Дж. ван Бэрен, С. Залцберг, B. Пустошь и Л. Пэчтер. 2010. Блок расшифровки стенограммы и квантификация RNA-Seq показывают неаннотируемые расшифровки стенограммы и изоформу, переключающуюся во время клеточной дифференцировки. Биотехнология природы. 28:511–515.

Смотрите также

|

Внешние веб-сайты

Введенный в R2019a

Для просмотра документации необходимо авторизоваться на сайте