cuffgffread

Отфильтруйте и преобразуйте файлы GTF и GFF

Описание

пример

cuffgffread(input,output) читает input GFF или файл GTF и записи обязательные столбцы к output Файл [1] GFF. Функция может также возвратить файл формата GTF с помощью 'GTFOutput' опция.

cuffgffread требует Пакета поддержки Запонок для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Примечание

cuffgffread поддерживается на Mac и UNIX® платформы только.

cuffgffread(input,output,opt) использует дополнительные опции, заданные opt.

cuffgffread(input,output,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в выходном файле.

Примеры

свернуть все

Преобразуйте файл GTF в файл GFF при сохранении всех атрибутов.

cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)

Можно также установить опции с помощью объекта. Например, задайте выход, чтобы быть в формате GTF.

opt = CuffGFFReadOptions;
opt.GTFOutput = true;
opt.PreserveAttributes = true;
cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);

Если у вас есть объект опций, можно получить эквивалентные исходные опции для всех свойств объектов с помощью getOptionsTable.

getOptionsTable(opt)
ans =

  33×3 table

                                        PropertyName                FlagName        FlagShortName
                                 ___________________________    ________________    _____________

    AppendDescription            'AppendDescription'            '-A'                    ''       
    CheckOppositeStrand          'CheckOppositeStrand'          '-B'                    ''       
    CheckPhase                   'CheckPhase'                   '-H'                    ''       
    Cluster                      'Cluster'                      '--cluster-only'        ''       
    CodingOnly                   'CodingOnly'                   '-C'                    ''       
    CollapseContainer            'CollapseContainer'            '-K'                    ''       
    CollapseFull                 'CollapseFull'                 '-Q'                    ''       
    CoordinateRange              'CoordinateRange'              '-r'                    ''       
    DiscardInvalidCDS            'DiscardInvalidCDS'            '-J'                    ''       
    DiscardNonCanonicalSplice    'DiscardNonCanonicalSplice'    '-N'                    ''       
    DiscardSingleExon            'DiscardSingleExon'            '-U'                    ''       
    DiscardTerminatedCDS         'DiscardTerminatedCDS'         '-V'                    ''       
    FastaCDSFile                 'FastaCDSFile'                 '-x'                    ''       
    FastaExonsFile               'FastaExonsFile'               '-w'                    ''       
    FastaProteinFile             'FastaProteinFile'             '-y'                    ''       
    FirstExonOnly                'FirstExonOnly'                '-G'                    ''       
    ForceExons                   'ForceExons'                   '--force-exons'         ''       
    FullyContained               'FullyContained'               '-R'                    ''       
    GTFOutput                    'GTFOutput'                    '-T'                    ''       
    MaxIntronLength              'MaxIntronLength'              '-i'                    ''       
    Merge                        'Merge'                        '--merge'               '-M'     
    MergeCloseExons              'MergeCloseExons'              '-Z'                    ''       
    MergeInfoFile                'MergeInfoFile'                '-d'                    ''       
    PreserveAttributes           'PreserveAttributes'           '-F'                    ''       
    Pseudo                       'Pseudo'                       '--no-pseudo'           ''       
    ReplacementTable             'ReplacementTable'             '-m'                    ''       
    SequenceFile                 'SequenceFile'                 '-g'                    ''       
    SequenceInfo                 'SequenceInfo'                 '-s'                    ''       
    UrlDecode                    'UrlDecode'                    '-D'                    ''       
    UseEnsemblConversion         'UseEnsemblConversion'         '-L'                    ''       
    UseNonTranscript             'UseNonTranscript'             '-O'                    ''       
    UseTrackName                 'UseTrackName'                 '-t'                    ''       
    WriteCoordinates             'WriteCoordinates'             '-W'                    ''       

Входные параметры

свернуть все

Введите имя файла в виде строки или вектора символов. Файл может быть GTF или файлом GFF.

Пример: 'gyrAB.gtf'

Типы данных: char | string

Имя выходного файла в виде строки или вектора символов. По умолчанию выход является файлом GFF. Установите 'GTFOutput' к true получить выходной файл GTF.

Пример: 'gyrAB.gff'

Типы данных: char | string

cuffgffread опции в виде CuffGFFReadOptions объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале gffread синтаксис опции (снабженный префиксом одним или двумя тире) [1].

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')

Отметьте, чтобы добавить описания файлов от файлов последовательности до descr атрибут выхода GFF записывает в виде true или false. Задайте файлы последовательности с помощью SequenceInfo опция.

Пример: 'AppendDescription',true

Типы данных: логический

Отметьте, чтобы проверять противоположную скрутку при проверке на кодоны остановки в системе координат в виде true или false.

Пример: 'CheckOppositeStrand',true

Типы данных: логический

Отметьте, чтобы настроить фазу последовательности кодирования при проверке на кодоны остановки в системе координат в виде true или false.

Пример: 'CheckPhase',true

Типы данных: логический

Отметьте, чтобы кластеризировать входные расшифровки стенограммы в места в виде true или false. Эта опция совпадает с Merge свойство, за исключением того, что это не сворачивает полностью содержавшие расшифровки стенограммы с идентичными интронами.

Пример: 'Cluster',false

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы без кодирования функции последовательности (CDS) в виде true или false.

Пример: 'CodingOnly',true

Типы данных: логический

Отметьте, чтобы свернуть полностью содержавшие расшифровки стенограммы, которые короче с меньшим количеством интронов, чем контейнер в виде true или false. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'CollapseContainer',true

Типы данных: логический

Отметьте, чтобы свернуть более короткие расшифровки стенограммы перекрывающиеся по крайней мере 80% с другой одной расшифровкой стенограммы экзона в виде true или false. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'CollapseFull',true

Типы данных: логический

Геномная область значений, чтобы отфильтровать расшифровки стенограммы в виде строки или вектора символов. Форматом должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end геномные положения, chr дополнительная хромосома или имя контига и дополнительный strand ('+' или '-').

Пример: 'CoordinateRange',“+NC_000912.1:4821..7340”

Типы данных: char | string

Отметьте, чтобы проигнорировать mRNA расшифровки стенограммы или недостаток в запуске или кодон остановки или наличие кодона остановки в системе координат в виде true или false.

Пример: 'DiscardInvalidCDS',true

Типы данных: логический

Отметьте, чтобы проигнорировать мультиэкзон mRNA расшифровки стенограммы, которые имеют интрон с неканонической последовательностью соединения встык в виде true или false. Неканоническая последовательность соединения встык является любой последовательностью соединения встык кроме "GT-AG", "CG-AG", или "AT-AC".

Пример: 'DiscardNonCanonicalSplice',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы, охватывающие один экзон в виде true или false.

Пример: 'DiscardSingleExon',true

Типы данных: логический

Отметьте, чтобы проигнорировать расшифровки стенограммы с кодоном остановки в системе координат в виде true или false.

Пример: 'DiscardTerminatedCDS',true

Типы данных: логический

Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующего MATLAB® свойства.

Пример: 'ExtraCommand',"-E"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные последовательности кодирования в формате FASTA в виде строки или вектора символов.

Пример: 'FastaCDSFile',"splicedCoding.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить соединенные экзоны в формате FASTA в виде строки или вектора символов.

Пример: 'FastaExonsFile',"splicedExon.FASTA"

Типы данных: char | string

Имя файла, чтобы сохранить перевод белка кодирования последовательностей в формате FASTA в виде строки или вектора символов.

Пример: 'FastaProteinFile',"translated.FASTA"

Типы данных: char | string

Отметьте, чтобы проанализировать дополнительные атрибуты только от первого экзона в виде true или false.

Пример: 'FirstExonOnly',true

Типы данных: логический

Отметьте, чтобы перечислить самый низкий уровень функции GFF, когда экзон показывает в выходном файле в виде true или false.

Пример: 'ForceExons',true

Типы данных: логический

Отметьте, чтобы отбросить расшифровки стенограммы, не содержавшие полностью в области значений в виде true или false. Укажите диапазон с помощью CoordinateRange опция.

Пример: 'FullyContained',true

Типы данных: логический

Отметьте, чтобы вывести файлы расшифровки стенограммы формата GTF в виде true или false.

Пример: 'GTFOutput',true

Типы данных: логический

Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Примечание

Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.

Пример: 'IncludeAll',true

Типы данных: логический

Максимальная длина интрона для расшифровки стенограммы, чтобы включать в выходной файл в виде положительного целого числа. Inf, значение по умолчанию, не устанавливает предела для длины интрона.

Пример: 'MaxIntronLength',500

Типы данных: double

Отметьте, чтобы объединить расшифровки стенограммы в места путем сворачивания расшифровок стенограммы с идентичными интронами в виде true или false.

Пример: 'Merge',true

Типы данных: логический

Отметьте, чтобы объединить экзоны в один экзон, когда разделено меньше чем 4 интронами пары оснований в виде true или false.

Пример: 'MergeCloseExons',true

Типы данных: логический

Имя файла, чтобы сохранить информацию на копиях при слиянии в виде строки или вектора символов. Это свойство применяется только, когда вы устанавливаете Merge к true.

Пример: 'MergeInfoFile',"duplicates.txt"

Типы данных: char | string

Отметьте, чтобы сохранить все атрибуты в выходном файле в виде true или false.

Пример: 'PreserveAttributes',true

Типы данных: логический

Отметьте, чтобы отфильтровать записи, содержащие слово, "псевдо" в виде true или false.

Пример: 'Pseudo',false

Типы данных: логический

Имя файла, содержащее заменяющую таблицу в виде строки или вектора символов. Таблица должна иметь два столбца, где первый столбец содержит исходные идентификаторы расшифровки стенограммы, и второй столбец содержит новые идентификаторы расшифровки стенограммы. Таблица в качестве примера следует.

origTranscript1

newTranscript1

origTranscript2

newTranscript2

origTranscript3

newTranscript3

Если вы предоставляете заменяющую таблицу, функция заменяет идентификаторы расшифровки стенограммы, найденные в первом столбце с новыми идентификаторами расшифровок стенограммы из второго столбца, и отфильтровывает те расшифровки стенограммы, не найденные.

Пример: 'ReplacementTable',"replaceTbl.txt"

Типы данных: char | string

Имя FASTA-файла-формата, содержащего геномные последовательности для всех входных отображений в виде строки или вектора символов.

Пример: 'SequenceFile',"seqs.fasta"

Типы данных: char | string

Имя файла с разделением табуляцией с дополнительной информацией о каждой входной последовательности в виде строки или вектора символов. Этот файл должен иметь три столбца: столбец имени последовательности, столбец длины последовательности и столбец описания последовательности. Если AppendDescription true, описание последовательности включено как атрибут в файле выхода GFF.

Пример: 'SequenceInfo',"seqinfo.txt"

Типы данных: char | string

Отметьте, чтобы декодировать закодированные URL символы в названиях атрибута в виде true или false. Например, "transcript%20description" декодируется к "описанию расшифровки стенограммы".

Пример: 'UrlDecode',true

Типы данных: логический

Отметьте, чтобы использовать GTF-to-GFF3 метод преобразования от Ensembl в виде true или false.

Пример: 'UseEnsemblConversion',true

Типы данных: логический

Отметьте, чтобы включать нерасшифровку стенограммы записи GFF в выходной файл в виде true или false.

Пример: 'UseNonTranscript',true

Типы данных: логический

Отметьте, чтобы использовать имя дорожки во втором столбце GFF линия выхода в виде true или false.

Пример: 'UseTrackName',true

Типы данных: логический

Отметьте, чтобы записать координаты экзона, спроектированные на соединенную последовательность в виде true или false. Это свойство применяется только когда FastaExonsFile или FastaCDSFile задан.

Пример: 'WriteCoordinates',true

Типы данных: логический

Ссылки

[1] Trapnell, Капуста, Брайан А Уильямс, Гео Pertea, Али Мортэзэви, Гордон Кван, Мэриджк Дж ван Бэрен, Стивен Л Залцберг, Барбара Дж Уолд и Лайор Пэчтер. “Блок расшифровки стенограммы и Квантификация RNA-Seq Показывают Неаннотируемые Расшифровки стенограммы и Изоформу, Переключающуюся во время Клеточной дифференцировки”. Биотехнология природы 28, № 5 (май 2010): 511–15.

Введенный в R2019a