Фильтрация и преобразование файлов GFF и GTF
cuffgffread( читает input,output)input GFF или GTF файл и записывает обязательные столбцы в output Файл GFF [1]. Функция может также вернуть файл GTF-формата с помощью 'GTFOutput' опция.
cuffgffread требуется пакет поддержки Cufflinks для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.
Примечание
cuffgffread поддерживается в Mac и UNIX® только платформы.
cuffgffread( использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, input,output,Name,Value)cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в файле выхода.
Преобразуйте файл GTF в файл GFF с сохранением всех атрибутов.
cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)
Можно также задать опции с помощью объекта. Для образца укажите выход в формате GTF.
opt = CuffGFFReadOptions; opt.GTFOutput = true; opt.PreserveAttributes = true; cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);
Если у вас есть объект options, можно извлечь эквивалентные исходные опции для всех свойств объекта, используя getOptionsTable.
getOptionsTable(opt)
ans =
33×3 table
PropertyName FlagName FlagShortName
___________________________ ________________ _____________
AppendDescription 'AppendDescription' '-A' ''
CheckOppositeStrand 'CheckOppositeStrand' '-B' ''
CheckPhase 'CheckPhase' '-H' ''
Cluster 'Cluster' '--cluster-only' ''
CodingOnly 'CodingOnly' '-C' ''
CollapseContainer 'CollapseContainer' '-K' ''
CollapseFull 'CollapseFull' '-Q' ''
CoordinateRange 'CoordinateRange' '-r' ''
DiscardInvalidCDS 'DiscardInvalidCDS' '-J' ''
DiscardNonCanonicalSplice 'DiscardNonCanonicalSplice' '-N' ''
DiscardSingleExon 'DiscardSingleExon' '-U' ''
DiscardTerminatedCDS 'DiscardTerminatedCDS' '-V' ''
FastaCDSFile 'FastaCDSFile' '-x' ''
FastaExonsFile 'FastaExonsFile' '-w' ''
FastaProteinFile 'FastaProteinFile' '-y' ''
FirstExonOnly 'FirstExonOnly' '-G' ''
ForceExons 'ForceExons' '--force-exons' ''
FullyContained 'FullyContained' '-R' ''
GTFOutput 'GTFOutput' '-T' ''
MaxIntronLength 'MaxIntronLength' '-i' ''
Merge 'Merge' '--merge' '-M'
MergeCloseExons 'MergeCloseExons' '-Z' ''
MergeInfoFile 'MergeInfoFile' '-d' ''
PreserveAttributes 'PreserveAttributes' '-F' ''
Pseudo 'Pseudo' '--no-pseudo' ''
ReplacementTable 'ReplacementTable' '-m' ''
SequenceFile 'SequenceFile' '-g' ''
SequenceInfo 'SequenceInfo' '-s' ''
UrlDecode 'UrlDecode' '-D' ''
UseEnsemblConversion 'UseEnsemblConversion' '-L' ''
UseNonTranscript 'UseNonTranscript' '-O' ''
UseTrackName 'UseTrackName' '-t' ''
WriteCoordinates 'WriteCoordinates' '-W' '' input - Вход файлаВход файла, заданное как строковый или символьный вектор. Файл может быть GTF или GFF файлом.
Пример: 'gyrAB.gtf'
Типы данных: char | string
output - Выход файлаВыход файла, заданное как строковый или символьный вектор. По умолчанию выход файл GFF. Задайте 'GTFOutput' на true для получения выходного файла GTF.
Пример: 'gyrAB.gff'
Типы данных: char | string
opt — cuffgffread опцииCuffGFFReadOptionsстрока | объекта | вектор символовcuffgffread опции, заданные как CuffGFFReadOptions объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале gffread синтаксис опции (префикс одним или двумя штрихами) [1].
Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.
cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')'AppendDescription' - Флаг для добавления описаний файлов к descr признакfalse (по умолчанию) | trueФлаг для добавления описаний файлов из файлов последовательности в descr атрибут выходной записи GFF, заданный как true или false. Задайте файлы последовательности с помощью SequenceInfo опция.
Пример:
'AppendDescription',true
Типы данных: logical
'CheckOppositeStrand' - Флаг для проверки противоположной цепи при проверке на внутрикадровые стоповые кодоныfalse (по умолчанию) | trueФлаг для проверки противоположной цепи при проверке на наличие внутрикадровых стоповых кодонов, указанный как true или false.
Пример:
'CheckOppositeStrand',true
Типы данных: logical
'CheckPhase' - Флаг для настройки фазы последовательности кодированияfalse (по умолчанию) | trueФлаг для корректировки фазы последовательности кодирования при проверке на наличие в кадре стоповых кодонов, заданный как true или false.
Пример:
'CheckPhase',true
Типы данных: logical
'Cluster' - Флаг для кластера входных транскриптов в locitrue (по умолчанию) | falseФлаг для кластеризации входных транскриптов в локусы, заданный как true или false. Эта опция аналогична опции Merge свойство, за исключением того, что оно не свернет полностью содержащиеся транскрипты с идентичными интронами.
Пример:
'Cluster',false
Типы данных: logical
'CodingOnly' - Флаг, чтобы отбросить транскрипты без кодирующей последовательностиfalse (по умолчанию) | trueФлаг для сброса транскриптов без функций кодирующей последовательности (CDS), заданный как true или false.
Пример:
'CodingOnly',true
Типы данных: logical
'CollapseContainer' - Флаг, чтобы свернуть полностью содержащиеся транскриптыfalse (по умолчанию) | trueФлаг для свертки полностью содержащихся транскриптов, которые короче с меньшим количеством интронов, чем контейнер, заданный как true или false. Это свойство применяется только при установке Merge на true.
Пример:
'CollapseContainer',true
Типы данных: logical
'CollapseFull' - Флаг, чтобы свернуть более короткие транскрипты, перекрывающиеся, по крайней мере, на 80% с другим экзономfalse (по умолчанию) | trueФлаг для свертки более коротких транскриптов, перекрывающихся, по крайней мере, на 80% с другим единственным транскриптом экзона, заданный как true или false. Это свойство применяется только при установке Merge на true.
Пример:
'CollapseFull',true
Типы данных: logical
'CoordinateRange' - Геномная область значений для фильтрации транскриптовГеномная область значений для фильтрации транскриптов, заданный как строковый или символьный вектор. Формат должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end являются геномными положениями, chr является необязательным именем хромосомы или contig и необязательным strand ('+' или '-').
Пример:
'CoordinateRange',“+NC_000912.1:4821..7340”
Типы данных: char | string
'DiscardInvalidCDS' - Флаг, чтобы игнорировать транскрипты мРНК, либо не имеющие стартового, либо стопового кодона, либо имеющие в кадре стоповый кодонfalse (по умолчанию) | trueФлаг для игнорирования транскриптов мРНК, либо не имеющих стартового, либо стопового кодона, либо имеющих в кадре стоповый кодон, заданный как true или false.
Пример:
'DiscardInvalidCDS',true
Типы данных: logical
'DiscardNonCanonicalSplice' - Флаг, чтобы игнорировать мультиксонные транскрипты мРНК, которые имеют интрон с неканонической последовательностью сращиванияfalse (по умолчанию) | trueФлаг, чтобы игнорировать мультиксонные транскрипты мРНК, которые имеют интрон с неканонической последовательностью сращивания, заданный как true или false. Неканоническая последовательность сращивания - это любая последовательность сращивания, отличная от "GT-AG", "CG-AG", или "AT-AC".
Пример:
'DiscardNonCanonicalSplice',true
Типы данных: logical
'DiscardSingleExon' - Флаг, чтобы игнорировать транскрипты, охватывающие один экзонfalse (по умолчанию) | trueФлаг, чтобы игнорировать транскрипты, охватывающие один экзон, заданный как true или false.
Пример:
'DiscardSingleExon',true
Типы данных: logical
'DiscardTerminatedCDS' - Флаг, чтобы игнорировать транскрипты с внутрикадровым стоповым кодономfalse (по умолчанию) | trueФлаг для игнорирования транскриптов с внутрикадровым стоповым кодоном, заданный как true или false.
Пример:
'DiscardTerminatedCDS',true
Типы данных: logical
'ExtraCommand' - Дополнительные команды"" (по умолчанию) | вектор символов | строкаКоманды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.
Пример: 'ExtraCommand',"-E"
Типы данных: char | string
'FastaCDSFile' - Имя файла для сохранения сращенных последовательностей кодированияИмя файла для сохранения сращенных последовательностей кодирования в формате FASTA, заданное как строковый или символьный вектор.
Пример:
'FastaCDSFile',"splicedCoding.FASTA"
Типы данных: char | string
'FastaExonsFile' - Имя файла для сохранения сращенных экзоновИмя файла для сохранения сращенных экзонов в формате FASTA, заданное как строковый или символьный вектор.
Пример:
'FastaExonsFile',"splicedExon.FASTA"
Типы данных: char | string
'FastaProteinFile' - Имя файла для сохранения трансляции белка кодирующих последовательностейИмя файла для сохранения трансляции белка кодирующих последовательностей в формате FASTA, заданном как строковый или символьный вектор.
Пример:
'FastaProteinFile',"translated.FASTA"
Типы данных: char | string
'FirstExonOnly' - Флаг для анализа дополнительных атрибутов только из первого экзонаfalse (по умолчанию) | trueФлаг для анализа дополнительных атрибутов только из первого экзона, заданный как true или false.
Пример: 'FirstExonOnly',true
Типы данных: logical
'ForceExons' - Флаг для перечисления функций GFF самого низкого уровня в качестве признаков экзонаfalse (по умолчанию) | trueФлаг для перечисления функций GFF самого низкого уровня в качестве признаков экзона в файле выхода, заданный как true или false.
Пример:
'ForceExons',true
Типы данных: logical
'FullyContained' - Флаг, чтобы сбросить транскрипты, не содержащиеся полностьюfalse (по умолчанию) | trueФлаг для сброса транскриптов, не содержащихся полностью в области значений, указанный как true или false. Задайте область значений используя CoordinateRange опция.
Пример:
'FullyContained',true
Типы данных: logical
'GTFOutput' - Флаг для вывода файлов транскрипта GTF-форматаfalse (по умолчанию) | trueФлаг для вывода файлов транскрипта GTF-формата, заданный как true или false.
Пример:
'GTFOutput',true
Типы данных: logical
'IncludeAll' - Флаг для применения всех доступных опцийfalse (по умолчанию) | trueИсходный (нативный) синтаксис префиксируется одним или двумя штрихами. По умолчанию функция преобразует только указанные опции. Если значение trueпрограммное обеспечение преобразует все доступные опции со значениями по умолчанию для неопределенных опций в исходный синтаксис.
Примечание
Если вы задаете IncludeAll на trueпрограммное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN, Inf, [], '', или "", тогда программное обеспечение не преобразует соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: logical
'MaxIntronLength' - Максимальная длина интрона для включения транскрипта в выходInf (по умолчанию) | положительное целое числоМаксимальная длина интрона для включения транскрипта в файл выхода, заданная как положительное целое число. Inf, значение по умолчанию, не устанавливает предела на длину интрона.
Пример:
'MaxIntronLength',500
Типы данных: double
'Merge' - Флаг для слияния транскриптов с локусамиfalse (по умолчанию) | trueФлаг для слияния транскриптов в локусы путем свертывания транскриптов с идентичными интронами, заданный как true или false.
Пример:
'Merge',true
Типы данных: logical
'MergeCloseExons' - Флаг для объединения экзонов в один экзонfalse (по умолчанию) | trueФлаг для объединения экзонов в один экзон при разделении менее чем 4 интронами с базовой парой, заданный как true или false.
Пример:
'MergeCloseExons',true
Типы данных: logical
'MergeInfoFile' - Имя файла для сохранения информации о дубликатах при слиянииИмя файла для сохранения информации о дубликатах при слиянии, заданное как строковый или символьный вектор. Это свойство применяется только при установке Merge на true.
Пример:
'MergeInfoFile',"duplicates.txt"
Типы данных: char | string
'PreserveAttributes' - Флаг для сохранения всех атрибутов в выходеfalse (по умолчанию) | trueФлаг для сохранения всех атрибутов в файле выхода, заданный как true или false.
Пример:
'PreserveAttributes',true
Типы данных: logical
'Pseudo' - Флаг для фильтрации записей, содержащих «pseudo»true (по умолчанию) | falseФлаг для фильтрации записей, содержащих слово «pseudo», заданный как true или false.
Пример:
'Pseudo',false
Типы данных: logical
'ReplacementTable' - Имя файла, содержащего таблицу замещенияИмя файла, содержащего таблицу замещения, заданное как строковый или символьный вектор. Таблица должна иметь два столбца, где в первом столбце содержатся исходные идентификаторы транскриптов, а во втором - новые идентификаторы транскриптов. Ниже приведена таблица примеров.
origTranscript1 | newTranscript1 |
origTranscript2 | newTranscript2 |
origTranscript3 | newTranscript3 |
Если вы предоставляете таблицу замещения, функция заменяет идентификаторы транскриптов, найденные в первом столбце, новыми идентификаторами транскриптов из второго столбца и отфильтровывает эти транскрипты, не найденные.
Пример:
'ReplacementTable',"replaceTbl.txt"
Типы данных: char | string
'SequenceFile' - Имя файла FASTA-формата, содержащего геномные последовательностиИмя файла FASTA-формата, содержащего геномные последовательности для всех входных отображений, заданное как строковый или символьный вектор.
Пример:
'SequenceFile',"seqs.fasta"
Типы данных: char | string
'SequenceInfo' - Имя файла с разделителем табуляций с дополнительной информацией о входной последовательностиИмя файла с разделителем табуляцией с дополнительной информацией о каждой входной последовательности, заданное как строковый или символьный вектор. Этот файл должен иметь три столбца: столбец с именем последовательности, столбец с длиной последовательности и столбец с описанием последовательности. Если AppendDescription является trueописание последовательности включено в качестве атрибута в выходной файл GFF.
Пример:
'SequenceInfo',"seqinfo.txt"
Типы данных: char | string
'UrlDecode' - Флаг для декодирования кодированных URL символов в именах атрибутовfalse (по умолчанию) | trueФлаг для декодирования кодированных URL символов в именах атрибутов, заданный как true или false. Например, «транскрипт% 20description» декодируется на «описание транскрипта».
Пример:
'UrlDecode',true
Типы данных: logical
'UseEnsemblConversion' - Флаг для использования GTF-to-GFF3 преобразования из Ensemblfalse (по умолчанию) | trueФлаг для использования метода преобразования GTF-to-GFF3 из Ensembl, заданный как true или false.
Пример:
'UseEnsemblConversion',true
Типы данных: logical
'UseNonTranscript' - Флаг для включения нетранскриптных записей GFF в выходной файлfalse (по умолчанию) | trueФлаг для включения нетранскриптных записей GFF в файл выхода, заданный как true или false.
Пример:
'UseNonTranscript',true
Типы данных: logical
'UseTrackName' - Флаг для использования имени дорожки во втором столбце выходной линии GFFfalse (по умолчанию) | trueФлаг для использования имени дорожки во втором столбце выходной линии GFF, заданный как true или false.
Пример:
'UseTrackName',true
Типы данных: logical
'WriteCoordinates' - Флаг для записи координат экзона, проецируемых на сращенную последовательностьfalse (по умолчанию) | trueФлаг для записи координат экзона, проецируемых на сращенную последовательность, заданный как true или false. Это свойство применяется только тогда, когда FastaExonsFile или FastaCDSFile задан.
Пример:
'WriteCoordinates',true
Типы данных: logical
[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертея, Али Мортазави, Гордон Кван, Марийке Дж. Ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пахтер. «Сборка транскрипта и количественное определение РНК-Seq обнаруживает неаннотированные транскрипты и переключение изоформы во время дифференциации камер». Биотехнология природы 28, № 5 (май 2010): 511-15.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.