Фильтрация и преобразование файлов GFF и GTF
cuffgffread(
читает input
,output
)input
GFF или GTF файл и записывает обязательные столбцы в output
Файл GFF [1]. Функция может также вернуть файл GTF-формата с помощью 'GTFOutput'
опция.
cuffgffread
требуется пакет поддержки Cufflinks для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.
Примечание
cuffgffread
поддерживается в Mac и UNIX® только платформы.
cuffgffread(
использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, input
,output
,Name,Value
)cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true)
сохраняет все атрибуты в файле выхода.
Преобразуйте файл GTF в файл GFF с сохранением всех атрибутов.
cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)
Можно также задать опции с помощью объекта. Для образца укажите выход в формате GTF.
opt = CuffGFFReadOptions; opt.GTFOutput = true; opt.PreserveAttributes = true; cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);
Если у вас есть объект options, можно извлечь эквивалентные исходные опции для всех свойств объекта, используя getOptionsTable
.
getOptionsTable(opt)
ans = 33×3 table PropertyName FlagName FlagShortName ___________________________ ________________ _____________ AppendDescription 'AppendDescription' '-A' '' CheckOppositeStrand 'CheckOppositeStrand' '-B' '' CheckPhase 'CheckPhase' '-H' '' Cluster 'Cluster' '--cluster-only' '' CodingOnly 'CodingOnly' '-C' '' CollapseContainer 'CollapseContainer' '-K' '' CollapseFull 'CollapseFull' '-Q' '' CoordinateRange 'CoordinateRange' '-r' '' DiscardInvalidCDS 'DiscardInvalidCDS' '-J' '' DiscardNonCanonicalSplice 'DiscardNonCanonicalSplice' '-N' '' DiscardSingleExon 'DiscardSingleExon' '-U' '' DiscardTerminatedCDS 'DiscardTerminatedCDS' '-V' '' FastaCDSFile 'FastaCDSFile' '-x' '' FastaExonsFile 'FastaExonsFile' '-w' '' FastaProteinFile 'FastaProteinFile' '-y' '' FirstExonOnly 'FirstExonOnly' '-G' '' ForceExons 'ForceExons' '--force-exons' '' FullyContained 'FullyContained' '-R' '' GTFOutput 'GTFOutput' '-T' '' MaxIntronLength 'MaxIntronLength' '-i' '' Merge 'Merge' '--merge' '-M' MergeCloseExons 'MergeCloseExons' '-Z' '' MergeInfoFile 'MergeInfoFile' '-d' '' PreserveAttributes 'PreserveAttributes' '-F' '' Pseudo 'Pseudo' '--no-pseudo' '' ReplacementTable 'ReplacementTable' '-m' '' SequenceFile 'SequenceFile' '-g' '' SequenceInfo 'SequenceInfo' '-s' '' UrlDecode 'UrlDecode' '-D' '' UseEnsemblConversion 'UseEnsemblConversion' '-L' '' UseNonTranscript 'UseNonTranscript' '-O' '' UseTrackName 'UseTrackName' '-t' '' WriteCoordinates 'WriteCoordinates' '-W' ''
input
- Вход файлаВход файла, заданное как строковый или символьный вектор. Файл может быть GTF или GFF файлом.
Пример: 'gyrAB.gtf'
Типы данных: char
| string
output
- Выход файлаВыход файла, заданное как строковый или символьный вектор. По умолчанию выход файл GFF. Задайте 'GTFOutput'
на true
для получения выходного файла GTF.
Пример: 'gyrAB.gff'
Типы данных: char
| string
opt
— cuffgffread
опцииCuffGFFReadOptions
строка | объекта | вектор символовcuffgffread
опции, заданные как CuffGFFReadOptions
объект, строка или вектор символов. Строка или вектор символов должны быть в оригинале gffread
синтаксис опции (префикс одним или двумя штрихами) [1].
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')
'AppendDescription'
- Флаг для добавления описаний файлов к descr
признакfalse
(по умолчанию) | true
Флаг для добавления описаний файлов из файлов последовательности в descr
атрибут выходной записи GFF, заданный как true
или false
. Задайте файлы последовательности с помощью SequenceInfo
опция.
Пример:
'AppendDescription',true
Типы данных: logical
'CheckOppositeStrand'
- Флаг для проверки противоположной цепи при проверке на внутрикадровые стоповые кодоныfalse
(по умолчанию) | true
Флаг для проверки противоположной цепи при проверке на наличие внутрикадровых стоповых кодонов, указанный как true
или false
.
Пример:
'CheckOppositeStrand',true
Типы данных: logical
'CheckPhase'
- Флаг для настройки фазы последовательности кодированияfalse
(по умолчанию) | true
Флаг для корректировки фазы последовательности кодирования при проверке на наличие в кадре стоповых кодонов, заданный как true
или false
.
Пример:
'CheckPhase',true
Типы данных: logical
'Cluster'
- Флаг для кластера входных транскриптов в locitrue
(по умолчанию) | false
Флаг для кластеризации входных транскриптов в локусы, заданный как true
или false
. Эта опция аналогична опции Merge
свойство, за исключением того, что оно не свернет полностью содержащиеся транскрипты с идентичными интронами.
Пример:
'Cluster',false
Типы данных: logical
'CodingOnly'
- Флаг, чтобы отбросить транскрипты без кодирующей последовательностиfalse
(по умолчанию) | true
Флаг для сброса транскриптов без функций кодирующей последовательности (CDS), заданный как true
или false
.
Пример:
'CodingOnly',true
Типы данных: logical
'CollapseContainer'
- Флаг, чтобы свернуть полностью содержащиеся транскриптыfalse
(по умолчанию) | true
Флаг для свертки полностью содержащихся транскриптов, которые короче с меньшим количеством интронов, чем контейнер, заданный как true
или false
. Это свойство применяется только при установке Merge
на true
.
Пример:
'CollapseContainer',true
Типы данных: logical
'CollapseFull'
- Флаг, чтобы свернуть более короткие транскрипты, перекрывающиеся, по крайней мере, на 80% с другим экзономfalse
(по умолчанию) | true
Флаг для свертки более коротких транскриптов, перекрывающихся, по крайней мере, на 80% с другим единственным транскриптом экзона, заданный как true
или false
. Это свойство применяется только при установке Merge
на true
.
Пример:
'CollapseFull',true
Типы данных: logical
'CoordinateRange'
- Геномная область значений для фильтрации транскриптовГеномная область значений для фильтрации транскриптов, заданный как строковый или символьный вектор. Формат должен быть "[[<strand>]<chr>:]<start>..<end>"
, где start
и end
являются геномными положениями, chr
является необязательным именем хромосомы или contig и необязательным strand
('+'
или '-'
).
Пример:
'CoordinateRange',“+NC_000912.1:4821..7340”
Типы данных: char
| string
'DiscardInvalidCDS'
- Флаг, чтобы игнорировать транскрипты мРНК, либо не имеющие стартового, либо стопового кодона, либо имеющие в кадре стоповый кодонfalse
(по умолчанию) | true
Флаг для игнорирования транскриптов мРНК, либо не имеющих стартового, либо стопового кодона, либо имеющих в кадре стоповый кодон, заданный как true
или false
.
Пример:
'DiscardInvalidCDS',true
Типы данных: logical
'DiscardNonCanonicalSplice'
- Флаг, чтобы игнорировать мультиксонные транскрипты мРНК, которые имеют интрон с неканонической последовательностью сращиванияfalse
(по умолчанию) | true
Флаг, чтобы игнорировать мультиксонные транскрипты мРНК, которые имеют интрон с неканонической последовательностью сращивания, заданный как true
или false
. Неканоническая последовательность сращивания - это любая последовательность сращивания, отличная от "GT-AG"
, "CG-AG"
, или "AT-AC"
.
Пример:
'DiscardNonCanonicalSplice',true
Типы данных: logical
'DiscardSingleExon'
- Флаг, чтобы игнорировать транскрипты, охватывающие один экзонfalse
(по умолчанию) | true
Флаг, чтобы игнорировать транскрипты, охватывающие один экзон, заданный как true
или false
.
Пример:
'DiscardSingleExon',true
Типы данных: logical
'DiscardTerminatedCDS'
- Флаг, чтобы игнорировать транскрипты с внутрикадровым стоповым кодономfalse
(по умолчанию) | true
Флаг для игнорирования транскриптов с внутрикадровым стоповым кодоном, заданный как true
или false
.
Пример:
'DiscardTerminatedCDS',true
Типы данных: logical
'ExtraCommand'
- Дополнительные команды""
(по умолчанию) | вектор символов | строкаКоманды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.
Пример: 'ExtraCommand',"-E"
Типы данных: char
| string
'FastaCDSFile'
- Имя файла для сохранения сращенных последовательностей кодированияИмя файла для сохранения сращенных последовательностей кодирования в формате FASTA, заданное как строковый или символьный вектор.
Пример:
'FastaCDSFile',"splicedCoding.FASTA"
Типы данных: char
| string
'FastaExonsFile'
- Имя файла для сохранения сращенных экзоновИмя файла для сохранения сращенных экзонов в формате FASTA, заданное как строковый или символьный вектор.
Пример:
'FastaExonsFile',"splicedExon.FASTA"
Типы данных: char
| string
'FastaProteinFile'
- Имя файла для сохранения трансляции белка кодирующих последовательностейИмя файла для сохранения трансляции белка кодирующих последовательностей в формате FASTA, заданном как строковый или символьный вектор.
Пример:
'FastaProteinFile',"translated.FASTA"
Типы данных: char
| string
'FirstExonOnly'
- Флаг для анализа дополнительных атрибутов только из первого экзонаfalse
(по умолчанию) | true
Флаг для анализа дополнительных атрибутов только из первого экзона, заданный как true
или false
.
Пример: 'FirstExonOnly',true
Типы данных: logical
'ForceExons'
- Флаг для перечисления функций GFF самого низкого уровня в качестве признаков экзонаfalse
(по умолчанию) | true
Флаг для перечисления функций GFF самого низкого уровня в качестве признаков экзона в файле выхода, заданный как true
или false
.
Пример:
'ForceExons',true
Типы данных: logical
'FullyContained'
- Флаг, чтобы сбросить транскрипты, не содержащиеся полностьюfalse
(по умолчанию) | true
Флаг для сброса транскриптов, не содержащихся полностью в области значений, указанный как true
или false
. Задайте область значений используя CoordinateRange
опция.
Пример:
'FullyContained',true
Типы данных: logical
'GTFOutput'
- Флаг для вывода файлов транскрипта GTF-форматаfalse
(по умолчанию) | true
Флаг для вывода файлов транскрипта GTF-формата, заданный как true
или false
.
Пример:
'GTFOutput',true
Типы данных: logical
'IncludeAll'
- Флаг для применения всех доступных опцийfalse
(по умолчанию) | true
Исходный (нативный) синтаксис префиксируется одним или двумя штрихами. По умолчанию функция преобразует только указанные опции. Если значение true
программное обеспечение преобразует все доступные опции со значениями по умолчанию для неопределенных опций в исходный синтаксис.
Примечание
Если вы задаете IncludeAll
на true
программное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN
, Inf
, []
, ''
, или ""
, тогда программное обеспечение не преобразует соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: logical
'MaxIntronLength'
- Максимальная длина интрона для включения транскрипта в выходInf
(по умолчанию) | положительное целое числоМаксимальная длина интрона для включения транскрипта в файл выхода, заданная как положительное целое число. Inf
, значение по умолчанию, не устанавливает предела на длину интрона.
Пример:
'MaxIntronLength',500
Типы данных: double
'Merge'
- Флаг для слияния транскриптов с локусамиfalse
(по умолчанию) | true
Флаг для слияния транскриптов в локусы путем свертывания транскриптов с идентичными интронами, заданный как true
или false
.
Пример:
'Merge',true
Типы данных: logical
'MergeCloseExons'
- Флаг для объединения экзонов в один экзонfalse
(по умолчанию) | true
Флаг для объединения экзонов в один экзон при разделении менее чем 4 интронами с базовой парой, заданный как true
или false
.
Пример:
'MergeCloseExons',true
Типы данных: logical
'MergeInfoFile'
- Имя файла для сохранения информации о дубликатах при слиянииИмя файла для сохранения информации о дубликатах при слиянии, заданное как строковый или символьный вектор. Это свойство применяется только при установке Merge
на true
.
Пример:
'MergeInfoFile',"duplicates.txt"
Типы данных: char
| string
'PreserveAttributes'
- Флаг для сохранения всех атрибутов в выходеfalse
(по умолчанию) | true
Флаг для сохранения всех атрибутов в файле выхода, заданный как true
или false
.
Пример:
'PreserveAttributes',true
Типы данных: logical
'Pseudo'
- Флаг для фильтрации записей, содержащих «pseudo»true
(по умолчанию) | false
Флаг для фильтрации записей, содержащих слово «pseudo», заданный как true
или false
.
Пример:
'Pseudo',false
Типы данных: logical
'ReplacementTable'
- Имя файла, содержащего таблицу замещенияИмя файла, содержащего таблицу замещения, заданное как строковый или символьный вектор. Таблица должна иметь два столбца, где в первом столбце содержатся исходные идентификаторы транскриптов, а во втором - новые идентификаторы транскриптов. Ниже приведена таблица примеров.
origTranscript1 | newTranscript1 |
origTranscript2 | newTranscript2 |
origTranscript3 | newTranscript3 |
Если вы предоставляете таблицу замещения, функция заменяет идентификаторы транскриптов, найденные в первом столбце, новыми идентификаторами транскриптов из второго столбца и отфильтровывает эти транскрипты, не найденные.
Пример:
'ReplacementTable',"replaceTbl.txt"
Типы данных: char
| string
'SequenceFile'
- Имя файла FASTA-формата, содержащего геномные последовательностиИмя файла FASTA-формата, содержащего геномные последовательности для всех входных отображений, заданное как строковый или символьный вектор.
Пример:
'SequenceFile',"seqs.fasta"
Типы данных: char
| string
'SequenceInfo'
- Имя файла с разделителем табуляций с дополнительной информацией о входной последовательностиИмя файла с разделителем табуляцией с дополнительной информацией о каждой входной последовательности, заданное как строковый или символьный вектор. Этот файл должен иметь три столбца: столбец с именем последовательности, столбец с длиной последовательности и столбец с описанием последовательности. Если AppendDescription
является true
описание последовательности включено в качестве атрибута в выходной файл GFF.
Пример:
'SequenceInfo',"seqinfo.txt"
Типы данных: char
| string
'UrlDecode'
- Флаг для декодирования кодированных URL символов в именах атрибутовfalse
(по умолчанию) | true
Флаг для декодирования кодированных URL символов в именах атрибутов, заданный как true
или false
. Например, «транскрипт% 20description» декодируется на «описание транскрипта».
Пример:
'UrlDecode',true
Типы данных: logical
'UseEnsemblConversion'
- Флаг для использования GTF-to-GFF3 преобразования из Ensemblfalse
(по умолчанию) | true
Флаг для использования метода преобразования GTF-to-GFF3 из Ensembl, заданный как true
или false
.
Пример:
'UseEnsemblConversion',true
Типы данных: logical
'UseNonTranscript'
- Флаг для включения нетранскриптных записей GFF в выходной файлfalse
(по умолчанию) | true
Флаг для включения нетранскриптных записей GFF в файл выхода, заданный как true
или false
.
Пример:
'UseNonTranscript',true
Типы данных: logical
'UseTrackName'
- Флаг для использования имени дорожки во втором столбце выходной линии GFFfalse
(по умолчанию) | true
Флаг для использования имени дорожки во втором столбце выходной линии GFF, заданный как true
или false
.
Пример:
'UseTrackName',true
Типы данных: logical
'WriteCoordinates'
- Флаг для записи координат экзона, проецируемых на сращенную последовательностьfalse
(по умолчанию) | true
Флаг для записи координат экзона, проецируемых на сращенную последовательность, заданный как true
или false
. Это свойство применяется только тогда, когда FastaExonsFile
или FastaCDSFile
задан.
Пример:
'WriteCoordinates',true
Типы данных: logical
[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертея, Али Мортазави, Гордон Кван, Марийке Дж. Ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пахтер. «Сборка транскрипта и количественное определение РНК-Seq обнаруживает неаннотированные транскрипты и переключение изоформы во время дифференциации камер». Биотехнология природы 28, № 5 (май 2010): 511-15.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.