Фильтрация и преобразование файлов GFF и GTF
cuffgffread( считывает input,output)input GFF или GTF-файл и записывает обязательные столбцы в output GFF-файл [1]. Функция также может вернуть файл формата GTF с помощью 'GTFOutput' вариант.
cuffgffread требуется пакет поддержки «Запонки» для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.
Примечание
cuffgffread поддерживается только на платформах Mac и UNIX ®.
cuffgffread( использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, input,output,Name,Value)cuffgffread('gyrAB.gtf','gyrAB.gff','PreserveAttributes',true) сохраняет все атрибуты в выходном файле.
Преобразование файла GTF в файл GFF с сохранением всех атрибутов.
cuffgffread('gyrAB.gtf','gyrABOut.gff','PreserveAttributes',true)
Можно также задать параметры с помощью объекта. Например, укажите вывод в формате GTF.
opt = CuffGFFReadOptions; opt.GTFOutput = true; opt.PreserveAttributes = true; cuffgffread('gyrAB.gtf','gyrABOut.gtf',opt);
При наличии объекта options можно извлечь эквивалентные исходные опции для всех свойств объекта с помощью getOptionsTable.
getOptionsTable(opt)
ans =
33×3 table
PropertyName FlagName FlagShortName
___________________________ ________________ _____________
AppendDescription 'AppendDescription' '-A' ''
CheckOppositeStrand 'CheckOppositeStrand' '-B' ''
CheckPhase 'CheckPhase' '-H' ''
Cluster 'Cluster' '--cluster-only' ''
CodingOnly 'CodingOnly' '-C' ''
CollapseContainer 'CollapseContainer' '-K' ''
CollapseFull 'CollapseFull' '-Q' ''
CoordinateRange 'CoordinateRange' '-r' ''
DiscardInvalidCDS 'DiscardInvalidCDS' '-J' ''
DiscardNonCanonicalSplice 'DiscardNonCanonicalSplice' '-N' ''
DiscardSingleExon 'DiscardSingleExon' '-U' ''
DiscardTerminatedCDS 'DiscardTerminatedCDS' '-V' ''
FastaCDSFile 'FastaCDSFile' '-x' ''
FastaExonsFile 'FastaExonsFile' '-w' ''
FastaProteinFile 'FastaProteinFile' '-y' ''
FirstExonOnly 'FirstExonOnly' '-G' ''
ForceExons 'ForceExons' '--force-exons' ''
FullyContained 'FullyContained' '-R' ''
GTFOutput 'GTFOutput' '-T' ''
MaxIntronLength 'MaxIntronLength' '-i' ''
Merge 'Merge' '--merge' '-M'
MergeCloseExons 'MergeCloseExons' '-Z' ''
MergeInfoFile 'MergeInfoFile' '-d' ''
PreserveAttributes 'PreserveAttributes' '-F' ''
Pseudo 'Pseudo' '--no-pseudo' ''
ReplacementTable 'ReplacementTable' '-m' ''
SequenceFile 'SequenceFile' '-g' ''
SequenceInfo 'SequenceInfo' '-s' ''
UrlDecode 'UrlDecode' '-D' ''
UseEnsemblConversion 'UseEnsemblConversion' '-L' ''
UseNonTranscript 'UseNonTranscript' '-O' ''
UseTrackName 'UseTrackName' '-t' ''
WriteCoordinates 'WriteCoordinates' '-W' '' input - Имя входного файлаИмя входного файла, указанное как строковый или символьный вектор. Файл может быть GTF или GFF.
Пример: 'gyrAB.gtf'
Типы данных: char | string
output - Имя выходного файлаИмя выходного файла, указанное как строковый или символьный вектор. По умолчанию результатом является файл GFF. Набор 'GTFOutput' кому true для получения выходного файла GTF.
Пример: 'gyrAB.gff'
Типы данных: char | string
opt — cuffgffread вариантыCuffGFFReadOptions объект | строка | символьный векторcuffgffread опции, указанные как CuffGFFReadOptions объект, строка или символьный вектор. Вектор строки или символа должен быть в оригинале gffread синтаксис параметра (префикс одного или двух тире) [1].
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
cuffgffread('gyrAB.gtf','gyrAB.gff','CoordinateRange','+NC_000912.1:4821..7340')'AppendDescription' - Флаг для добавления описаний файлов descr признакfalse (по умолчанию) | trueФлажок для добавления описаний файлов из файлов последовательности в descr атрибут выходной записи GFF, указанный как true или false. Укажите файлы последовательности с помощью SequenceInfo вариант.
Пример:
'AppendDescription',true
Типы данных: logical
'CheckOppositeStrand' - Флаг для проверки противоположной цепи при проверке на наличие стоп-кодонов в кадреfalse (по умолчанию) | trueФлаг для проверки противоположной цепи при проверке на наличие стоп-кодонов в кадре, указанный как true или false.
Пример:
'CheckOppositeStrand',true
Типы данных: logical
'CheckPhase' - Флаг для настройки фазы последовательности кодированияfalse (по умолчанию) | trueФлаг для настройки фазы кодирующей последовательности при проверке на наличие стоп-кодонов в кадре, указанный как true или false.
Пример:
'CheckPhase',true
Типы данных: logical
'Cluster' - Флаг для кластеризации входных транскриптов в локусыtrue (по умолчанию) | falseФлаг для кластеризации входных транскриптов в локусы, указанные как true или false. Этот параметр совпадает с параметром Merge свойство, за исключением того, что оно не разрушает полностью содержащиеся транскрипты с идентичными интронами.
Пример:
'Cluster',false
Типы данных: logical
'CodingOnly' - Флаг для отбрасывания транскриптов без кодирующей последовательностиfalse (по умолчанию) | trueФлаг для отбрасывания транскриптов без функции последовательности кодирования (CDS), указанный как true или false.
Пример:
'CodingOnly',true
Типы данных: logical
'CollapseContainer' - Флаг для развала полностью содержит стенограммыfalse (по умолчанию) | trueФлаг для свертывания полностью содержал транскрипты, которые короче с меньшим количеством интронов, чем контейнер, указанный как true или false. Это свойство применяется только при установке Merge кому true.
Пример:
'CollapseContainer',true
Типы данных: logical
'CollapseFull' - Флаг для свертывания более коротких транскриптов, перекрывающихся, по крайней мере, на 80% с другим экзономfalse (по умолчанию) | trueФлаг для свертывания более коротких транскриптов, перекрывающих по меньшей мере 80% с другим транскриптом одного экзона, указанным как true или false. Это свойство применяется только при установке Merge кому true.
Пример:
'CollapseFull',true
Типы данных: logical
'CoordinateRange' - Геномный диапазон для фильтрации транскриптовГеномный диапазон для фильтрации транскриптов, указанный как строковый или символьный вектор. Формат должен быть "[[<strand>]<chr>:]<start>..<end>", где start и end - геномные положения, chr является необязательным именем хромосомы или контига и необязательным strand ('+' или '-').
Пример:
'CoordinateRange',“+NC_000912.1:4821..7340”
Типы данных: char | string
'DiscardInvalidCDS' - Флаг для игнорирования транскриптов мРНК, либо отсутствующих стартового или стоп-кодона, либо имеющих in-frame stop кодонfalse (по умолчанию) | trueФлаг для игнорирования транскриптов мРНК, либо не имеющих стартового или стоп-кодона, либо имеющих in-frame stop-кодон, указанный как true или false.
Пример:
'DiscardInvalidCDS',true
Типы данных: logical
'DiscardNonCanonicalSplice' - Флаг для игнорирования многоэкзонных транскриптов мРНК, которые имеют интрон с неканонической последовательностью сплайсингаfalse (по умолчанию) | trueФлаг для игнорирования многоэкзонных транскриптов мРНК, которые имеют интрон с неканонической последовательностью сплайсинга, указанный как true или false. Неканоническая последовательность сращивания представляет собой любую последовательность сращивания, отличную от "GT-AG", "CG-AG", или "AT-AC".
Пример:
'DiscardNonCanonicalSplice',true
Типы данных: logical
'DiscardSingleExon' - Флаг для игнорирования транскриптов, охватывающих один экзонfalse (по умолчанию) | trueФлаг для игнорирования транскриптов, охватывающих один экзон, указанный как true или false.
Пример:
'DiscardSingleExon',true
Типы данных: logical
'DiscardTerminatedCDS' - Флаг для игнорирования транскриптов с кодоном in-frame stopfalse (по умолчанию) | trueФлаг для игнорирования транскриптов с внутрикадровым стоп-кодоном, указанный как true или false.
Пример:
'DiscardTerminatedCDS',true
Типы данных: logical
'ExtraCommand' - Дополнительные команды"" (по умолчанию) | символьный вектор | строкаКоманды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ®.
Пример: 'ExtraCommand',"-E"
Типы данных: char | string
'FastaCDSFile' - Имя файла для сохранения сплайсированных кодовых последовательностейИмя файла для сохранения сплайсированных кодовых последовательностей в формате FASTA, заданного как строковый или символьный вектор.
Пример:
'FastaCDSFile',"splicedCoding.FASTA"
Типы данных: char | string
'FastaExonsFile' - Имя файла для сохранения связанных экзоновИмя файла для сохранения связанных экзонов в формате FASTA, указанное как строковый или символьный вектор.
Пример:
'FastaExonsFile',"splicedExon.FASTA"
Типы данных: char | string
'FastaProteinFile' - Имя файла для сохранения трансляции белка кодирующих последовательностейИмя файла для сохранения трансляции белка кодирующих последовательностей в формате FASTA, заданного как строковый или символьный вектор.
Пример:
'FastaProteinFile',"translated.FASTA"
Типы данных: char | string
'FirstExonOnly' - Флажок для разбора дополнительных атрибутов только из первого экзонаfalse (по умолчанию) | trueФлажок для анализа дополнительных атрибутов только из первого экзона, указанного как true или false.
Пример: 'FirstExonOnly',true
Типы данных: logical
'ForceExons' - Флажок для перечисления функций GFF нижнего уровня в качестве функций экзоновfalse (по умолчанию) | trueФлажок для перечисления элементов GFF самого низкого уровня в качестве элементов экзонов в выходном файле, указанный как true или false.
Пример:
'ForceExons',true
Типы данных: logical
'FullyContained' - Флаг для отбрасывания стенограмм, не полностью содержащихсяfalse (по умолчанию) | trueФлаг для отбрасывания транскриптов, не содержащихся полностью в диапазоне, указанный как true или false. Укажите диапазон с помощью CoordinateRange вариант.
Пример:
'FullyContained',true
Типы данных: logical
'GTFOutput' - Флаг для вывода файлов транскриптов формата GTFfalse (по умолчанию) | trueФлаг для вывода файлов транскриптов формата GTF, указанный как true или false.
Пример:
'GTFOutput',true
Типы данных: logical
'IncludeAll' - Флажок для применения всех доступных опцийfalse (по умолчанию) | trueИсходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.
Примечание
Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.
Пример: 'IncludeAll',true
Типы данных: logical
'MaxIntronLength' - Максимальная длина интрона для включения транскрипта в выходные данныеInf (по умолчанию) | положительное целое числоМаксимальная длина интрона для транскрипта, включаемого в выходной файл, заданная как положительное целое число. Inf, значение по умолчанию, не устанавливает ограничения на длину интрона.
Пример:
'MaxIntronLength',500
Типы данных: double
'Merge' - Флаг для слияния транскриптов с локусамиfalse (по умолчанию) | trueФлаг для объединения транскриптов в локусы путем свертывания транскриптов с идентичными интронами, указанный как true или false.
Пример:
'Merge',true
Типы данных: logical
'MergeCloseExons' - Флаг для объединения экзонов в один экзонfalse (по умолчанию) | trueФлажок для объединения экзонов в один экзон, если он разделен менее чем 4 основными парами интронов, указанными как true или false.
Пример:
'MergeCloseExons',true
Типы данных: logical
'MergeInfoFile' - Имя файла для сохранения информации о дубликатах при объединенииИмя файла для сохранения информации о дубликатах при объединении, указанное как строковый или символьный вектор. Это свойство применяется только при установке Merge кому true.
Пример:
'MergeInfoFile',"duplicates.txt"
Типы данных: char | string
'PreserveAttributes' - Флаг для сохранения всех атрибутов в выходных данныхfalse (по умолчанию) | trueФлаг для сохранения всех атрибутов в выходном файле, указанный как true или false.
Пример:
'PreserveAttributes',true
Типы данных: logical
'Pseudo' - Флаг для фильтрации записей, содержащих «псевдо»true (по умолчанию) | falseФлаг для фильтрации записей, содержащих слово «псевдо», указанное как true или false.
Пример:
'Pseudo',false
Типы данных: logical
'ReplacementTable' - Имя файла, содержащего таблицу заменыИмя файла, содержащего таблицу замены, заданную как строковый или символьный вектор. Таблица должна иметь два столбца, где первый столбец содержит исходные идентификаторы транскрипта, а второй столбец содержит новые идентификаторы транскрипта. Ниже приводится пример таблицы.
origTranscript1 | newTranscript1 |
origTranscript2 | newTranscript2 |
origTranscript3 | newTranscript3 |
Если предоставляется таблица замены, функция заменяет идентификаторы транскриптов, найденные в первом столбце, новыми идентификаторами транскриптов из второго столбца и отфильтровывает те транскрипты, которые не найдены.
Пример:
'ReplacementTable',"replaceTbl.txt"
Типы данных: char | string
'SequenceFile' - Название файла формата FASTA, содержащего геномные последовательностиИмя файла формата FASTA, содержащего геномные последовательности для всех входных сопоставлений, указанных как строковый или символьный вектор.
Пример:
'SequenceFile',"seqs.fasta"
Типы данных: char | string
'SequenceInfo' - Имя файла с разделителями табуляции с дополнительной информацией о последовательности вводаИмя файла, разделенного табуляцией, с дополнительной информацией о каждой последовательности ввода, указанной как строковый или символьный вектор. Этот файл должен содержать три столбца: столбец имени последовательности, столбец длины последовательности и столбец описания последовательности. Если AppendDescription является trueописание последовательности включается в качестве атрибута в выходной файл GFF.
Пример:
'SequenceInfo',"seqinfo.txt"
Типы данных: char | string
'UrlDecode' - Флаг для декодирования символов в именах атрибутов в кодировке URLfalse (по умолчанию) | trueФлаг для декодирования символов в кодировке URL в именах атрибутов, указанный как true или false. Например, «transcript% 20description» декодируется в «transcript description».
Пример:
'UrlDecode',true
Типы данных: logical
'UseEnsemblConversion' - Флаг для использования GTF-to-GFF3 метода преобразования из Ensemblfalse (по умолчанию) | trueФлаг для использования метода преобразования GTF-to-GFF3 из Ensembl, указанного как true или false.
Пример:
'UseEnsemblConversion',true
Типы данных: logical
'UseNonTranscript' - Флаг для включения нетранскриптовых записей GFF в выходной файлfalse (по умолчанию) | trueФлаг для включения нетранскриптовых GFF-записей в выходной файл, указанный как true или false.
Пример:
'UseNonTranscript',true
Типы данных: logical
'UseTrackName' - Флаг для использования имени дорожки во втором столбце выходной строки GFFfalse (по умолчанию) | trueФлаг для использования имени дорожки во втором столбце выходной строки GFF, указанный как true или false.
Пример:
'UseTrackName',true
Типы данных: logical
'WriteCoordinates' - Флаг для записи координат экзонов, спроецированных на сращиваемую последовательностьfalse (по умолчанию) | trueФлаг для записи координат экзона, спроецированных на сращиваемую последовательность, указанный как true или false. Это свойство применяется только в том случае, если FastaExonsFile или FastaCDSFile указывается.
Пример:
'WriteCoordinates',true
Типы данных: logical
[1] Трапнелл, Коул, Брайан А Уильямс, Гео Пертеа, Али Мортазави, Гордон Кван, Марике Дж. ван Барен, Стивен Л Зальцберг, Барбара Дж. Уолд и Лиор Пэхтер. «Сборка и количественная оценка транскриптов с помощью РНК-Seq выявляет необъявленные транскрипты и переключение изоформ во время дифференцировки клеток». Биотехнология природы 28, № 5 (май 2010 года): 511-15.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.