featureparse

Проанализируйте функции от GenBank, GenPept или данных EMBL

Синтаксис

FeatStruct = featureparse(Features) FeatStruct = featureparse(Features, ...'Feature', FeatureValue, ...) FeatStruct = featureparse(Features, ...'Sequence', SequenceValue, ...)

Входные параметры

`Features`	Любое следующее: Структура MATLAB^® с полями, соответствующими GenBank^®, GenPept или данным EMBL, такими как возвращенные `genbankread`, `genpeptread`, `emblread`, `getgenbank`, `getgenpept`, или `getembl` Вектор символов или символьный массив, содержащий текст от раздела Features GenBank, GenPept или EMBL-отформатированного файла
`FeatureValue`	Имя функции содержится в `Features`. Когда задано, `featureparse` возвращает только подструктуру, которая соответствует этой функции. Если существует несколько функций с тем же `FeatureValue`, затем `FeatStruct` массив структур.
`SequenceValue`	Свойство управлять экстракцией, если это возможно, последовательностей, соответствующих к каждой функции, присоединяясь и дополняя части исходной последовательности и храня их в `Sequence` поле возвращенной структуры, `FeatStruct`. При извлечении последовательности из неполной функции CDS, `featureparse` использует `codon_start` спецификатор, чтобы настроить систему координат последовательности. Выбором является `true` или `false` (значение по умолчанию).

Выходные аргументы

FeatStruct

Структура output, содержащая поле для каждой функции базы данных. Каждое имя поля в FeatStruct совпадает с соответствующим именем функции в GenBank, GenPept или базе данных EMBL, за исключениями, перечисленными в таблице ниже. Поля в FeatStruct содержите подструктуры со спецификаторами функции как поля. В GenBank, GenPept и базах данных EMBL, для каждой функции, единственный обязательный спецификатор является своим местоположением, который featureparse переводит в поле Location. Когда возможно, featureparse также переводит это местоположение в числовые индексы, создавая Indices поле .

Примечание

Если вы используете Indices поле, чтобы извлечь информацию о последовательности, вы, возможно, должны дополнить последовательности.

Описание

FeatStruct = featureparse(Features) анализирует функции от Features, который содержит GenBank, GenPept или функции EMBL. Features может быть a:

Вектор символов или строка, содержащая GenBank, GenPept или функции EMBL
Символьный массив MATLAB включая текстовое описание GenBank, GenPept или функции EMBL
Структура MATLAB с полевым соответствием GenBank, GenPept или данным EMBL, таким как возвращенные genbankread, genpeptread, emblread, getgenbank, getgenpept, или getembl

FeatStruct структура output, содержащая поле для каждой функции базы данных. Каждое имя поля в FeatStruct совпадает с соответствующим именем функции в GenBank, GenPept или базе данных EMBL, за следующими исключениями.

Покажите имя в GenBank, GenPept или базе данных EMBL	Имя поля в структуре MATLAB
`-10_signal`	`minus_10_signal`
`-35_signal`	`minus_35_signal`
`3'UTR`	`three_prime_UTR`
`3'clip`	`three_prime_clip`
`5'UTR`	`five_prime_UTR`
`5'clip`	`five_prime_clip`
`D-loop`	`D_loop`

Поля в FeatStruct содержите подструктуры со спецификаторами функции как поля. В GenBank, GenPept и базах данных EMBL, для каждой функции, единственный обязательный спецификатор является своим местоположением, который featureparse переводит в поле Location. Когда возможно, featureparse также переводит это местоположение в числовые индексы, создавая Indices поле .

Примечание

FeatStruct = featureparse (FeaturesPropertyName ', PropertyValue, ...) вызовы featureparse с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

FeatStruct = featureparse(Features, ...'Feature', FeatureValue, ...) возвращает только подструктуру, которая соответствует FeatureValue, имя функции содержится в Features. Если существует несколько функций с тем же FeatureValue, затем FeatStruct массив структур.

FeatStruct = featureparse(Features, ...'Sequence', SequenceValue, ...) управляет экстракцией, если это возможно, последовательностей, соответствующих к каждой функции, присоединяясь и дополняя части исходной последовательности и храня их в поле Sequence. При извлечении последовательности из неполной функции CDS, featureparse использует codon_start спецификатор, чтобы настроить систему координат последовательности. Выбором является true или false (значение по умолчанию).

Примеры

Пример 11. Получение всех функций из файла GenBank

Следующий пример получает все функции, сохраненные в файле GenBank nm175642.txt:

gbkStruct = genbankread('nm175642.txt');
features = featureparse(gbkStruct)

features = 

    source: [1x1 struct]
      gene: [1x1 struct]
       CDS: [1x1 struct]

Пример 12. Получение подмножества функций от записи GenBank

Следующий пример получает только последовательности кодирования (CDS) функция Синорхэбдити elegans космидная запись (инвентарный номер Z92777) от базы данных GenBank:

worm = getgenbank('Z92777');
CDS = featureparse(worm,'feature','cds')

CDS = 

1x12 struct array with fields:
    Location
    Indices
    locus_tag
    standard_name
    note
    codon_start
    product
    protein_id
    db_xref
    translation

Пример 13. Извлечение последовательностей для каждой функции

Получите две последовательности нуклеотида из базы данных GenBank для нейраминидазы (NA) белок двух деформаций Гриппа вирус (H5N1).
```
 hk01 = getgenbank('AF509094');
 vt04 = getgenbank('DQ094287');
```
Извлеките последовательность области кодирования для нейраминидазы (NA) белок от двух последовательностей нуклеотида. Последовательности областей кодирования хранятся в Sequence поля возвращенных структур, hk01_cds и vt04_cds.
```
hk01_cds = featureparse(hk01,'feature','CDS','Sequence',true);
vt04_cds = featureparse(vt04,'feature','CDS','Sequence',true);
```
Если вы извлекли последовательности нуклеотида, можно использовать nt2aa и nwalign функции, чтобы выровнять последовательности аминокислот, преобразованные от последовательностей нуклеотида.
```
 [sc,al]=nwalign(nt2aa(hk01_cds),nt2aa(vt04_cds),'extendgap',1);
```
Затем можно использовать seqinsertgaps функционируйте, чтобы скопировать разрывы от выровненных последовательностей аминокислот до их соответствующих последовательностей нуклеотида, таким образом выравнивание кодона их.
```
 hk01_aligned = seqinsertgaps(hk01_cds,al(1,:))
 vt04_aligned = seqinsertgaps(vt04_cds,al(3,:))
```
Если у вас есть код, выровнял эти две последовательности, можно использовать их в качестве входа к другим функциям такой как dnds, который вычисляет синонимичные и несинонимичные уровни замен выровненных кодоном последовательностей нуклеотида. Установкой Verbose к true, можно также отобразить кодоны, рассмотренные в расчетах и их переводах аминокислоты.
```
[dn,ds] = dnds(hk01_aligned,vt04_aligned,'verbose',true)
```

Представленный в R2006b

Документация

featureparse

Синтаксис

Входные параметры

Выходные аргументы

Описание

Примеры

Смотрите также

Документация Bioinformatics Toolbox

Поддержка