featuresparse

Проанализируйте функции от GenBank, GenPept или данных EMBL

featuresparse был переименован. Используйте featureparse вместо этого.

Синтаксис

FeatStruct = featuresparse(Features)
FeatStruct = featuresparse(Features, ...'Feature', FeatureValue, ...)
FeatStruct = featuresparse(Features, ...'Sequence', SequenceValue, ...)

Входные параметры

FeaturesЛюбое следующее:
  • Вектор символов, содержащий GenBank®, GenPept или функции EMBL

  • Символьный массив MATLAB® включая текст от раздела Features GenBank, GenPept или файла EMBL.

  • Структура MATLAB с полевым соответствием GenBank, GenPept или данным EMBL, таким как возвращенные genbankread, genpeptread, emblread, getgenbank, getgenpept или getembl

FeatureValueИмя функции содержится в Features. Когда задано, featuresparse возвращает только подструктуру, которая соответствует этой функции. Если существует несколько функций с тем же FeatureValue, то FeatStruct является массивом структур.
SequenceValueСвойство управлять экстракцией, если это возможно, последовательностей, соответствующих к каждой функции, присоединяясь и дополняя части исходной последовательности и храня их в поле Sequence возвращенной структуры, FeatStruct. При извлечении последовательности от неполной функции CDS featuresparse использует спецификатор codon_start, чтобы настроить кадр последовательности. Выбором является true или false (значение по умолчанию).

Выходные аргументы

FeatStructВыведите структуру, содержащую поле для каждой функции базы данных. Каждое имя поля в FeatStruct совпадает с соответствующим именем функции в GenBank, GenPept или базе данных EMBL, за исключениями, перечисленными в таблице ниже. Поля в FeatStruct содержат подструктуры со спецификаторами функции как поля. В GenBank, GenPept и базах данных EMBL, для каждой функции, единственный обязательный спецификатор является своим местоположением, которое featuresparse переводит в поле Location. Когда возможно, featuresparse также переводит это местоположение в числовые индексы, создавая поле Indices.

Примечание

Если вы используете поле Indices, чтобы извлечь информацию о последовательности, вы, возможно, должны дополнить последовательности.

Описание

FeatStruct = featuresparse(Features) анализирует функции от Features, который содержит GenBank, GenPept или функции EMBL. Features может быть a:

  • Вектор символов, содержащий GenBank, GenPept или функции EMBL

  • Символьный массив MATLAB включая текстовое описание GenBank, GenPept или функции EMBL

  • Структура MATLAB с полевым соответствием GenBank, GenPept или данным EMBL, таким как возвращенные genbankread, genpeptread, emblread, getgenbank, getgenpept или getembl

FeatStruct является выходной структурой, содержащей поле для каждой функции базы данных. Каждое имя поля в FeatStruct совпадает с соответствующим именем функции в GenBank, GenPept или базе данных EMBL, за следующими исключениями.

Покажите имя в GenBank, GenPept или базе данных EMBLИмя поля в структуре MATLAB
-10_signalminus_10_signal
-35_signalminus_35_signal
3'UTRthree_prime_UTR
3'clip three_prime_clip
5'UTR five_prime_UTR
5'clip five_prime_clip
D-loop D_loop

Поля в FeatStruct содержат подструктуры со спецификаторами функции как поля. В GenBank, GenPept и базах данных EMBL, для каждой функции, единственный обязательный спецификатор является своим местоположением, которое featuresparse переводит в поле Location. Когда возможно, featuresparse также переводит это местоположение в числовые индексы, создавая поле Indices.

Примечание

Если вы используете поле Indices, чтобы извлечь информацию о последовательности, вы, возможно, должны дополнить последовательности.

FeatStruct = featuresparse (Features, ...'PropertyName', PropertyValue, ...) вызывает featuresparse с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

FeatStruct = featuresparse(Features, ...'Feature', FeatureValue, ...) возвращает только подструктуру, которая соответствует FeatureValue, имени функции, содержавшейся в Features. Если существует несколько функций с тем же FeatureValue, то FeatStruct является массивом структур.

FeatStruct = featuresparse(Features, ...'Sequence', SequenceValue, ...) управляет экстракцией, если это возможно, последовательностей, соответствующих к каждой функции, присоединяясь и дополняя части исходной последовательности и храня их в поле Sequence. При извлечении последовательности от неполной функции CDS featuresparse использует спецификатор codon_start, чтобы настроить кадр последовательности. Выбором является true или false (значение по умолчанию).

Примеры

Пример 22. Получение всех функций из файла GenBank

Следующий пример получает все функции, сохраненные в файле GenBank nm175642.txt:

gbkStruct = genbankread('nm175642.txt');
features = featuresparse(gbkStruct)

features = 

    source: [1x1 struct]
      gene: [1x1 struct]
       CDS: [1x1 struct]

Пример 23. Получение подмножества функций от записи GenBank

Следующий пример получает только последовательности кодирования (CDS) функция Синорхэбдити elegans космидная запись (инвентарный номер Z92777) от базы данных GenBank:

worm = getgenbank('Z92777');
CDS = featuresparse(worm,'feature','cds')

CDS = 

1x12 struct array with fields:
    Location
    Indices
    locus_tag
    standard_name
    note
    codon_start
    product
    protein_id
    db_xref
    translation

Пример 24. Извлечение последовательностей для каждой функции
  1. Получите две последовательности нуклеотида из базы данных GenBank для нейраминидазы (NA) белок двух деформаций Гриппа вирус (H5N1).

     hk01 = getgenbank('AF509094');
     vt04 = getgenbank('DQ094287');
    
  2. Извлеките последовательность области кодирования для нейраминидазы (NA) белок от двух последовательностей нуклеотида. Последовательности областей кодирования хранятся в полях Sequence возвращенных структур, hk01_cds и vt04_cds.

    hk01_cds = featuresparse(hk01,'feature','CDS','Sequence',true);
    vt04_cds = featuresparse(vt04,'feature','CDS','Sequence',true);
    
  3. Если вы извлекли последовательности нуклеотида, можно использовать nt2aa и функции nwalign, чтобы выровнять последовательности аминокислот, преобразованные от последовательностей нуклеотида.

     [sc,al]=nwalign(nt2aa(hk01_cds),nt2aa(vt04_cds),'extendgap',1);
    
  4. Затем можно использовать функцию seqinsertgaps, чтобы скопировать разрывы от выровненных последовательностей аминокислот до их соответствующих последовательностей нуклеотида, таким образом выравнивание кодона их.

     hk01_aligned = seqinsertgaps(hk01_cds,al(1,:))
     vt04_aligned = seqinsertgaps(vt04_cds,al(3,:))
    
  5. Если у вас есть код, выровнял эти две последовательности, можно использовать их в качестве входа к другим функциям, таким как dnds, который вычисляет синонимичные и несинонимичные уровни замен выровненных кодоном последовательностей нуклеотида. Установкой Verbose к true можно также отобразить кодоны, рассмотренные в вычислениях и их переводах аминокислоты.

    [dn,ds] = dnds(hk01_aligned,vt04_aligned,'verbose',true)
    

Смотрите также

| | | |

Представленный в R2006b