exponenta event banner

getgenbank

Получение информации о последовательности из базы данных GenBank

Синтаксис

Data = getgenbank(AccessionNumber)
getgenbank(AccessionNumber)
Data = getgenbank(..., 'PartialSeq', PartialSeqValue, ...)
Data = getgenbank(..., 'ToFile', ToFileValue, ...)
Data = getgenbank(..., 'FileFormat', FileFormatValue, ...)
Data = getgenbank(..., 'SequenceOnly', SequenceOnlyValue, ...)
Data = getgenbank(..., 'TimeOut', TimeOutValue, ...)

Аргументы

AccessionNumber Символьный вектор или строка, указывающая уникальный буквенно-цифровой идентификатор для записи последовательности.
PartialSeqValueДвухэлементный массив целых чисел, содержащий начальную и конечную позиции подпоследовательности [StartBP, EndBP] указывает подпоследовательность для извлечения. StartBP является целым числом от 1 до EndBP. EndBP является целым числом между StartBP и длину последовательности.
ToFileValue Символьный вектор или строка, указывающая либо имя файла, либо путь и имя файла для сохранения данных GenBank ®. Если указано только имя файла, файл сохраняется в текущей папке MATLAB ®.
FileFormatValueСимвольный вектор или строка, задающая формат информации о последовательности. Возможны следующие варианты:
  • 'GenBank' - По умолчанию, когда SequenceOnlyValue является false.

  • 'FASTA' - По умолчанию, когда SequenceOnlyValue является true.

Когда 'FASTA', то Data содержит только два поля, Header и Sequence.

SequenceOnlyValue

Управляет возвращением только последовательности в виде символьного массива. Варианты: true или false (по умолчанию).

TimeOutValueВремя ожидания подключения в секундах, указанное как положительный скаляр. Значение по умолчанию - 5. Подробнее см. здесь.

Описание

getgenbank извлекает нуклеотидную информацию из базы данных GenBank. Эта база данных ведется Национальным центром биотехнологической информации (НЦБИ). Для получения дополнительной информации о базе данных GenBank см.

Data = getgenbank(AccessionNumber) ищет номер присоединения в базе данных GenBank и возвращает Dataструктура MATLAB, содержащая информацию для последовательности.

Совет

Если при получении информации в формате GenBank возникает ошибка, попробуйте выполнить запрос повторно. Ошибки могут возникать из-за проблем подключения к Интернету, которые не связаны с записью GenBank.

getgenbank(AccessionNumber) отображает информацию в окне команд MATLAB без возврата данных переменной. Отображаемая информация представляет собой только гиперссылки на URL-адреса, используемые для поиска и извлечения данных.

getgenbank(..., 'PropertyName', PropertyValue, ...) требования getgenbank с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

Data = getgenbank(..., 'PartialSeq', PartialSeqValue, ...) возвращает указанную подпоследовательность в Sequence поле структуры MATLAB. PartialSeqValue - двухэлементный массив целых чисел, содержащий начальную и конечную позиции подпоследовательности; [StartBP, EndBP]. StartBP является целым числом от 1 до EndBP. EndBP является целым числом между StartBP и длину последовательности.

Data = getgenbank(..., 'ToFile', ToFileValue, ...) сохраняет данные, возвращенные из базы данных GenBank, в файл. ToFileValue - символьный вектор или строка, указывающая либо имя файла, либо путь и имя файла для сохранения данных GenBank. Если указано только имя файла, файл сохраняется в текущей папке MATLAB. Функция не добавляет данные к существующему файлу. Вместо этого содержимое существующего файла перезаписывается без предупреждения.

Совет

Вы можете прочитать файл в формате GenBank обратно в MATLAB с помощью genbankread функция.

Data = getgenbank(..., 'FileFormat', FileFormatValue, ...) возвращает последовательность в указанном формате. Варианты: 'GenBank' или 'FASTA'. Когда 'FASTA', то Data содержит только два поля, Header и Sequence. 'GenBank' является значением по умолчанию, когда SequenceOnlyValue является false. 'FASTA' является значением по умолчанию, когда SequenceOnlyValue является true.

Data = getgenbank(..., 'SequenceOnly', SequenceOnlyValue, ...) возвращает только последовательность в Data, символьный массив. Варианты: true или false (по умолчанию).

Примечание

Если вы используете 'SequenceOnly' и 'ToFile' свойства вместе, вывод всегда является файлом в формате FASTA.

Data = getgenbank(..., 'TimeOut', TimeOutValue, ...) устанавливает время ожидания подключения (в секундах) для получения данных из базы данных GenBank.

Примеры

Пример 21. Извлечение последовательности РНК

Чтобы извлечь последовательность из хромосомы 19, которая кодирует рецептор инсулина человека, и сохранить ее в структуре, S, в окне команд MATLAB введите:

S = getgenbank('M10051')

S = 

                LocusName: 'HUMINSR'
      LocusSequenceLength: '4723'
     LocusNumberofStrands: ''
            LocusTopology: 'linear'
        LocusMoleculeType: 'mRNA'
     LocusGenBankDivision: 'PRI'
    LocusModificationDate: '06-JAN-1995'
               Definition: 'Human insulin receptor mRNA, complete cds.'
                Accession: 'M10051'
                  Version: 'M10051.1'
                       GI: '186439'
                  Project: []
                   DBLink: []
                 Keywords: 'insulin receptor; tyrosine kinase.'
                  Segment: []
                   Source: 'Homo sapiens (human)'
           SourceOrganism: [4x65 char]
                Reference: {[1x1 struct]}
                  Comment: [14x67 char]
                 Features: [51x74 char]
                      CDS: [1x1 struct]
                 Sequence: [1x4723 char]
                SearchURL: [1x67 char]
              RetrieveURL: [1x101 char]                            
Пример 22. Получение частичной последовательности РНК

Глядя на Features В поле возвращенной структуры можно определить, что кодирующей последовательностью являются позиции 139- 4287. Чтобы извлечь только кодирующую последовательность из хромосомы 19, которая кодирует рецептор инсулина человека, и сохранить его в структуре, CDS, в окне команд MATLAB введите:

CDS = getgenbank('M10051','PARTIALSEQ',[139,4287]);

Вопросы совместимости

развернуть все

В R2019a изменилось поведение

Представлен до R2006a