getgenbank

Получение информации о последовательности из базы данных GenBank

Синтаксис

Data = getgenbank(AccessionNumber)
getgenbank(AccessionNumber)
Data = getgenbank(..., 'PartialSeq', PartialSeqValue, ...)
Data = getgenbank(..., 'ToFile', ToFileValue, ...)
Data = getgenbank(..., 'FileFormat', FileFormatValue, ...)
Data = getgenbank(..., 'SequenceOnly', SequenceOnlyValue, ...)
Data = getgenbank(..., 'TimeOut', TimeOutValue, ...)

Аргументы

AccessionNumber Вектор символов или строка, задающая уникальный алфавитно-цифровой идентификатор для записи последовательности.
PartialSeqValueДвухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [StartBP, EndBP] который задает подпоследовательность для извлечения. StartBP - целое число от 1 до EndBP. EndBP - целое число между StartBP и длину последовательности.
ToFileValue Вектор символов или строка, задающая имя файла или путь и имя файла для сохранения GenBank® данные. Если вы задаете только имя файла, файл сохраняется в MATLAB® Текущая папка.
FileFormatValueВектор символов или строка, задающая формат для информации о последовательности. Варианты:
  • 'GenBank' - По умолчанию, когда SequenceOnlyValue является false.

  • 'FASTA' - По умолчанию, когда SequenceOnlyValue является true.

Когда 'FASTA', затем Data содержит только два поля, Header и Sequence.

SequenceOnlyValue

Управляет возвратом только последовательности в виде символьного массива. Варианты true или false (по умолчанию).

TimeOutValueТайм-аут подключения в секундах, задается как положительная скалярная величина. Значение по умолчанию является 5. Для получения дополнительной информации смотрите здесь.

Описание

getgenbank извлекает нуклеотидную информацию из базы данных GenBank. Эта база данных ведется Национальным центром биотехнологической информации (NCBI). Для получения дополнительной информации о базе данных GenBank см.

Data = getgenbank(AccessionNumber) ищет номер доступа в базе данных GenBank и возвращает Data, структуру MATLAB, содержащую информацию для последовательности.

Совет

Если при получении информации в формате GenBank произошла ошибка, попробуйте повторить запрос. Ошибки могут возникнуть из-за проблем с подключением к Интернету, которые не связаны с записью GenBank.

getgenbank(AccessionNumber) отображает информацию в Командном Окне MATLAB, не возвращая данные в переменную. Отображаемая информация является только гиперссылками на URL-адреса, используемые для поиска и извлечения данных.

getgenbank (..., 'PropertyName', PropertyValue, ...) вызывает getgenbank с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

Data = getgenbank(..., 'PartialSeq', PartialSeqValue, ...) возвращает указанную подпоследовательность в Sequence поле структуры MATLAB. PartialSeqValue - двухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [StartBP, EndBP]. StartBP - целое число от 1 до EndBP. EndBP - целое число между StartBP и длину последовательности.

Data = getgenbank(..., 'ToFile', ToFileValue, ...) сохраняет данные, возвращенные из базы данных GenBank, в файл. ToFileValue - вектор символов или строка, задающая имя файла или путь и имя файла для сохранения данных GenBank. Если вы задаете только имя файла, файл сохраняется в текущей папке MATLAB. Функция не добавляет данные к существующему файлу. Вместо этого он перезаписывает содержимое существующего файла без предупреждения.

Совет

Вы можете считать файл в формате GenBank обратно в MATLAB с помощью genbankread функция.

Data = getgenbank(..., 'FileFormat', FileFormatValue, ...) возвращает последовательность в заданном формате. Варианты 'GenBank' или 'FASTA'. Когда 'FASTA', затем Data содержит только два поля, Header и Sequence. 'GenBank' является значением по умолчанию, когда SequenceOnlyValue является false. 'FASTA' является значением по умолчанию, когда SequenceOnlyValue является true.

Data = getgenbank(..., 'SequenceOnly', SequenceOnlyValue, ...) возвращает только последовательность в Data, символьный массив. Варианты true или false (по умолчанию).

Примечание

Если вы используете 'SequenceOnly' и 'ToFile' свойства вместе, выходы всегда являются файлом в формате FASTA.

Data = getgenbank(..., 'TimeOut', TimeOutValue, ...) устанавливает тайм-аут подключения (в секундах) для извлечения данных из базы данных GenBank.

Примеры

Пример 21. Получение РНК-последовательности

Чтобы извлечь последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и сохраняет его в структуре, S, в Командном Окне MATLAB введите:

S = getgenbank('M10051')

S = 

                LocusName: 'HUMINSR'
      LocusSequenceLength: '4723'
     LocusNumberofStrands: ''
            LocusTopology: 'linear'
        LocusMoleculeType: 'mRNA'
     LocusGenBankDivision: 'PRI'
    LocusModificationDate: '06-JAN-1995'
               Definition: 'Human insulin receptor mRNA, complete cds.'
                Accession: 'M10051'
                  Version: 'M10051.1'
                       GI: '186439'
                  Project: []
                   DBLink: []
                 Keywords: 'insulin receptor; tyrosine kinase.'
                  Segment: []
                   Source: 'Homo sapiens (human)'
           SourceOrganism: [4x65 char]
                Reference: {[1x1 struct]}
                  Comment: [14x67 char]
                 Features: [51x74 char]
                      CDS: [1x1 struct]
                 Sequence: [1x4723 char]
                SearchURL: [1x67 char]
              RetrieveURL: [1x101 char]                            
Пример 22. Получение частичной РНК-последовательности

Посмотрев на Features поле возвращенной структуры можно определить, что последовательность кодирования является позициями, 139 через 4287. Чтобы извлечь только кодирующую последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и хранит ее в структуре, CDS, в Командном Окне MATLAB введите:

CDS = getgenbank('M10051','PARTIALSEQ',[139,4287]);

Вопросы совместимости

расширить все

Поведение изменено в R2019a

Представлено до R2006a