Получение информации о последовательности из базы данных GenBank
Data = getgenbank(AccessionNumber)
getgenbank(AccessionNumber)
Data = getgenbank(...,
'PartialSeq', PartialSeqValue, ...)
Data = getgenbank(...,
'ToFile', ToFileValue, ...)
Data = getgenbank(...,
'FileFormat', FileFormatValue, ...)
Data = getgenbank(...,
'SequenceOnly', SequenceOnlyValue, ...)
Data = getgenbank(...,
'TimeOut', TimeOutValue, ...)
AccessionNumber | Вектор символов или строка, задающая уникальный алфавитно-цифровой идентификатор для записи последовательности. |
PartialSeqValue | Двухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [ который задает подпоследовательность для извлечения. StartBP - целое число от 1 до EndBP. EndBP - целое число между StartBP и длину последовательности. |
ToFileValue | Вектор символов или строка, задающая имя файла или путь и имя файла для сохранения GenBank® данные. Если вы задаете только имя файла, файл сохраняется в MATLAB® Текущая папка. |
FileFormatValue | Вектор символов или строка, задающая формат для информации о последовательности. Варианты:
Когда |
SequenceOnlyValue | Управляет возвратом только последовательности в виде символьного массива. Варианты |
TimeOutValue | Тайм-аут подключения в секундах, задается как положительная скалярная величина. Значение по умолчанию является 5. Для получения дополнительной информации смотрите здесь. |
getgenbank извлекает нуклеотидную информацию из базы данных GenBank. Эта база данных ведется Национальным центром биотехнологической информации (NCBI). Для получения дополнительной информации о базе данных GenBank см.
ищет номер доступа в базе данных GenBank и возвращает Data = getgenbank(AccessionNumber)Data, структуру MATLAB, содержащую информацию для последовательности.
Совет
Если при получении информации в формате GenBank произошла ошибка, попробуйте повторить запрос. Ошибки могут возникнуть из-за проблем с подключением к Интернету, которые не связаны с записью GenBank.
getgenbank( отображает информацию в Командном Окне MATLAB, не возвращая данные в переменную. Отображаемая информация является только гиперссылками на URL-адреса, используемые для поиска и извлечения данных.AccessionNumber)
getgenbank (..., вызывает 'PropertyName', PropertyValue, ...)getgenbank с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:
возвращает указанную подпоследовательность в Data = getgenbank(...,
'PartialSeq', PartialSeqValue, ...)Sequence поле структуры MATLAB. PartialSeqValue - двухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [. StartBP, EndBP]StartBP - целое число от 1 до EndBP. EndBP - целое число между StartBP и длину последовательности.
сохраняет данные, возвращенные из базы данных GenBank, в файл. Data = getgenbank(...,
'ToFile', ToFileValue, ...)ToFileValue - вектор символов или строка, задающая имя файла или путь и имя файла для сохранения данных GenBank. Если вы задаете только имя файла, файл сохраняется в текущей папке MATLAB. Функция не добавляет данные к существующему файлу. Вместо этого он перезаписывает содержимое существующего файла без предупреждения.
Совет
Вы можете считать файл в формате GenBank обратно в MATLAB с помощью genbankread функция.
возвращает последовательность в заданном формате. Варианты Data = getgenbank(...,
'FileFormat', FileFormatValue, ...)'GenBank' или 'FASTA'. Когда 'FASTA', затем Data содержит только два поля, Header и Sequence. 'GenBank' является значением по умолчанию, когда SequenceOnlyValue является false. 'FASTA' является значением по умолчанию, когда SequenceOnlyValue является true.
возвращает только последовательность в Data = getgenbank(...,
'SequenceOnly', SequenceOnlyValue, ...)Data, символьный массив. Варианты true или false (по умолчанию).
Примечание
Если вы используете 'SequenceOnly' и 'ToFile' свойства вместе, выходы всегда являются файлом в формате FASTA.
устанавливает тайм-аут подключения (в секундах) для извлечения данных из базы данных GenBank. Data = getgenbank(...,
'TimeOut', TimeOutValue, ...)
Чтобы извлечь последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и сохраняет его в структуре, S, в Командном Окне MATLAB введите:
S = getgenbank('M10051')
S =
LocusName: 'HUMINSR'
LocusSequenceLength: '4723'
LocusNumberofStrands: ''
LocusTopology: 'linear'
LocusMoleculeType: 'mRNA'
LocusGenBankDivision: 'PRI'
LocusModificationDate: '06-JAN-1995'
Definition: 'Human insulin receptor mRNA, complete cds.'
Accession: 'M10051'
Version: 'M10051.1'
GI: '186439'
Project: []
DBLink: []
Keywords: 'insulin receptor; tyrosine kinase.'
Segment: []
Source: 'Homo sapiens (human)'
SourceOrganism: [4x65 char]
Reference: {[1x1 struct]}
Comment: [14x67 char]
Features: [51x74 char]
CDS: [1x1 struct]
Sequence: [1x4723 char]
SearchURL: [1x67 char]
RetrieveURL: [1x101 char] Посмотрев на Features поле возвращенной структуры можно определить, что последовательность кодирования является позициями, 139 через 4287. Чтобы извлечь только кодирующую последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и хранит ее в структуре, CDS, в Командном Окне MATLAB введите:
CDS = getgenbank('M10051','PARTIALSEQ',[139,4287]);genbankread | getembl | getgenpept | getpdb | seqviewer