Получение информации о последовательности из базы данных GenBank
Data
= getgenbank(AccessionNumber
)
getgenbank(AccessionNumber
)
Data
= getgenbank(...,
'PartialSeq', PartialSeqValue
, ...)
Data
= getgenbank(...,
'ToFile', ToFileValue
, ...)
Data
= getgenbank(...,
'FileFormat', FileFormatValue
, ...)
Data
= getgenbank(...,
'SequenceOnly', SequenceOnlyValue
, ...)
Data
= getgenbank(...,
'TimeOut', TimeOutValue
, ...)
AccessionNumber | Вектор символов или строка, задающая уникальный алфавитно-цифровой идентификатор для записи последовательности. |
PartialSeqValue | Двухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [ который задает подпоследовательность для извлечения. StartBP - целое число от 1 до EndBP . EndBP - целое число между StartBP и длину последовательности. |
ToFileValue | Вектор символов или строка, задающая имя файла или путь и имя файла для сохранения GenBank® данные. Если вы задаете только имя файла, файл сохраняется в MATLAB® Текущая папка. |
FileFormatValue | Вектор символов или строка, задающая формат для информации о последовательности. Варианты:
Когда |
SequenceOnlyValue | Управляет возвратом только последовательности в виде символьного массива. Варианты |
TimeOutValue | Тайм-аут подключения в секундах, задается как положительная скалярная величина. Значение по умолчанию является 5. Для получения дополнительной информации смотрите здесь. |
getgenbank
извлекает нуклеотидную информацию из базы данных GenBank. Эта база данных ведется Национальным центром биотехнологической информации (NCBI). Для получения дополнительной информации о базе данных GenBank см.
ищет номер доступа в базе данных GenBank и возвращает Data
= getgenbank(AccessionNumber
)Data
, структуру MATLAB, содержащую информацию для последовательности.
Совет
Если при получении информации в формате GenBank произошла ошибка, попробуйте повторить запрос. Ошибки могут возникнуть из-за проблем с подключением к Интернету, которые не связаны с записью GenBank.
getgenbank(
отображает информацию в Командном Окне MATLAB, не возвращая данные в переменную. Отображаемая информация является только гиперссылками на URL-адреса, используемые для поиска и извлечения данных.AccessionNumber
)
getgenbank (...,
вызывает 'PropertyName
', PropertyValue
, ...)getgenbank
с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName
должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:
возвращает указанную подпоследовательность в Data
= getgenbank(...,
'PartialSeq', PartialSeqValue
, ...)Sequence
поле структуры MATLAB. PartialSeqValue
- двухэлементный массив целых чисел, содержащий начальное и конечное положения подпоследовательности [
. StartBP
, EndBP
]StartBP
- целое число от 1 до EndBP
. EndBP
- целое число между StartBP
и длину последовательности.
сохраняет данные, возвращенные из базы данных GenBank, в файл. Data
= getgenbank(...,
'ToFile', ToFileValue
, ...)ToFileValue
- вектор символов или строка, задающая имя файла или путь и имя файла для сохранения данных GenBank. Если вы задаете только имя файла, файл сохраняется в текущей папке MATLAB. Функция не добавляет данные к существующему файлу. Вместо этого он перезаписывает содержимое существующего файла без предупреждения.
Совет
Вы можете считать файл в формате GenBank обратно в MATLAB с помощью genbankread
функция.
возвращает последовательность в заданном формате. Варианты Data
= getgenbank(...,
'FileFormat', FileFormatValue
, ...)'GenBank'
или 'FASTA'
. Когда 'FASTA'
, затем Data
содержит только два поля, Header
и Sequence
. 'GenBank'
является значением по умолчанию, когда SequenceOnlyValue
является false
. 'FASTA'
является значением по умолчанию, когда SequenceOnlyValue
является true
.
возвращает только последовательность в Data
= getgenbank(...,
'SequenceOnly', SequenceOnlyValue
, ...)Data
, символьный массив. Варианты true
или false
(по умолчанию).
Примечание
Если вы используете 'SequenceOnly'
и 'ToFile'
свойства вместе, выходы всегда являются файлом в формате FASTA.
устанавливает тайм-аут подключения (в секундах) для извлечения данных из базы данных GenBank. Data
= getgenbank(...,
'TimeOut', TimeOutValue
, ...)
Чтобы извлечь последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и сохраняет его в структуре, S
, в Командном Окне MATLAB введите:
S = getgenbank('M10051') S = LocusName: 'HUMINSR' LocusSequenceLength: '4723' LocusNumberofStrands: '' LocusTopology: 'linear' LocusMoleculeType: 'mRNA' LocusGenBankDivision: 'PRI' LocusModificationDate: '06-JAN-1995' Definition: 'Human insulin receptor mRNA, complete cds.' Accession: 'M10051' Version: 'M10051.1' GI: '186439' Project: [] DBLink: [] Keywords: 'insulin receptor; tyrosine kinase.' Segment: [] Source: 'Homo sapiens (human)' SourceOrganism: [4x65 char] Reference: {[1x1 struct]} Comment: [14x67 char] Features: [51x74 char] CDS: [1x1 struct] Sequence: [1x4723 char] SearchURL: [1x67 char] RetrieveURL: [1x101 char]
Посмотрев на Features
поле возвращенной структуры можно определить, что последовательность кодирования является позициями, 139 через 4287. Чтобы извлечь только кодирующую последовательность из хромосомы 19, которая кодирует рецептор инсулина человека и хранит ее в структуре, CDS
, в Командном Окне MATLAB введите:
CDS = getgenbank('M10051','PARTIALSEQ',[139,4287]);
genbankread
| getembl
| getgenpept
| getpdb
| seqviewer