Составьте удаленный идентификатор запроса отчета NCBI BLAST или ссылку на отчет NCBI BLAST
blastncbi(
отправляет запрос BLAST в NCBI против Seq
,Program
)Seq
, нуклеотидная или аминокислотная последовательность, с использованием Program
, заданную программу BLAST. Затем возвращается ссылка на отчет NCBI BLAST. Для помощи в выборе соответствующей программы BLAST посетите https://blast.ncbi.nlm.nih.gov/producttable.shtml.
___ = blastncbi(___,
использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение" и любым из аргументов в предыдущих синтаксисах.Name,Value
)
Выполните поиск BLAST по последовательности белков и сохраните результаты в XML- файл.
Получите последовательность из Protein Data Bank и создайте структуру MATLAB.
S = getpdb('1CIV');
Используйте структуру как вход для поиска BLAST с порогом значимости 1e-10
. Первый выход - это идентификатор запроса, а второй выход - это предполагаемое время (в минутах) до завершения поиска.
[RID1,ROTE] = blastncbi(S,'blastp','expect',1e-10);
Получите результаты поиска из отчета. Можно сохранить отчет в формате XML в файл для автономного доступа. Используйте ROTE в качестве времени ожидания для получения результатов.
report1 = getblast(RID1,'WaitTime',ROTE,'ToFile','1CIV_report.xml')
Blast results are not available yet. Please wait ... report1 = struct with fields: RID: 'R49TJMCF014' Algorithm: 'BLASTP 2.6.1+' Database: 'nr' QueryID: 'Query_224139' QueryDefinition: 'unnamed protein product' Hits: [1×100 struct] Parameters: [1×1 struct] Statistics: [1×1 struct]
Использование blastread
для чтения данных BLAST из файла отчета BLAST в формате XML.
blastdata = blastread('1CIV_report.xml')
blastdata = struct with fields: RID: '' Algorithm: 'BLASTP 2.6.1+' Database: 'nr' QueryID: 'Query_224139' QueryDefinition: 'unnamed protein product' Hits: [1×100 struct] Parameters: [1×1 struct] Statistics: [1×1 struct]
Также выполните поиск BLAST с номером присоединения NCBI.
RID2 = blastncbi('AAA59174','blastp','expect',1e-10)
RID2 = 'R49WAPMH014'
Получите результаты поиска из отчета.
report2 = getblast(RID2)
Blast results are not available yet. Please wait ... report2 = struct with fields: RID: 'R49WAPMH014' Algorithm: 'BLASTP 2.6.1+' Database: 'nr' QueryID: 'AAA59174.1' QueryDefinition: 'insulin receptor precursor [Homo sapiens]' Hits: [1×100 struct] Parameters: [1×1 struct] Statistics: [1×1 struct]
Seq
- Нуклеотидная или аминокислотная последовательностьНуклеотидная или аминокислотная последовательность, заданная как вектор символов, строковая или MATLAB структура, содержащая Sequence
поле.
Если Seq
является вектором символов или строкой, доступные опции:
GenBank®, GenPept или номер присоединения RefSeq
Имя файла FASTA
URL-адрес, указывающий на файл последовательности
Program
- Программа BLASTПрограмма BLAST, заданная как одно из следующего:
'blastn'
- Поиск нуклеотидного запроса по сравнению с базой данных нуклеотидов.
'blastp'
- Поиск запроса белка по сравнению с базой данных белка.
'blastx'
- Поиск (переведенный) нуклеотидный запрос по сравнению с базой данных белка.
'megablast'
- Поиск высоко похожих нуклеотидных последовательностей.
'tblastn'
- Поиск запроса белка по сравнению с переведенной базой данных нуклеотидов.
'tblastx'
- Поиск (переведенный) нуклеотидный запрос по сравнению с (переведенным) нуклеотидной базой данных.
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
'Matrix','PAM70','Expect',1e-10
использует PAM70
матрица замещения с порогом значимости для соответствий, установленным на 1e-10.'Database'
- База данных для поиска'nr'
(по умолчанию) | вектор символов | строкаБаза данных для поиска, заданная как разделенная разделенными запятой парами, состоящая из 'Database'
и вектор символов или строка.
Для нуклеотидных баз данных действительными вариантами являются:
'nr'
(по умолчанию)
'refseq_rna'
'refseq_genomic'
'est'
'est_human'
'est_mouse'
'est_others'
'gss'
'htgs'
'pat'
'pdb'
'alu'
'dbsts'
'chromosome'
Для белковых баз данных действительными вариантами являются:
'nr'
(по умолчанию)
'refseq_protein'
'swissprot'
'pat'
'pdb'
'env_nr'
Примечание
Доступные базы данных могут измениться. Для получения дополнительной информации посетите веб-сайт NCBI.
Для получения помощи в выборе соответствующей базы данных посетите
.'MaxNumberSequences'
- Максимальное количество возвращаемых хитовМаксимальное количество хитов для возврата, заданное как разделенная разделенными запятой парами, состоящая из 'MaxNumberSequences'
и положительное целое число. Фактические результаты поиска могут иметь меньше хитов, чем то, что вы задаете, в зависимости от запроса, базы данных, значения ожидания и других параметров. Значение по умолчанию 100
.
'Filter'
- Фильтр, примененный к последовательности запросовФильтр, примененный к последовательности запросов, задается как разделенная разделенными запятой парами, состоящая из 'Filter'
и одно из следующих:
'L'
- Масочные области низкой композиционной сложности.
'R'
- Маскируйте повторяющиеся элементы человека (действительны для blastn
и megablast
только).
'm'
- Замаскируйте запрос при производстве семян взрыва, но не во время расширения.
'none'
- Маска не применяется.
'l'
- Замаскировка любой строчной буквы в запросе.
Можно задать несколько допустимых букв в одном векторе символов или строке, чтобы применить несколько фильтров сразу. Для примера, 'Lm'
применяет как фильтр с низкой композиционной сложностью, так и маску.
Варианты варьируются в зависимости от выбранной Program
. Для получения дополнительной информации смотрите таблицу Варианты для дополнительных свойств программы BLAST.
'Expect'
- Порог статистической значимости для совпадений10
(по умолчанию) | положительное вещественное числоСтатистический порог значимости для соответствий с последовательностями базы данных, заданный как разделенная разделенными запятой парами, состоящая из 'Expect'
и положительное вещественное число. Значение по умолчанию является 10
.
Подробнее о статистике локального сравнения последовательностей можно узнать в https://blast.ncbi.nlm.nih.gov/tutorial/Altschul-1.html#head2.
'Word'
- Размер слова для последовательности запросовРазмер слова для последовательности запросов, заданная как разделенная разделенными запятой парами, состоящая из 'Word'
и положительное целое число.
Варианты поиска белкового запроса:
2
3
(по умолчанию)
Варианты поиска нуклеотидного запроса:
7
11
(по умолчанию)
15
Варианты при Program
установлено в 'megablast'
являются:
16
20
24
28
(по умолчанию)
32
48
64
128
'Matrix'
- матрица замещения аминокислотных последовательностей'BLOSUM62'
(по умолчанию) | вектор символов | строкаМатрица замещения для аминокислотных последовательностей, заданная как разделенная разделенными запятой парами, состоящая из 'Matrix'
и вектор символов или строка. Матрица присваивает счет для возможного выравнивания любых двух аминокислотных остатков. Варианты:
'PAM30'
'PAM70'
'BLOSUM45'
'BLOSUM62'
(по умолчанию)
'BLOSUM80'
'MatchScores'
- Соответствие и несоответствие счетов при нуклеотидном выравниванииСовпадение и несоответствие счетов в нуклеотидном выравнивании, заданное как разделенная разделенными запятой парами, состоящая из 'MatchScores'
и двухэлементный числовой вектор [R Q]
. Первый элемент R
- счет соответствия и второй элемент Q
- это счет несоответствия. Эта опция предназначена для blastn
и megablast
только.
Для обеспечения точной оценки значимости выравнивания поддерживается только ограниченный набор комбинаций. Все поддерживаемые значения см. в таблице Дополнительные свойства BLAST. Значение по умолчанию для megablast
является [1 -2]
, и значение по умолчанию для blastn
является [1 -3]
.
'GapCosts'
- Штрафы за открытие и расширение разрываШтрафы за открытие и расширение зазора, заданные как разделенная разделенными запятой парами, состоящая из 'GapCosts'
и двухэлементный числовой вектор. Вектор содержит два целых чисел: первое является штрафом за открытие погрешности, а второе - штрафом за расширение погрешности.
Допустимые затраты на разрыв для blastp
, blastx
, tblastn
, и tblastx
варьируются в соответствии с матрицей замещения белка. Для получения дополнительной информации смотрите GapCost для blastp, blastx, tblastn и tblastx.
Допустимые затраты на разрыв для blastn
и megablast
варьируются в соответствии с MatchScores
([R Q]
). Для получения дополнительной информации смотрите GapCost для blastn и megablast.
'CompositionAdjustment'
- Тип регулировки состава для компенсации аминокислотных композиций'none'
(по умолчанию) | 'cbs'
| 'ccsm'
| 'ucsm'
Тип корректировки состава для компенсации аминокислотных композиций сравниваемых последовательностей, заданный как разделенная разделенными запятой парами, состоящая из 'CompositionAdjustment'
и одно из следующих значений:
'none'
- Регулировка не применяется (по умолчанию).
'cbs'
- Подход, основанный на статистике состава, используется для корректировки счета.
'ccsm'
- Условная композиционная матрица счета используется для корректировки счета.
'ucsm'
- Универсальная композиционная матрица счета используется для корректировки счета.
Эта опция предназначена для blastp
, blastx
, и tblastn
только. Получившиеся масштабированные счета дают больше точных E-значений, чем стандартные, не масштабированные счета. Для получения дополнительной информации смотрите Композиционные корректировки.
'Entrez'
- Синтаксис запроса Entrez для поиска подмножества выбранной базы данныхСинтаксис запроса Entrez для поиска подмножества выбранной базы данных, заданный как разделенная разделенными запятой парами, состоящая из 'Entrez'
и вектор символов или строка. Используйте эту опцию, чтобы ограничить поиски на основе типов молекул, длин последовательностей, организмов и так далее. Для получения дополнительной информации об ограничении поиска смотрите https://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml#entrez_query.
'Adv'
- Расширенные опцииРасширенные опции, заданные как разделенная разделенными запятой парами, состоящая из 'Adv'
и вектор символов или строка. Например, чтобы задать вознаграждение и значения штрафа для нуклеотидных совпадений и несоответствий, используйте '-r 1 -q -3'
. Для получения дополнительной информации смотрите https://www.ncbi.nlm.nih.gov/blast/Doc/urlapi.html.
'TimeOut'
- Тайм-аут подключенияТайм-аут подключения (в секундах) для отправки запроса BLAST, заданный как положительная скалярная величина. Для получения дополнительной информации смотрите здесь.
Типы данных: double
RID
- Идентификатор запроса для отчета NCBI BLASTИдентификатор запроса для отчета NCBI BLAST, возвращенный как вектор символов.
RTOE
- Время выполнения запросаЗапрос времени выполнения, возвращенный как целое число. Это расчетное время в минутах до завершения поиска.
Совет
Если вы используете getblast
функция для извлечения отчета BLAST, используйте эту оценку времени как 'WaitTime'
опция.
Выбор дополнительных свойств по программе BLAST
Когда программа BLAST... | Тогда варианты для следующих опций... | |||||
---|---|---|---|---|---|---|
База данных | Фильтр | Word | Матрица | Функции MatchScores [R Q] | GapCosts | |
'blastn' | 'nr' (по умолчанию)'refseq_rna' 'refseq_genomic' 'est' 'est_human' 'est_mouse' 'est_others' 'gss' 'htgs' 'pat' 'pdb' 'alu' 'dbsts' 'chromosome' | 'Lm' (по умолчанию)'R' 'm' 'l' 'none' | 7 11 (по умолчанию)15 | — | [1 -3] (по умолчанию)[1 -4] [1 -2] [1 -1] [2 -3] [4 -5] | Смотрите GapCost для blastn и мегабласта. |
'megablast' | 16 20 24 28 (по умолчанию)32 48 64 128 | [1 -3]
[1 -4] [1 -2] (по умолчанию)[1 -1] [2 -3] [4 -5] | ||||
'tblastn' | 'L' (по умолчанию)'m' 'l' 'none' | 2 3 (по умолчанию) | 'PAM30' 'PAM70' 'BLOSUM45' 'BLOSUM62' (по умолчанию)'BLOSUM80'
| – | Смотрите GapCost для blastp, blastx, tblastn и tblastx. | |
'tblastx' | ||||||
'blastp' | 'nr' (по умолчанию)'refseq_protein' 'swissprot' 'pat' 'pdb' 'env_nr' | 'L'
'm' 'l' 'none' (по умолчанию) | ||||
'blastx' | 'L' (по умолчанию)'m' 'l' 'none' |
GapCost для blastp
, blastx
, tblastn
, и tblastx
Матрица замещения | Допустимые 'GapCosts' Значения |
---|---|
'PAM30' | [7 2] [6 2] [5 2] [10 1] [9 1] (по умолчанию)[8 1] |
'PAM70' | [8 2] [7 2] [6 2] [11 1] [10 1] (по умолчанию)[9 1] |
'BLOSUM80' | |
'BLOSUM45' | [13 3] [12 3] [11 3] [10 3] [15 2] (по умолчанию)[14 2] [13 2] [12 2] [19 1] [18 1] [17 1] [16 1] |
'BLOSUM62' | [9 2] [8 2] [7 2] [12 1] [11 1] (по умолчанию)[10 1] |
GapCost для blastn
и megablast
MatchScores [R Q] | Допустимые 'GapCosts' Значения |
---|---|
[1 -4] | [5 2] (по умолчанию) [1 2] [0 2] [2 1] [1 1] |
[1 -3] | [5 2] (по умолчанию)[2 2] [1 2] [0 2] [2 1] [1 1] |
[1 -2] | [5 2] (по умолчанию)[2 2] [1 2] [0 2] [3 1] [2 1] [1 1] |
[1 -1] | [5 2] (по умолчанию)[3 2] [2 2] [1 2] [0 2] [4 1] [3 1] [2 1] |
[2 -3] | [5 2] (по умолчанию)[4 4] [2 4] [0 4] [3 3] [6 2] [4 2] [2 2] |
[4 -5] | [5 2] (по умолчанию)[6 5] [5 5] [4 5] [3 5] |
'psiblast'
Программа BLAST удаленаОшибки, начинающиеся в R2017b
Программа BLAST 'psiblast'
удален из одной из поддерживаемых программ.
'Inclusion'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'Inclusion'
пара "имя-значение" была удалена, так как она применяется только к psiblast
программа, которая также была удалена.
'Descriptions'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'Descriptions'
Пара "имя-значение" был удаляема. Использование 'MaxNumberSequences'
вместо этого задайте максимальное количество возвращаемых ударов.
'Alignments'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'Alignments'
Пара "имя-значение" был удаляема. Использование 'MaxNumberSequences'
вместо этого задайте максимальное количество возвращаемых ударов.
'GapOpen'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'GapOpen'
Пара "имя-значение" был удаляема. Использование 'GapCosts'
вместо этого.
'ExtendGap'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'ExtendGap'
Пара "имя-значение" был удаляема. Использование 'GapCosts'
вместо этого.
'Pct'
опция был удаляемаОшибки, начинающиеся в R2017b
The 'Pct'
Пара "имя-значение" был удаляема.
[1] Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman (1990). «Базовый инструмент локального поиска выравнивания». Дж. Моль. Биол. 215, 403-410.
[2] Altschul, S.F., T.L. Madden, A.A. Schäffer, J. Zhang, Z. Zhang, W. Miller, and D. J. Lipman (1997). Gapped BLAST и PSI-BLAST: новая генерация программ поиска белковой базы данных. Нуклеиновые кислоты Res. 25, 3389-3402.
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.