blastncbi

Составьте удаленный идентификатор запроса отчета NCBI BLAST или ссылку на отчет NCBI BLAST

Описание

пример

blastncbi(Seq,Program) отправляет запрос BLAST в NCBI против Seq, нуклеотидная или аминокислотная последовательность, с использованием Program, заданную программу BLAST. Затем возвращается ссылка на отчет NCBI BLAST. Для помощи в выборе соответствующей программы BLAST посетите https://blast.ncbi.nlm.nih.gov/producttable.shtml.

пример

RID = blastncbi(Seq,Program) возвращает RID, идентификатор запроса для отчета.

пример

[RID,RTOE] = blastncbi(Seq,Program) возвращает оба RID, идентификатор запроса для отчета NCBI BLAST и RTOE, время выполнения запроса, которое является предполагаемым временем, необходимым для завершения поиска.

пример

___ = blastncbi(___,Name,Value) использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение" и любым из аргументов в предыдущих синтаксисах.

Примеры

свернуть все

Выполните поиск BLAST по последовательности белков и сохраните результаты в XML- файл.

Получите последовательность из Protein Data Bank и создайте структуру MATLAB.

S = getpdb('1CIV');

Используйте структуру как вход для поиска BLAST с порогом значимости 1e-10. Первый выход - это идентификатор запроса, а второй выход - это предполагаемое время (в минутах) до завершения поиска.

[RID1,ROTE] = blastncbi(S,'blastp','expect',1e-10);

Получите результаты поиска из отчета. Можно сохранить отчет в формате XML в файл для автономного доступа. Используйте ROTE в качестве времени ожидания для получения результатов.

report1 = getblast(RID1,'WaitTime',ROTE,'ToFile','1CIV_report.xml')
Blast results are not available yet. Please wait ...

report1 = 

  struct with fields:

                RID: 'R49TJMCF014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Использование blastread для чтения данных BLAST из файла отчета BLAST в формате XML.

blastdata = blastread('1CIV_report.xml')
blastdata = 

  struct with fields:

                RID: ''
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Также выполните поиск BLAST с номером присоединения NCBI.

RID2 = blastncbi('AAA59174','blastp','expect',1e-10)
RID2 =

    'R49WAPMH014'

Получите результаты поиска из отчета.

report2 = getblast(RID2)
Blast results are not available yet. Please wait ...

report2 = 

  struct with fields:

                RID: 'R49WAPMH014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'AAA59174.1'
    QueryDefinition: 'insulin receptor precursor [Homo sapiens]'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Входные параметры

свернуть все

Нуклеотидная или аминокислотная последовательность, заданная как вектор символов, строковая или MATLAB структура, содержащая Sequence поле.

Если Seq является вектором символов или строкой, доступные опции:

  • GenBank®, GenPept или номер присоединения RefSeq

  • Имя файла FASTA

  • URL-адрес, указывающий на файл последовательности

Программа BLAST, заданная как одно из следующего:

  • 'blastn' - Поиск нуклеотидного запроса по сравнению с базой данных нуклеотидов.

  • 'blastp' - Поиск запроса белка по сравнению с базой данных белка.

  • 'blastx' - Поиск (переведенный) нуклеотидный запрос по сравнению с базой данных белка.

  • 'megablast' - Поиск высоко похожих нуклеотидных последовательностей.

  • 'tblastn' - Поиск запроса белка по сравнению с переведенной базой данных нуклеотидов.

  • 'tblastx' - Поиск (переведенный) нуклеотидный запрос по сравнению с (переведенным) нуклеотидной базой данных.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'Matrix','PAM70','Expect',1e-10 использует PAM70 матрица замещения с порогом значимости для соответствий, установленным на 1e-10.

База данных для поиска, заданная как разделенная разделенными запятой парами, состоящая из 'Database' и вектор символов или строка.

Для нуклеотидных баз данных действительными вариантами являются:

  • 'nr' (по умолчанию)

  • 'refseq_rna'

  • 'refseq_genomic'

  • 'est'

  • 'est_human'

  • 'est_mouse'

  • 'est_others'

  • 'gss'

  • 'htgs'

  • 'pat'

  • 'pdb'

  • 'alu'

  • 'dbsts'

  • 'chromosome'

Для белковых баз данных действительными вариантами являются:

  • 'nr' (по умолчанию)

  • 'refseq_protein'

  • 'swissprot'

  • 'pat'

  • 'pdb'

  • 'env_nr'

Примечание

Доступные базы данных могут измениться. Для получения дополнительной информации посетите веб-сайт NCBI.

Для получения помощи в выборе соответствующей базы данных посетите

.

Максимальное количество хитов для возврата, заданное как разделенная разделенными запятой парами, состоящая из 'MaxNumberSequences' и положительное целое число. Фактические результаты поиска могут иметь меньше хитов, чем то, что вы задаете, в зависимости от запроса, базы данных, значения ожидания и других параметров. Значение по умолчанию 100.

Фильтр, примененный к последовательности запросов, задается как разделенная разделенными запятой парами, состоящая из 'Filter' и одно из следующих:

  • 'L' - Масочные области низкой композиционной сложности.

  • 'R' - Маскируйте повторяющиеся элементы человека (действительны для blastn и megablast только).

  • 'm' - Замаскируйте запрос при производстве семян взрыва, но не во время расширения.

  • 'none' - Маска не применяется.

  • 'l' - Замаскировка любой строчной буквы в запросе.

Можно задать несколько допустимых букв в одном векторе символов или строке, чтобы применить несколько фильтров сразу. Для примера, 'Lm' применяет как фильтр с низкой композиционной сложностью, так и маску.

Варианты варьируются в зависимости от выбранной Program. Для получения дополнительной информации смотрите таблицу Варианты для дополнительных свойств программы BLAST.

Статистический порог значимости для соответствий с последовательностями базы данных, заданный как разделенная разделенными запятой парами, состоящая из 'Expect' и положительное вещественное число. Значение по умолчанию является 10.

Подробнее о статистике локального сравнения последовательностей можно узнать в https://blast.ncbi.nlm.nih.gov/tutorial/Altschul-1.html#head2.

Размер слова для последовательности запросов, заданная как разделенная разделенными запятой парами, состоящая из 'Word' и положительное целое число.

Варианты поиска белкового запроса:

  • 2

  • 3 (по умолчанию)

Варианты поиска нуклеотидного запроса:

  • 7

  • 11 (по умолчанию)

  • 15

Варианты при Program установлено в 'megablast' являются:

  • 16

  • 20

  • 24

  • 28 (по умолчанию)

  • 32

  • 48

  • 64

  • 128

Матрица замещения для аминокислотных последовательностей, заданная как разделенная разделенными запятой парами, состоящая из 'Matrix' и вектор символов или строка. Матрица присваивает счет для возможного выравнивания любых двух аминокислотных остатков. Варианты:

  • 'PAM30'

  • 'PAM70'

  • 'BLOSUM45'

  • 'BLOSUM62' (по умолчанию)

  • 'BLOSUM80'

Совпадение и несоответствие счетов в нуклеотидном выравнивании, заданное как разделенная разделенными запятой парами, состоящая из 'MatchScores' и двухэлементный числовой вектор [R Q]. Первый элемент R - счет соответствия и второй элемент Q - это счет несоответствия. Эта опция предназначена для blastn и megablast только.

Для обеспечения точной оценки значимости выравнивания поддерживается только ограниченный набор комбинаций. Все поддерживаемые значения см. в таблице Дополнительные свойства BLAST. Значение по умолчанию для megablast является [1 -2], и значение по умолчанию для blastn является [1 -3].

Штрафы за открытие и расширение зазора, заданные как разделенная разделенными запятой парами, состоящая из 'GapCosts' и двухэлементный числовой вектор. Вектор содержит два целых чисел: первое является штрафом за открытие погрешности, а второе - штрафом за расширение погрешности.

Допустимые затраты на разрыв для blastp, blastx, tblastn, и tblastx варьируются в соответствии с матрицей замещения белка. Для получения дополнительной информации смотрите GapCost для blastp, blastx, tblastn и tblastx.

Допустимые затраты на разрыв для blastn и megablast варьируются в соответствии с MatchScores ([R Q]). Для получения дополнительной информации смотрите GapCost для blastn и megablast.

Тип корректировки состава для компенсации аминокислотных композиций сравниваемых последовательностей, заданный как разделенная разделенными запятой парами, состоящая из 'CompositionAdjustment' и одно из следующих значений:

  • 'none'- Регулировка не применяется (по умолчанию).

  • 'cbs'- Подход, основанный на статистике состава, используется для корректировки счета.

  • 'ccsm'- Условная композиционная матрица счета используется для корректировки счета.

  • 'ucsm'- Универсальная композиционная матрица счета используется для корректировки счета.

Эта опция предназначена для blastp, blastx, и tblastn только. Получившиеся масштабированные счета дают больше точных E-значений, чем стандартные, не масштабированные счета. Для получения дополнительной информации смотрите Композиционные корректировки.

Синтаксис запроса Entrez для поиска подмножества выбранной базы данных, заданный как разделенная разделенными запятой парами, состоящая из 'Entrez' и вектор символов или строка. Используйте эту опцию, чтобы ограничить поиски на основе типов молекул, длин последовательностей, организмов и так далее. Для получения дополнительной информации об ограничении поиска смотрите https://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml#entrez_query.

Расширенные опции, заданные как разделенная разделенными запятой парами, состоящая из 'Adv' и вектор символов или строка. Например, чтобы задать вознаграждение и значения штрафа для нуклеотидных совпадений и несоответствий, используйте '-r 1 -q -3'. Для получения дополнительной информации смотрите https://www.ncbi.nlm.nih.gov/blast/Doc/urlapi.html.

Тайм-аут подключения (в секундах) для отправки запроса BLAST, заданный как положительная скалярная величина. Для получения дополнительной информации смотрите здесь.

Типы данных: double

Выходные аргументы

свернуть все

Идентификатор запроса для отчета NCBI BLAST, возвращенный как вектор символов.

Запрос времени выполнения, возвращенный как целое число. Это расчетное время в минутах до завершения поиска.

Совет

Если вы используете getblast функция для извлечения отчета BLAST, используйте эту оценку времени как 'WaitTime' опция.

Подробнее о

свернуть все

Дополнительные свойства BLAST

Выбор дополнительных свойств по программе BLAST

Когда программа BLAST...Тогда варианты для следующих опций...
База данныхФильтрWordМатрицаФункции MatchScores [R Q]GapCosts
'blastn''nr' (по умолчанию)
'refseq_rna'
'refseq_genomic''est'
'est_human'
'est_mouse'
'est_others'
'gss'
'htgs'
'pat'
'pdb'
'alu'
'dbsts'
'chromosome'
'Lm' (по умолчанию)
'R'
'm'
'l'
'none'
7
11 (по умолчанию)
15
[1 -3] (по умолчанию)
[1 -4]
[1 -2]
[1 -1]
[2 -3]
[4 -5]
Смотрите GapCost для blastn и мегабласта.
'megablast'16
20
24
28 (по умолчанию)
32
48
64
128
[1 -3]
[1 -4]
[1 -2] (по умолчанию)
[1 -1]
[2 -3]
[4 -5]
'tblastn''L' (по умолчанию)
'm'
'l'
'none'
2
3 (по умолчанию)
'PAM30'
'PAM70'
'BLOSUM45'
'BLOSUM62' (по умолчанию)
'BLOSUM80'
Смотрите GapCost для blastp, blastx, tblastn и tblastx.
'tblastx'
'blastp''nr' (по умолчанию)
'refseq_protein'
'swissprot'
'pat'
'pdb'
'env_nr'
'L'
'm'
'l'
'none' (по умолчанию)
'blastx''L' (по умолчанию)
'm'
'l'
'none'

GapCost для blastp, blastx, tblastn, и tblastx

Матрица замещенияДопустимые 'GapCosts' Значения
'PAM30'[7 2]
[6 2]
[5 2]
[10 1]
[9 1] (по умолчанию)
[8 1]
'PAM70'[8 2]
[7 2]
[6 2]
[11 1]
[10 1] (по умолчанию)
[9 1]
'BLOSUM80'
'BLOSUM45'[13 3]
[12 3]
[11 3]
[10 3]
[15 2] (по умолчанию)
[14 2]
[13 2]
[12 2]
[19 1]
[18 1]
[17 1]
[16 1]
'BLOSUM62'[9 2]
[8 2]
[7 2]
[12 1]
[11 1] (по умолчанию)
[10 1]

GapCost для blastn и megablast

MatchScores [R Q]Допустимые 'GapCosts' Значения
[1 -4][5 2] (по умолчанию)
[1 2]
[0 2]
[2 1]
[1 1]
[1 -3][5 2](по умолчанию)
[2 2]
[1 2]
[0 2]
[2 1]
[1 1]
[1 -2][5 2](по умолчанию)
[2 2]
[1 2]
[0 2]
[3 1]
[2 1]
[1 1]
[1 -1][5 2](по умолчанию)
[3 2]
[2 2]
[1 2]
[0 2]
[4 1]
[3 1]
[2 1]
[2 -3][5 2](по умолчанию)
[4 4]
[2 4]
[0 4]
[3 3]
[6 2]
[4 2]
[2 2]
[4 -5][5 2](по умолчанию)
[6 5]
[5 5]
[4 5]
[3 5]

Вопросы совместимости

расширить все

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ошибки, начинающиеся в R2017b

Ссылки

[1] Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman (1990). «Базовый инструмент локального поиска выравнивания». Дж. Моль. Биол. 215, 403-410.

[2] Altschul, S.F., T.L. Madden, A.A. Schäffer, J. Zhang, Z. Zhang, W. Miller, and D. J. Lipman (1997). Gapped BLAST и PSI-BLAST: новая генерация программ поиска белковой базы данных. Нуклеиновые кислоты Res. 25, 3389-3402.

См. также

|

Внешние веб-сайты

Представлено до R2006a