exponenta event banner

blastncbi

Создание удаленного идентификатора запроса отчета NCBI BLAST или ссылки на отчет NCBI BLAST

Описание

пример

blastncbi(Seq,Program) отправляет запрос BLAST в NCBI против Seq, нуклеотидной или аминокислотной последовательности, используя Program, указанной программы BLAST. Затем возвращается ссылка на отчет NCBI BLAST. Для получения помощи в выборе соответствующей программы BLAST посетите https://blast.ncbi.nlm.nih.gov/producttable.shtml.

пример

RID = blastncbi(Seq,Program) прибыль RID, идентификатор запроса для отчета.

пример

[RID,RTOE] = blastncbi(Seq,Program) возвращает оба RIDидентификатор запроса для отчета NCBI BLAST, и RTOEвремя выполнения запроса, которое представляет собой оценочное время, необходимое для завершения поиска.

пример

___ = blastncbi(___,Name,Value) использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение, и любой из аргументов в предыдущих синтаксисах.

Примеры

свернуть все

Выполните BLAST-поиск по последовательности белков и сохраните результаты в XML-файле.

Получите последовательность из банка данных белка и создайте структуру MATLAB.

S = getpdb('1CIV');

Использовать структуру в качестве входных данных для поиска BLAST с порогом значимости 1e-10. Первым выводом является идентификатор запроса, а вторым выводом - предполагаемое время (в минутах) до завершения поиска.

[RID1,ROTE] = blastncbi(S,'blastp','expect',1e-10);

Получение результатов поиска из отчета. Отчет в формате XML можно сохранить в файл для автономного доступа. Используйте ROTE в качестве времени ожидания для получения результатов.

report1 = getblast(RID1,'WaitTime',ROTE,'ToFile','1CIV_report.xml')
Blast results are not available yet. Please wait ...

report1 = 

  struct with fields:

                RID: 'R49TJMCF014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Использовать blastread для считывания данных BLAST из файла отчета BLAST в формате XML.

blastdata = blastread('1CIV_report.xml')
blastdata = 

  struct with fields:

                RID: ''
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

В качестве альтернативы выполните поиск BLAST с регистрационным номером NCBI.

RID2 = blastncbi('AAA59174','blastp','expect',1e-10)
RID2 =

    'R49WAPMH014'

Получение результатов поиска из отчета.

report2 = getblast(RID2)
Blast results are not available yet. Please wait ...

report2 = 

  struct with fields:

                RID: 'R49WAPMH014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'AAA59174.1'
    QueryDefinition: 'insulin receptor precursor [Homo sapiens]'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Входные аргументы

свернуть все

Нуклеотидная или аминокислотная последовательность, указанная как символьный вектор, строка или структура MATLAB, содержащая Sequence поле.

Если Seq - символьный вектор или строка, доступные опции:

  • Регистрационный номер GenBank ®, GenPept или RefSeq

  • Имя файла FASTA

  • URL-адрес, указывающий на файл последовательности

Программа BLAST, заданная как одна из следующих:

  • 'blastn' - Поиск нуклеотидного запроса по сравнению с базой данных нуклеотидов.

  • 'blastp' - Поиск запроса белка по сравнению с базой данных белка.

  • 'blastx' - Поиск (перевод) нуклеотидного запроса по сравнению с базой данных белков.

  • 'megablast' - Поиск очень похожих нуклеотидных последовательностей.

  • 'tblastn' - Поиск запроса белка по сравнению с транслированной базой данных нуклеотидов.

  • 'tblastx' - Поиск (перевод) нуклеотидного запроса по сравнению с (переводом) нуклеотидной базой данных.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'Matrix','PAM70','Expect',1e-10 использует PAM70 матрица подстановки с порогом значимости для совпадений, установленным на 1e-10.

База данных для поиска, указанная как разделенная запятыми пара, состоящая из 'Database' и символьный вектор или строку.

Для нуклеотидных баз данных допустимыми являются:

  • 'nr' (по умолчанию)

  • 'refseq_rna'

  • 'refseq_genomic'

  • 'est'

  • 'est_human'

  • 'est_mouse'

  • 'est_others'

  • 'gss'

  • 'htgs'

  • 'pat'

  • 'pdb'

  • 'alu'

  • 'dbsts'

  • 'chromosome'

Для баз данных белков допустимы следующие варианты:

  • 'nr' (по умолчанию)

  • 'refseq_protein'

  • 'swissprot'

  • 'pat'

  • 'pdb'

  • 'env_nr'

Примечание

Доступные базы данных могут измениться. Дополнительные сведения см. на веб-сайте NCBI.

Для получения справки по выбору соответствующей базы данных посетите

.

Максимальное количество совпадений для возврата, указанное как пара, разделенная запятыми, состоящая из 'MaxNumberSequences' и положительное целое число. Фактические результаты поиска могут иметь меньше совпадений, чем указано, в зависимости от запроса, базы данных, ожидаемого значения и других параметров. Значение по умолчанию: 100.

Фильтр, примененный к последовательности запросов, указанной как разделенная запятыми пара, состоящая из 'Filter' и одно из следующих:

  • 'L' - области маски низкой композиционной сложности.

  • 'R' - Маскировать человеческие повторяющиеся элементы (действительны для blastn и megablast только).

  • 'm' - Маскировать запрос при создании семян взрыва, но не во время расширения.

  • 'none' - Маска не применяется.

  • 'l' - маскировать любую строчную букву в запросе.

Можно указать несколько допустимых букв в одном символьном векторе или строке для одновременного применения нескольких фильтров. Например, 'Lm' применяет фильтр низкой композиционной сложности и маску.

Выбор зависит от выбранного Program. Дополнительные сведения см. в таблице Варианты дополнительных свойств по программе BLAST.

Порог статистической значимости для совпадений с последовательностями базы данных, указанный как пара, разделенная запятыми, состоящая из 'Expect' и положительное реальное число. Значение по умолчанию: 10.

Подробнее о статистике сравнения локальных последовательностей можно узнать по адресу https://blast.ncbi.nlm.nih.gov/tutorial/Altschul-1.html#head2.

Длина слова для последовательности запросов, указанной как разделенная запятыми пара, состоящая из 'Word' и положительное целое число.

Варианты поиска запроса белка:

  • 2

  • 3 (по умолчанию)

Варианты поиска нуклеотидных запросов:

  • 7

  • 11 (по умолчанию)

  • 15

Выбор, когда Program имеет значение 'megablast' являются:

  • 16

  • 20

  • 24

  • 28 (по умолчанию)

  • 32

  • 48

  • 64

  • 128

Замещающая матрица для аминокислотных последовательностей, указанная как пара, разделенная запятыми, состоящая из: 'Matrix' и символьный вектор или строку. Матрица присваивает оценку для возможного выравнивания любых двух аминокислотных остатков. Возможны следующие варианты:

  • 'PAM30'

  • 'PAM70'

  • 'BLOSUM45'

  • 'BLOSUM62' (по умолчанию)

  • 'BLOSUM80'

Совпадающие и несовпадающие баллы в нуклеотидном выравнивании, указанном как пара, разделенная запятыми, состоящая из 'MatchScores' и двухэлементный числовой вектор [R Q]. Первый элемент R - счет матча, а второй элемент Q - показатель несоответствия. Эта опция предназначена для blastn и megablast только.

Для обеспечения точной оценки значимости выравнивания поддерживается только ограниченный набор комбинаций. Все поддерживаемые значения см. в таблице «Дополнительные свойства BLAST». Значение по умолчанию для megablast является [1 -2]и значение по умолчанию для blastn является [1 -3].

Штрафы за открытие и расширение промежутка, указанного как пара, разделенная запятыми, состоящая из 'GapCosts' и двухэлементный числовой вектор. Вектор содержит два целых числа: первое - штраф за открытие промежутка, а второе - штраф за продление промежутка.

Допустимые затраты на разрыв для blastp, blastx, tblastn, и tblastx варьируют в соответствии с матрицей замещения белка. Для получения более подробной информации см. GapCosts для blastp, blastx, tblastn и tblastx.

Допустимые затраты на разрыв для blastn и megablast варьируются в соответствии с MatchScores ([R Q]). Для получения подробной информации см. GapCost для blastn и megablast.

Тип корректировки состава для компенсации аминокислотных композиций сравниваемых последовательностей, указанный как пара, разделенная запятыми, состоящая из: 'CompositionAdjustment' и одно из следующих значений:

  • 'none'- Корректировка не применяется (по умолчанию).

  • 'cbs'- Для корректировки баллов используется основанный на составе подход к статистике.

  • 'ccsm'- Условная матрица оценки состава используется для корректировки оценки.

  • 'ucsm'- Универсальная матрица оценки состава используется для корректировки оценки.

Эта опция предназначена для blastp, blastx, и tblastn только. Полученные масштабированные оценки дают более точные значения E, чем стандартные немасштабированные оценки. Дополнительные сведения см. в разделе Корректировки состава.

Введите синтаксис запроса для поиска подмножества выбранной базы данных, указанной как разделенная запятыми пара, состоящая из 'Entrez' и символьный вектор или строку. Эта опция используется для ограничения поиска на основе типов молекул, длин последовательностей, организмов и т.д. Дополнительные сведения об ограничении поиска см. в разделе https://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml#entrez_query.

Дополнительные параметры, указанные как пара, разделенная запятыми, состоящая из 'Adv' и символьный вектор или строку. Например, чтобы указать значение вознаграждения и штрафа за совпадения нуклеотидов и несоответствия, используйте '-r 1 -q -3'. Дополнительные сведения см. в разделе https://www.ncbi.nlm.nih.gov/blast/Doc/urlapi.html.

Тайм-аут соединения (в секундах) для отправки запроса BLAST, указанного как положительный скаляр. Подробнее см. здесь.

Типы данных: double

Выходные аргументы

свернуть все

Идентификатор запроса для отчета NCBI BLAST, возвращаемого в виде символьного вектора.

Время выполнения запроса, возвращаемое как целое число. Это предполагаемое время в минутах до завершения поиска.

Совет

Если вы используете getblast для извлечения отчета BLAST используйте эту временную оценку в качестве 'WaitTime' вариант.

Подробнее

свернуть все

Дополнительные свойства BLAST

Выбор дополнительных свойств программой BLAST

Когда программа BLAST...Тогда варианты для следующих опций...
База данныхФильтрWordМатрицаMatchScores [R Q]GapCosts
'blastn''nr' (по умолчанию)
'refseq_rna'
'refseq_genomic''est'
'est_human'
'est_mouse'
'est_others'
'gss'
'htgs'
'pat'
'pdb'
'alu'
'dbsts'
'chromosome'
'Lm' (по умолчанию)
'R'
'm'
'l'
'none'
7
11 (по умолчанию)
15
[1 -3] (по умолчанию)
[1 -4]
[1 -2]
[1 -1]
[2 -3]
[4 -5]
См. раздел GapCost для blastn и megablast.
'megablast'16
20
24
28 (по умолчанию)
32
48
64
128
[1 -3]
[1 -4]
[1 -2] (по умолчанию)
[1 -1]
[2 -3]
[4 -5]
'tblastn''L' (по умолчанию)
'm'
'l'
'none'
2
3 (по умолчанию)
'PAM30'
'PAM70'
'BLOSUM45'
'BLOSUM62' (по умолчанию)
'BLOSUM80'
См. раздел GapCosts для blastp, blastx, tblastn и tblastx.
'tblastx'
'blastp''nr' (по умолчанию)
'refseq_protein'
'swissprot'
'pat'
'pdb'
'env_nr'
'L'
'm'
'l'
'none' (по умолчанию)
'blastx''L' (по умолчанию)
'm'
'l'
'none'

Затраты на разрыв для blastp, blastx, tblastn, и tblastx

Матрица подстановкиДействительный 'GapCosts' Ценности
'PAM30'[7 2]
[6 2]
[5 2]
[10 1]
[9 1] (по умолчанию)
[8 1]
'PAM70'[8 2]
[7 2]
[6 2]
[11 1]
[10 1] (по умолчанию)
[9 1]
'BLOSUM80'
'BLOSUM45'[13 3]
[12 3]
[11 3]
[10 3]
[15 2] (по умолчанию)
[14 2]
[13 2]
[12 2]
[19 1]
[18 1]
[17 1]
[16 1]
'BLOSUM62'[9 2]
[8 2]
[7 2]
[12 1]
[11 1] (по умолчанию)
[10 1]

Затраты на разрыв для blastn и megablast

Показатели соответствия [R Q]Действительный 'GapCosts' Ценности
[1 -4][5 2] (по умолчанию)
[1 2]
[0 2]
[2 1]
[1 1]
[1 -3][5 2](по умолчанию)
[2 2]
[1 2]
[0 2]
[2 1]
[1 1]
[1 -2][5 2](по умолчанию)
[2 2]
[1 2]
[0 2]
[3 1]
[2 1]
[1 1]
[1 -1][5 2](по умолчанию)
[3 2]
[2 2]
[1 2]
[0 2]
[4 1]
[3 1]
[2 1]
[2 -3][5 2](по умолчанию)
[4 4]
[2 4]
[0 4]
[3 3]
[6 2]
[4 2]
[2 2]
[4 -5][5 2](по умолчанию)
[6 5]
[5 5]
[4 5]
[3 5]

Вопросы совместимости

развернуть все

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ошибки, начинающиеся с R2017b

Ссылки

[1] Альтшул, С.Ф., У. Гиш, У. Миллер, Э. У. Майерс и Д. Дж. Липман (1990). «Основной инструмент поиска локальной трассы». Дж. Мол. Биоль. 215, 403-410.

[2] Альтшул, С.Ф., Т.Л. Мадден, А.А. Шяффер, Дж. Чжан, З. Чжан, У. Миллер и Д. Дж. Липман (1997). «Разрывные BLAST и PSI-BLAST: новое поколение программ поиска баз данных белков». Нуклеиновые кислоты Res. 25, 3389-3402.

См. также

|

Внешние веб-сайты

Представлен до R2006a