blastncbi

Создайте удаленный ID запроса отчета BLAST NCBI или соединитесь с отчетом BLAST NCBI

Описание

пример

blastncbi(Seq,Program) отправляет запрос BLAST к NCBI против Seq, нуклеотид или последовательность аминокислот, с помощью Program, заданная программа BLAST. Затем это возвращает ссылку на отчет BLAST NCBI. Для справки в выборе соответствующей программы BLAST посетите https://blast.ncbi.nlm.nih.gov/producttable.shtml.

пример

RID = blastncbi(Seq,Program) возвращает RID, ID Запроса для отчета.

пример

[RID,RTOE] = blastncbi(Seq,Program) возвращает оба RID, ID Запроса для отчета BLAST NCBI и RTOE, Время Запроса Выполнения, которое является предполагаемым временем, необходимым для поиска, чтобы закончиться.

пример

___ = blastncbi(___,Name,Value) дополнительные опции использования, заданные одним или несколькими аргументами пары "имя-значение" и любым из аргументов в предыдущих синтаксисах.

Примеры

свернуть все

Выполните поиск BLAST на последовательности белка и сохраните результаты в XML-файл.

Получите последовательность от Банка данных Белка и создайте структуру MATLAB.

S = getpdb('1CIV');

Используйте структуру в качестве входа для поиска BLAST с порогом значения 1e-10. Первый выход является ID запроса, и второй выход является предполагаемым временем (в минутах), пока поиск не завершается.

[RID1,ROTE] = blastncbi(S,'blastp','expect',1e-10);

Получите результаты поиска из отчета. Можно сохранить XML-отформатированный отчет в файл для оффлайнового доступа. Используйте ROTE в качестве времени ожидания, чтобы получить результаты.

report1 = getblast(RID1,'WaitTime',ROTE,'ToFile','1CIV_report.xml')
Blast results are not available yet. Please wait ...

report1 = 

  struct with fields:

                RID: 'R49TJMCF014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Используйте blastread чтобы считать Показатель взрываемости из XML-отформатированного BLAST сообщают о файле.

blastdata = blastread('1CIV_report.xml')
blastdata = 

  struct with fields:

                RID: ''
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'Query_224139'
    QueryDefinition: 'unnamed protein product'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

В качестве альтернативы запустите поиск BLAST с инвентарным номером NCBI.

RID2 = blastncbi('AAA59174','blastp','expect',1e-10)
RID2 =

    'R49WAPMH014'

Получите результаты поиска из отчета.

report2 = getblast(RID2)
Blast results are not available yet. Please wait ...

report2 = 

  struct with fields:

                RID: 'R49WAPMH014'
          Algorithm: 'BLASTP 2.6.1+'
           Database: 'nr'
            QueryID: 'AAA59174.1'
    QueryDefinition: 'insulin receptor precursor [Homo sapiens]'
               Hits: [1×100 struct]
         Parameters: [1×1 struct]
         Statistics: [1×1 struct]

Входные параметры

свернуть все

Нуклеотид или последовательность аминокислот в виде вектора символов, строки или структуры MATLAB, содержащей Sequence поле .

Если Seq вектор символов или строка, доступные параметры:

  • GenBank®, GenPept или инвентарный номер RefSeq

  • Имя файла FASTA

  • URL, указывающий на файл последовательности

Программа BLAST в виде одного из следующего:

  • 'blastn' — Поисковый запрос нуклеотида по сравнению с базой данных нуклеотида.

  • 'blastp' — Поисковый запрос белка по сравнению с базой данных белка.

  • 'blastx' — Поиск (перевел) запрос нуклеотида по сравнению с базой данных белка.

  • 'megablast' — Ищите очень подобные последовательности нуклеотида.

  • 'tblastn' — Поисковый запрос белка по сравнению с переведенной базой данных нуклеотида.

  • 'tblastx' — Поиск (перевел) запрос нуклеотида по сравнению с (переведенной) базой данных нуклеотида.

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Matrix','PAM70','Expect',1e-10 использует PAM70 матрица замены с порогом значения для набора соответствий к 1e-10.

База данных, чтобы искать в виде разделенной запятой пары, состоящей из 'Database' и вектор символов или строка.

Для баз данных нуклеотида допустимый выбор:

  • 'nr' (значение по умолчанию)

  • 'refseq_rna'

  • 'refseq_genomic'

  • 'est'

  • 'est_human'

  • 'est_mouse'

  • 'est_others'

  • 'gss'

  • 'htgs'

  • 'pat'

  • 'pdb'

  • 'alu'

  • 'dbsts'

  • 'chromosome'

Для баз данных белка допустимый выбор:

  • 'nr' (значение по умолчанию)

  • 'refseq_protein'

  • 'swissprot'

  • 'pat'

  • 'pdb'

  • 'env_nr'

Примечание

Доступные базы данных могут измениться. Проверяйте веб-сайт NCBI для получения дополнительной информации.

Для справки в выборе соответствующей базы данных, посещения

.

Максимальное количество хитов, чтобы возвратиться в виде разделенной запятой пары, состоящей из 'MaxNumberSequences' и положительное целое число. Фактические результаты поиска могут иметь меньше хитов, чем, что вы задаете, в зависимости от запроса, базы данных, значения ожидания и других параметров. Значением по умолчанию является 100.

Фильтр применился к последовательности запроса в виде разделенной запятой пары, состоящей из 'Filter' и одно из следующего:

  • 'L' — Области маски низкой композиционной сложности.

  • 'R' — Человек маски повторяет элементы (допустимый для blastn и megablast только).

  • 'm' — Замаскируйте запрос при создании seed уничтожения, но не во время расширения.

  • 'none' — Никакая маска не применяется.

  • 'l' — Маскируют любая буква, которая является нижним регистром в запросе.

Можно задать несколько допустимых букв в односимвольном векторе или представить в виде строки, чтобы применить несколько фильтров целиком. Например, 'Lm' применяет и низкий композиционный фильтр сложности и маску.

Выбор варьируется в зависимости от выбранного Program. Для получения дополнительной информации см. таблицу Choices for Optional Properties Программой BLAST.

Статистический порог значения для соответствий против последовательностей базы данных в виде разделенной запятой пары, состоящей из 'Expect' и положительное вещественное число. Значением по умолчанию является 10.

Можно узнать больше о статистике локального сравнения последовательности в https://blast.ncbi.nlm.nih.gov/tutorial/Altschul-1.html#head2.

Размер слова для последовательности запроса в виде разделенной запятой пары, состоящей из 'Word' и положительное целое число.

Выбор для поиска запроса белка:

  • 2

  • 3 (значение по умолчанию)

Выбор для поиска запроса нуклеотида:

  • 7

  • 11 (значение по умолчанию)

  • 15

Выбор, когда Program установлен в 'megablast' :

  • 16

  • 20

  • 24

  • 28 (значение по умолчанию)

  • 32

  • 48

  • 64

  • 128

Матрица замены для последовательностей аминокислот в виде разделенной запятой пары, состоящей из 'Matrix' и вектор символов или строка. Матрица присваивает счет к возможному выравниванию любых двух остатков аминокислоты. Выбор:

  • 'PAM30'

  • 'PAM70'

  • 'BLOSUM45'

  • 'BLOSUM62' (значение по умолчанию)

  • 'BLOSUM80'

Соответствие и несоответствие баллам в выравнивании нуклеотида в виде разделенной запятой пары, состоящей из 'MatchScores' и двухэлементный числовой векторный [R Q]. Первый элемент R счет соответствия и второй элемент Q счет несоответствия. Эта опция для blastn и megablast только.

Чтобы гарантировать точную оценку значения выравнивания, только ограниченный набор комбинаций поддерживается. См. таблицу BLAST Optional Properties для всех поддерживаемых значений. Значение по умолчанию для megablast [1 -2], и значение по умолчанию для blastn [1 -3].

Штрафы за открытие и расширение разрыва в виде разделенной запятой пары, состоящей из 'GapCosts' и двухэлементный числовой вектор. Вектор содержит два целых числа: первым является штраф за открытие разрыва, и вторым является штраф за расширение разрыва.

Допустимый разрыв стоит за blastp, blastx, tblastn, и tblastx варьируйтесь согласно матрице замены белка. Для получения дополнительной информации смотрите GapCosts для blastp, blastx, tblastn, и tblastx.

Допустимый разрыв стоит за blastn и megablast варьируйтесь согласно MatchScores ([R Q]). Для получения дополнительной информации смотрите GapCosts для blastn и мегауничтожения.

Композиционный тип корректировки, чтобы компенсировать составы аминокислоты последовательностей, сравниваемых в виде разделенной запятой пары, состоящей из 'CompositionAdjustment' и одно из следующих значений:

  • 'none'— Никакая корректировка не применяется (значение по умолчанию).

  • 'cbs'— Основанный на составе подход статистики используется для корректировок счета.

  • 'ccsm'— Условная композиционная матрица счета используется для корректировок счета.

  • 'ucsm'— Универсальная композиционная матрица счета используется для корректировок счета.

Эта опция для blastp, blastx, и tblastn только. Получившиеся масштабированные баллы дают к более точным электронным значениям, чем стандартные, немасштабированные баллы. Для получения дополнительной информации смотрите Композиционные корректировки.

Entrez запрашивают синтаксис, чтобы искать подмножество выбранной базы данных в виде разделенной запятой пары, состоящей из 'Entrez' и вектор символов или строка. Используйте эту опцию, чтобы ограничить поисковые запросы на основе типов молекулы, длин последовательности, организмов, и так далее. Для получения дополнительной информации об ограничении поисковых запросов см. https://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml#entrez_query.

Расширенные настройки в виде разделенной запятой пары, состоящей из 'Adv' и вектор символов или строка. Например, чтобы задать значения вознаграждения и штрафа для соответствий нуклеотида и несоответствий, используйте '-r 1 -q -3'. Для получения дополнительной информации см. https://www.ncbi.nlm.nih.gov/blast/Doc/urlapi.html.

Тайм-аут связи (в секундах), чтобы представить BLAST запрашивает в виде положительной скалярной величины. Для получения дополнительной информации смотрите здесь.

Типы данных: double

Выходные аргументы

свернуть все

Запросите ID для отчета BLAST NCBI, возвращенного как вектор символов.

Запросите время выполнения, возвращенного как целое число. Это - предполагаемое время в минутах, пока поиск не завершается.

Совет

Если вы используете getblast функция, чтобы получить отчет BLAST, используйте эту временную оценку в качестве 'WaitTime' опция.

Больше о

свернуть все

BLAST дополнительные свойства

Выбор для дополнительных свойств программой BLAST

Когда программа BLAST...Затем выбор для следующих опций...
База данныхФильтрWordМатрицаMatchScores [R Q]GapCosts
'blastn''nr' (значение по умолчанию)
'refseq_rna'
'refseq_genomic''est'
'est_human'
'est_mouse'
'est_others'
'gss'
'htgs'
'pat'
'pdb'
'alu'
'dbsts'
'chromosome'
'Lm' (значение по умолчанию)
'R'
'm'
'l'
'none'
7
11 (значение по умолчанию)
15
[1 -3] (значение по умолчанию)
[1 -4]
[1 -2]
[1 -1]
[2 -3]
[4 -5]
Смотрите GapCosts для blastn и мегауничтожения.
'megablast'16
20
24
28 (значение по умолчанию)
32
48
64
128
[1 -3]
[1 -4]
[1 -2] (значение по умолчанию)
[1 -1]
[2 -3]
[4 -5]
'tblastn''L' (значение по умолчанию)
'm'
'l'
'none'
2
3 (значение по умолчанию)
'PAM30'
'PAM70'
'BLOSUM45'
'BLOSUM62' (значение по умолчанию)
'BLOSUM80'
Смотрите GapCosts для blastp, blastx, tblastn, и tblastx.
'tblastx'
'blastp''nr' (значение по умолчанию)
'refseq_protein'
'swissprot'
'pat'
'pdb'
'env_nr'
'L'
'm'
'l'
'none' (значение по умолчанию)
'blastx''L' (значение по умолчанию)
'm'
'l'
'none'

GapCosts для blastp, blastx, tblastn, и tblastx

Матрица заменыДопустимый 'GapCosts' Значения
'PAM30'[7 2]
[6 2]
[5 2]
[10 1]
[9 1] (значение по умолчанию)
[8 1]
'PAM70'[8 2]
[7 2]
[6 2]
[11 1]
[10 1] (значение по умолчанию)
[9 1]
'BLOSUM80'
'BLOSUM45'[13 3]
[12 3]
[11 3]
[10 3]
[15 2] (значение по умолчанию)
[14 2]
[13 2]
[12 2]
[19 1]
[18 1]
[17 1]
[16 1]
'BLOSUM62'[9 2]
[8 2]
[7 2]
[12 1]
[11 1] (значение по умолчанию)
[10 1]

GapCosts для blastn и megablast

MatchScores [R Q]Допустимый 'GapCosts' Значения
[1 -4][5 2] (значение по умолчанию)
[1 2]
[0 2]
[2 1]
[1 1]
[1 -3][5 2](значение по умолчанию)
[2 2]
[1 2]
[0 2]
[2 1]
[1 1]
[1 -2][5 2](значение по умолчанию)
[2 2]
[1 2]
[0 2]
[3 1]
[2 1]
[1 1]
[1 -1][5 2](значение по умолчанию)
[3 2]
[2 2]
[1 2]
[0 2]
[4 1]
[3 1]
[2 1]
[2 -3][5 2](значение по умолчанию)
[4 4]
[2 4]
[0 4]
[3 3]
[6 2]
[4 2]
[2 2]
[4 -5][5 2](значение по умолчанию)
[6 5]
[5 5]
[4 5]
[3 5]

Вопросы совместимости

развернуть все

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ошибки, запускающиеся в R2017b

Ссылки

[1] Altschul, S.F., В. Джиш, В. Миллер, Э.В. Майерс и Д.Дж. Липмен (1990). "Основное локальное средство поиска выравнивания". J. Молекулярная масса Biol. 215, 403–410.

[2] Altschul, S.F., Т.Л. Мэдден, А.А. Шеффер, Цз. Чжан, Цз. Чжан, В. Миллер и Д. Дж. Липмен (1997). "Содержащий разрывы BLAST и PSI-BLAST: новое поколение базы данных белка ищет программы". Нуклеиновые кислоты Res. 25, 3389–3402.

Смотрите также

|

Внешние веб-сайты

Представлено до R2006a