Создание удаленного идентификатора запроса отчета NCBI BLAST или ссылки на отчет NCBI BLAST
blastncbi( отправляет запрос BLAST в NCBI против Seq,Program)Seq, нуклеотидной или аминокислотной последовательности, используя Program, указанной программы BLAST. Затем возвращается ссылка на отчет NCBI BLAST. Для получения помощи в выборе соответствующей программы BLAST посетите https://blast.ncbi.nlm.nih.gov/producttable.shtml.
___ = blastncbi(___, использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение, и любой из аргументов в предыдущих синтаксисах.Name,Value)
Выполните BLAST-поиск по последовательности белков и сохраните результаты в XML-файле.
Получите последовательность из банка данных белка и создайте структуру MATLAB.
S = getpdb('1CIV');
Использовать структуру в качестве входных данных для поиска BLAST с порогом значимости 1e-10. Первым выводом является идентификатор запроса, а вторым выводом - предполагаемое время (в минутах) до завершения поиска.
[RID1,ROTE] = blastncbi(S,'blastp','expect',1e-10);
Получение результатов поиска из отчета. Отчет в формате XML можно сохранить в файл для автономного доступа. Используйте ROTE в качестве времени ожидания для получения результатов.
report1 = getblast(RID1,'WaitTime',ROTE,'ToFile','1CIV_report.xml')
Blast results are not available yet. Please wait ...
report1 =
struct with fields:
RID: 'R49TJMCF014'
Algorithm: 'BLASTP 2.6.1+'
Database: 'nr'
QueryID: 'Query_224139'
QueryDefinition: 'unnamed protein product'
Hits: [1×100 struct]
Parameters: [1×1 struct]
Statistics: [1×1 struct]
Использовать blastread для считывания данных BLAST из файла отчета BLAST в формате XML.
blastdata = blastread('1CIV_report.xml')
blastdata =
struct with fields:
RID: ''
Algorithm: 'BLASTP 2.6.1+'
Database: 'nr'
QueryID: 'Query_224139'
QueryDefinition: 'unnamed protein product'
Hits: [1×100 struct]
Parameters: [1×1 struct]
Statistics: [1×1 struct]
В качестве альтернативы выполните поиск BLAST с регистрационным номером NCBI.
RID2 = blastncbi('AAA59174','blastp','expect',1e-10)
RID2 =
'R49WAPMH014'
Получение результатов поиска из отчета.
report2 = getblast(RID2)
Blast results are not available yet. Please wait ...
report2 =
struct with fields:
RID: 'R49WAPMH014'
Algorithm: 'BLASTP 2.6.1+'
Database: 'nr'
QueryID: 'AAA59174.1'
QueryDefinition: 'insulin receptor precursor [Homo sapiens]'
Hits: [1×100 struct]
Parameters: [1×1 struct]
Statistics: [1×1 struct]
Seq Нуклеотидная или аминокислотная последовательностьНуклеотидная или аминокислотная последовательность, указанная как символьный вектор, строка или структура MATLAB, содержащая Sequence поле.
Если Seq - символьный вектор или строка, доступные опции:
Регистрационный номер GenBank ®, GenPept или RefSeq
Имя файла FASTA
URL-адрес, указывающий на файл последовательности
Program - программа BLASTПрограмма BLAST, заданная как одна из следующих:
'blastn' - Поиск нуклеотидного запроса по сравнению с базой данных нуклеотидов.
'blastp' - Поиск запроса белка по сравнению с базой данных белка.
'blastx' - Поиск (перевод) нуклеотидного запроса по сравнению с базой данных белков.
'megablast' - Поиск очень похожих нуклеотидных последовательностей.
'tblastn' - Поиск запроса белка по сравнению с транслированной базой данных нуклеотидов.
'tblastx' - Поиск (перевод) нуклеотидного запроса по сравнению с (переводом) нуклеотидной базой данных.
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
'Matrix','PAM70','Expect',1e-10 использует PAM70 матрица подстановки с порогом значимости для совпадений, установленным на 1e-10.'Database' - База данных для поиска'nr' (по умолчанию) | символьный вектор | строкаБаза данных для поиска, указанная как разделенная запятыми пара, состоящая из 'Database' и символьный вектор или строку.
Для нуклеотидных баз данных допустимыми являются:
'nr' (по умолчанию)
'refseq_rna'
'refseq_genomic'
'est'
'est_human'
'est_mouse'
'est_others'
'gss'
'htgs'
'pat'
'pdb'
'alu'
'dbsts'
'chromosome'
Для баз данных белков допустимы следующие варианты:
'nr' (по умолчанию)
'refseq_protein'
'swissprot'
'pat'
'pdb'
'env_nr'
Примечание
Доступные базы данных могут измениться. Дополнительные сведения см. на веб-сайте NCBI.
Для получения справки по выбору соответствующей базы данных посетите
.'MaxNumberSequences' - Максимальное количество попаданий для возвратаМаксимальное количество совпадений для возврата, указанное как пара, разделенная запятыми, состоящая из 'MaxNumberSequences' и положительное целое число. Фактические результаты поиска могут иметь меньше совпадений, чем указано, в зависимости от запроса, базы данных, ожидаемого значения и других параметров. Значение по умолчанию: 100.
'Filter' - Фильтр, примененный к последовательности запросовФильтр, примененный к последовательности запросов, указанной как разделенная запятыми пара, состоящая из 'Filter' и одно из следующих:
'L' - области маски низкой композиционной сложности.
'R' - Маскировать человеческие повторяющиеся элементы (действительны для blastn и megablast только).
'm' - Маскировать запрос при создании семян взрыва, но не во время расширения.
'none' - Маска не применяется.
'l' - маскировать любую строчную букву в запросе.
Можно указать несколько допустимых букв в одном символьном векторе или строке для одновременного применения нескольких фильтров. Например, 'Lm' применяет фильтр низкой композиционной сложности и маску.
Выбор зависит от выбранного Program. Дополнительные сведения см. в таблице Варианты дополнительных свойств по программе BLAST.
'Expect' - Порог статистической значимости для совпадений10 (по умолчанию) | положительное вещественное числоПорог статистической значимости для совпадений с последовательностями базы данных, указанный как пара, разделенная запятыми, состоящая из 'Expect' и положительное реальное число. Значение по умолчанию: 10.
Подробнее о статистике сравнения локальных последовательностей можно узнать по адресу https://blast.ncbi.nlm.nih.gov/tutorial/Altschul-1.html#head2.
'Word' - Длина слова для последовательности запросовДлина слова для последовательности запросов, указанной как разделенная запятыми пара, состоящая из 'Word' и положительное целое число.
Варианты поиска запроса белка:
2
3 (по умолчанию)
Варианты поиска нуклеотидных запросов:
7
11 (по умолчанию)
15
Выбор, когда Program имеет значение 'megablast' являются:
16
20
24
28 (по умолчанию)
32
48
64
128
'Matrix' - Замещающая матрица для аминокислотных последовательностей'BLOSUM62' (по умолчанию) | символьный вектор | строкаЗамещающая матрица для аминокислотных последовательностей, указанная как пара, разделенная запятыми, состоящая из: 'Matrix' и символьный вектор или строку. Матрица присваивает оценку для возможного выравнивания любых двух аминокислотных остатков. Возможны следующие варианты:
'PAM30'
'PAM70'
'BLOSUM45'
'BLOSUM62' (по умолчанию)
'BLOSUM80'
'MatchScores' - Совпадение и несовпадение показателей при выравнивании нуклеотидовСовпадающие и несовпадающие баллы в нуклеотидном выравнивании, указанном как пара, разделенная запятыми, состоящая из 'MatchScores' и двухэлементный числовой вектор [R Q]. Первый элемент R - счет матча, а второй элемент Q - показатель несоответствия. Эта опция предназначена для blastn и megablast только.
Для обеспечения точной оценки значимости выравнивания поддерживается только ограниченный набор комбинаций. Все поддерживаемые значения см. в таблице «Дополнительные свойства BLAST». Значение по умолчанию для megablast является [1 -2]и значение по умолчанию для blastn является [1 -3].
'GapCosts' - Штрафы за открытие и расширение разрываШтрафы за открытие и расширение промежутка, указанного как пара, разделенная запятыми, состоящая из 'GapCosts' и двухэлементный числовой вектор. Вектор содержит два целых числа: первое - штраф за открытие промежутка, а второе - штраф за продление промежутка.
Допустимые затраты на разрыв для blastp, blastx, tblastn, и tblastx варьируют в соответствии с матрицей замещения белка. Для получения более подробной информации см. GapCosts для blastp, blastx, tblastn и tblastx.
Допустимые затраты на разрыв для blastn и megablast варьируются в соответствии с MatchScores ([R Q]). Для получения подробной информации см. GapCost для blastn и megablast.
'CompositionAdjustment' - Тип корректировки состава для компенсации аминокислотных композиций'none' (по умолчанию) | 'cbs' | 'ccsm' | 'ucsm'Тип корректировки состава для компенсации аминокислотных композиций сравниваемых последовательностей, указанный как пара, разделенная запятыми, состоящая из: 'CompositionAdjustment' и одно из следующих значений:
'none'- Корректировка не применяется (по умолчанию).
'cbs'- Для корректировки баллов используется основанный на составе подход к статистике.
'ccsm'- Условная матрица оценки состава используется для корректировки оценки.
'ucsm'- Универсальная матрица оценки состава используется для корректировки оценки.
Эта опция предназначена для blastp, blastx, и tblastn только. Полученные масштабированные оценки дают более точные значения E, чем стандартные немасштабированные оценки. Дополнительные сведения см. в разделе Корректировки состава.
'Entrez' - синтаксис запроса для поиска подмножества выбранной базы данныхВведите синтаксис запроса для поиска подмножества выбранной базы данных, указанной как разделенная запятыми пара, состоящая из 'Entrez' и символьный вектор или строку. Эта опция используется для ограничения поиска на основе типов молекул, длин последовательностей, организмов и т.д. Дополнительные сведения об ограничении поиска см. в разделе https://blast.ncbi.nlm.nih.gov/blastcgihelp.shtml#entrez_query.
'Adv' - Дополнительные параметрыДополнительные параметры, указанные как пара, разделенная запятыми, состоящая из 'Adv' и символьный вектор или строку. Например, чтобы указать значение вознаграждения и штрафа за совпадения нуклеотидов и несоответствия, используйте '-r 1 -q -3'. Дополнительные сведения см. в разделе https://www.ncbi.nlm.nih.gov/blast/Doc/urlapi.html.
'TimeOut' - Тайм-аут подключенияТайм-аут соединения (в секундах) для отправки запроса BLAST, указанного как положительный скаляр. Подробнее см. здесь.
Типы данных: double
RID - Идентификатор запроса для отчета NCBI BLASTИдентификатор запроса для отчета NCBI BLAST, возвращаемого в виде символьного вектора.
RTOE - Время выполнения запросаВремя выполнения запроса, возвращаемое как целое число. Это предполагаемое время в минутах до завершения поиска.
Совет
Если вы используете getblast для извлечения отчета BLAST используйте эту временную оценку в качестве 'WaitTime' вариант.
Выбор дополнительных свойств программой BLAST
| Когда программа BLAST... | Тогда варианты для следующих опций... | |||||
|---|---|---|---|---|---|---|
| База данных | Фильтр | Word | Матрица | MatchScores [R Q] | GapCosts | |
'blastn' | 'nr' (по умолчанию)'refseq_rna''refseq_genomic''est''est_human''est_mouse''est_others''gss''htgs''pat''pdb''alu''dbsts''chromosome' | 'Lm' (по умолчанию)'R''m''l''none' | 711 (по умолчанию)15 | — | [1 -3] (по умолчанию)[1 -4][1 -2][1 -1][2 -3][4 -5] | См. раздел GapCost для blastn и megablast. |
'megablast' | 16202428 (по умолчанию)324864128 | [1 -3]
[1 -4][1 -2] (по умолчанию)[1 -1][2 -3][4 -5] | ||||
'tblastn' | 'L' (по умолчанию)'m''l''none' | 23 (по умолчанию) | 'PAM30''PAM70''BLOSUM45''BLOSUM62' (по умолчанию)'BLOSUM80'
| – | См. раздел GapCosts для blastp, blastx, tblastn и tblastx. | |
'tblastx' | ||||||
'blastp' | 'nr' (по умолчанию)'refseq_protein''swissprot''pat''pdb''env_nr' | 'L'
'm''l''none' (по умолчанию) | ||||
'blastx' | 'L' (по умолчанию)'m''l''none' | |||||
Затраты на разрыв для blastp, blastx, tblastn, и tblastx
| Матрица подстановки | Действительный 'GapCosts' Ценности |
|---|---|
'PAM30' | [7 2][6 2][5 2][10 1][9 1] (по умолчанию)[8 1] |
'PAM70' | [8 2][7 2][6 2][11 1][10 1] (по умолчанию)[9 1] |
'BLOSUM80' | |
'BLOSUM45' | [13 3][12 3][11 3][10 3][15 2] (по умолчанию)[14 2][13 2][12 2][19 1][18 1][17 1][16 1] |
'BLOSUM62' | [9 2][8 2][7 2][12 1][11 1] (по умолчанию)[10 1] |
Затраты на разрыв для blastn и megablast
| Показатели соответствия [R Q] | Действительный 'GapCosts' Ценности |
|---|---|
[1 -4] | [5 2] (по умолчанию) [1 2][0 2][2 1][1 1] |
[1 -3] | [5 2](по умолчанию)[2 2][1 2][0 2][2 1][1 1] |
[1 -2] | [5 2](по умолчанию)[2 2][1 2][0 2][3 1][2 1][1 1] |
[1 -1] | [5 2](по умолчанию)[3 2][2 2][1 2][0 2][4 1][3 1][2 1] |
[2 -3] | [5 2](по умолчанию)[4 4][2 4][0 4][3 3][6 2][4 2][2 2] |
[4 -5] | [5 2](по умолчанию)[6 5][5 5][4 5][3 5] |
'psiblast' Программа BLAST удаленаОшибки, начинающиеся с R2017b
Программа BLAST 'psiblast' был удален из одной из поддерживаемых программ.
'Inclusion' параметр был удаленОшибки, начинающиеся с R2017b
'Inclusion' пара «имя-значение» была удалена, поскольку она применяется только к psiblast программа, которая также была удалена.
'Descriptions' параметр был удаленОшибки, начинающиеся с R2017b
'Descriptions' пара имя-значение удалена. Использовать 'MaxNumberSequences' вместо этого необходимо указать максимальное количество возвращаемых совпадений.
'Alignments' параметр был удаленОшибки, начинающиеся с R2017b
'Alignments' пара имя-значение удалена. Использовать 'MaxNumberSequences' вместо этого необходимо указать максимальное количество возвращаемых совпадений.
'GapOpen' параметр был удаленОшибки, начинающиеся с R2017b
'GapOpen' пара имя-значение удалена. Использовать 'GapCosts' вместо этого.
'ExtendGap' параметр был удаленОшибки, начинающиеся с R2017b
'ExtendGap' пара имя-значение удалена. Использовать 'GapCosts' вместо этого.
'Pct' параметр был удаленОшибки, начинающиеся с R2017b
'Pct' пара имя-значение удалена.
[1] Альтшул, С.Ф., У. Гиш, У. Миллер, Э. У. Майерс и Д. Дж. Липман (1990). «Основной инструмент поиска локальной трассы». Дж. Мол. Биоль. 215, 403-410.
[2] Альтшул, С.Ф., Т.Л. Мадден, А.А. Шяффер, Дж. Чжан, З. Чжан, У. Миллер и Д. Дж. Липман (1997). «Разрывные BLAST и PSI-BLAST: новое поколение программ поиска баз данных белков». Нуклеиновые кислоты Res. 25, 3389-3402.
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.