Сопоставьте чтения последовательности со ссылочным геномом с помощью BWA
bwamem(
сопоставляет чтения секвенирования от indexBaseName
,reads1
,reads2
,outputFileName
)reads1
и reads2
против ссылочной последовательности и записей результаты к выходному файлу outputFileName
. Вход indexBaseName
представляет базовое имя (префикс) файлов справочного указателя [1][2].
bwamem
требует Пакета Поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.
Примечание
bwamem
поддерживается на Mac и платформах UNIX® только.
bwamem(___,
использует дополнительные опции, заданные options
)options
. Задайте эти опции после всех других входных параметров.
bwamem(___,
дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, Name,Value
)'BandWidth',90
устанавливает максимальную допустимую длину разрыва на 90.
Этот пример требует Пакета Поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, программное обеспечение обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.
Создайте набор индексных файлов для генома Дрозофилы. Этот пример использует ссылочную последовательность Dmel_chr4.fa
, предоставленный тулбокс. 'Prefix'
аргумент позволяет вам задать префикс выходных индексных файлов. Можно также включать информацию о пути к файлу. В данном примере задайте префикс как Dmel_chr4
и сохраните индексные файлы в текущем каталоге.
bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');
Как альтернатива определению аргументов пары "имя-значение", можно использовать BWAIndexOptions
объект задать опции индексации.
indexOpt = BWAIndexOptions; indexOpt.Prefix = './Dmel_chr4'; indexOpt.Algorithm = 'bwtsw'; bwaindex('Dmel_chr4.fa',indexOpt);
Если индексные файлы готовы, сопоставляют последовательности чтения со ссылкой с помощью bwamem
. Два парных конца читали, входным файлам уже предоставляют тулбокс. Используя аргументы пары "имя-значение", можно задать различные опции выравнивания, такие как количество параллельных потоков, чтобы использовать.
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);
В качестве альтернативы можно использовать BWAMEMoptions
задавать опции выравнивания.
alignOpt = BWAMEMOptions; alignOpt.NumThreads = 4; bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)
indexBaseName
— Базовое имя файлов справочного указателяБазовое имя (префикс) файлов справочного указателя в виде вектора символов или строки. Например, базовое имя индексного файла 'Dmel_chr4.bwt'
'Dmel_chr4'
.
Индексные файлы находятся в AMB, ЭНН, BWT, PAC и форматах файлов SA.
Пример: 'Dmel_chr4'
Типы данных: char |
string
reads1
— Имя файла с первыми чтениями помощника или чтениями одно концаИмя файла с первыми чтениями помощника или одно концом читает в виде вектора символов или строки.
Для данных парного конца, последовательностей в reads1
должен соответствовать чтение для чтения последовательностям в reads2
.
Пример: 'SRR6008575_10k_1.fq'
Типы данных: char |
string
reads2
— Имя файла со вторыми чтениями помощника[]
Имя файла со вторым помощником читает в виде вектора символов или строки.
Задайте reads2
как пустой ([]
, ''
, или ""
) если данные состоят из чтений одно конца только.
Пример: 'SRR6008575_10k_2.fq'
Типы данных: char |
string
outputFileName
— Имя выходного файлаИмя выходного файла в виде вектора символов или строки. Этот файл содержит результаты отображения.
Пример: 'SRR6008575_10k_chr4.sam'
Типы данных: char |
string
options
— Дополнительные опции для отображенияBWAMEMOptions
возразите | вектор символов | строкаДополнительные опции для отображения в виде BWAMEMOptions
объект, вектор символов или строка. Вектор символов или строка должны быть в bwa mem
нативный синтаксис (снабженный префиксом тире). Если вы задаете BWAMEMOptions
объект, программное обеспечение использует только те свойства, которые установлены или изменены.
Типы данных: char |
string
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90)
наборы 90 как максимальный допустимый разрыв.'AlternativeHitsThreshold'
— Порог для определения, какие хиты получают тег XA в файле выхода SAM
(значение по умолчанию) | неотрицательное целое число | двухэлементный числовой векторПорог для определения, какие хиты получают тег XA в файле выхода SAM в виде неотрицательного целочисленного n или двухэлементного числового векторного [n m]
, где n и m должны быть неотрицательными целыми числами.
Если чтение имеет меньше, чем хиты n со счетом, больше, чем 80% лучшего счета к тому чтению, все хиты получают тег XA в файле выхода SAM.
Когда вы также задаете m, программное обеспечение возвращается до хитов m, если список совпадений содержит хит к контигу ALT.
Типы данных: double
'AppendReadCommentsToSAM'
— Отметьте, чтобы добавить FASTA или комментарии FASTQ к файлу выхода SAMfalse
(значение по умолчанию) | true
Отметьте, чтобы добавить FASTA или комментарии FASTQ к файлу выхода SAM в виде true
или false
. Комментарии появляются как текст после пробела в заголовке файла.
Типы данных: логический
'BandWidth'
— Максимальная допустимая длина разрыва
(значение по умолчанию) | неотрицательное целое числоМаксимальная допустимая длина разрыва в виде неотрицательного целого числа.
Типы данных: double
'BasesPerBatch'
— Количество базисов на пакет[]
(значение по умолчанию) | положительное целое числоКоличество базисов на пакет в виде положительного целого числа.
Если вы не задаете BasesPerBatch
, программное обеспечение использует 1e7 * NumThreads
по умолчанию. NumThreads
количество параллельных потоков, доступных, когда вы запускаетесь bwamem
.
Если вы задаете BasesPerBatch
, использование программного обеспечения, что точный номер и не умножает номер на NumThreads
. Это правило применяется независимо от того, устанавливаете ли вы явным образом NumThreads
или нет.
Однако, если вы задаете NumThreads
но не BasesPerBatch
, программное обеспечение использует 1e7 * NumThreads
.
Пакетный размер пропорционален количеству параллельных потоков в использовании. Используя различные количества потоков может произвести различные выходные параметры. Определение этой опции помогает с воспроизводимостью результатов.
Типы данных: double
'ClipPenalty'
— Штраф за отсеченные выравнивания
(значение по умолчанию) | неотрицательное целое число | двухэлементный числовой векторШтраф за отсеченные выравнивания в виде неотрицательного целого числа или двухэлементного числового вектора. Каждое чтение имеет лучший счет к выравниванию, которое охватывает продолжительность чтения. Программное обеспечение не отсекает выравнивания, которые не охватывают продолжительность чтения и не выигрывают выше, чем сумма ClipPenalty
и лучший счет чтения во всю длину.
Задайте неотрицательное целое число, чтобы установить тот же штраф за оба 5'
и 3'
усечение.
Задайте двухэлементный числовой вектор, чтобы установить различные штрафы за 5'
и 3'
усечение.
Типы данных: double
'DropChainFraction'
— Порог для отбрасывания цепей относительно самой длинной перекрывающейся цепи
(значение по умолчанию) | скаляр между 0
и 1
Порог для отбрасывания цепей относительно самой длинной перекрывающейся цепи в виде скаляра между 0
и 1
.
Программное обеспечение уронило цепи, которые короче, чем DropChainFraction * (longest overlapping chain length)
.
Типы данных: double
'DropChainLength'
— Минимальное количество базисов
(значение по умолчанию) | неотрицательное целое числоМинимальное количество базисов в seed, формирующих цепь в виде неотрицательного целого числа. Программное обеспечение уронило цепи короче, чем DropChainLength
.
Типы данных: double
'ExtraCommand'
— Дополнительные команды""
(значение по умолчанию) | вектор символов | строкаДополнительные команды в виде вектора символов или строки.
Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующих свойств MATLAB®.
Пример: 'ExtraCommand','-y'
Типы данных: char |
string
'FastaHeaderToXR'
— Отметьте, чтобы включать заголовок FASTA в тег XRfalse
(значение по умолчанию) | true
Отметьте, чтобы включать заголовок FASTA в тег XR в виде true
или false
.
Типы данных: логический
'GapExtensionPenalty'
— Разорвите дополнительный штраф
(значение по умолчанию) | неотрицательное целое число | двухэлементный числовой векторРазорвите дополнительный штраф в виде неотрицательного целого числа или двухэлементного числового векторного [n m]
. n является штрафом за расширение удаления. m является штрафом за расширение вставки.
Если вы задаете неотрицательное целое число, программное обеспечение использует его в качестве штрафа за расширение удаления или вставки.
Типы данных: double
'GapOpenPenalty'
— Разорвите вводный штраф
(значение по умолчанию) | неотрицательное целое число | двухэлементный числовой векторРазорвите вводный штраф в виде неотрицательного целого числа или двухэлементного числового векторного [n m]
. n является штрафом за открытие удаления. m является штрафом за открытие вставки.
Если вы задаете неотрицательное целое число, программное обеспечение использует его в качестве штрафа за открытие удаления или вставки.
Типы данных: double
'HeaderInsert'
— Текст, чтобы вставить в заголовок файла выхода SAM[0x0 string]
(значение по умолчанию) | вектор символов | строкаТекст, чтобы вставить в заголовок файла выхода SAM в виде вектора символов или строки.
Используйте одно из следующего:
Вектор символов или строка, которая запускается с @
вставить точный текст в заголовок SAM
Вектор символов или строка, которая является именем файла, где каждая линия в файле должна запуститься с @
Типы данных: char |
string
'IncludeAll'
— Отметьте, чтобы применить все доступные параметрыfalse
(значение по умолчанию) | true
Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис в виде true
или false
.
Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true
, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.
Примечание
Если вы устанавливаете IncludeAll
к true
, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaN
Inf
, []
, ''
, или ""
, затем программное обеспечение не переводит соответствующее свойство.
Типы данных: логический
'InsertSizeStatistics'
— Вставьте параметры распределения размера[1x0 double]
(значение по умолчанию) | четырехэлементный числовой массивВставьте параметры распределения размера в виде четырехэлементного числового массива [mean std max min]
.
mean является средним размером вставки.
std является стандартным отклонением.
max является максимальным размером вставки.
min является минимальным размером вставки.
Если вы задаете массив элементов n, где n меньше четыре, элементы задают первые параметры распределения n. По умолчанию программное обеспечение выводит незаданные параметры из данных.
Типы данных: double
'MarkShortSplitsSecond'
— Отметьте, чтобы отметить короче хиты разделения как вторичныеfalse
(значение по умолчанию) | true
Отметьте, чтобы отметить короче хиты разделения как вторичные во флаге SAM в виде true
или false
.
Типы данных: логический
'MarkSmallestCoordinatePrimary'
— Отметьте, чтобы отметить сегмент самыми маленькими координатами как первичныйfalse
(значение по умолчанию) | true
Отметьте, чтобы отметить сегмент самыми маленькими координатами как первичный, когда выравнивание будет разделено в виде true
или false
.
Типы данных: логический
'MatchScore'
— Выиграйте за соответствие последовательности
(значение по умолчанию) | неотрицательное целое числоВыиграйте за соответствие последовательности в виде неотрицательного целого числа.
Типы данных: double
'MaxMemOccurrence'
— Максимальное количество случаев MEM
(значение по умолчанию) | положительное целое числоМаксимальное количество MEM (максимальное точное совпадение) случаи для каждого чтения, прежде чем это будет отброшено в виде положительного целого числа.
Типы данных: double
'MaxRoundsMateRescue'
— Максимальное количество раундов спасения помощника
(значение по умолчанию) | неотрицательное целое числоМаксимальное количество раундов помощника спасает для каждого чтения в виде неотрицательного целого числа. Программное обеспечение использует алгоритм Смита-лодочника (SW) для спасения помощника.
Типы данных: double
'MinSeedLength'
— Минимальная длина seed
(значение по умолчанию) | положительное целое числоМинимальная длина seed в виде положительного целого числа. Программное обеспечение отбрасывает любые соответствия короче, чем минимальная длина seed.
Типы данных: double
'MismatchPenalty'
— Штраф за несоответствие выравнивания
(значение по умолчанию) | неотрицательное целое числоШтраф за выравнивание не сочетается в виде неотрицательного целого числа.
Типы данных: double
'NumThreads'
— Количество параллельных потоков
(значение по умолчанию) | положительное целое числоКоличество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.
Типы данных: double
'OutputAllAlignments'
— Отметьте, чтобы возвратить все найденные выравниванияfalse
(значение по умолчанию) | true
Отметьте, чтобы возвратить все найденные выравнивания включая непарный и чтения парного конца в виде true
или false
. Если значением является true
, программное обеспечение возвращает все найденные выравнивания и отмечает их как вторичные выравнивания.
Типы данных: логический
'OutputScoreThreshold'
— Выиграйте порог за возврат выравниваний
(значение по умолчанию) | положительное целое числоВыиграйте порог за возврат выравниваний в виде положительного целого числа. Задайте минимальный счет, что выравниваниям, должно быть, придется быть в выходном файле.
Типы данных: double
'ReadGroupLine'
— Текст, чтобы вставить в заголовок группы чтения[0x0 string]
(значение по умолчанию) | вектор символов | строкаТекст, чтобы вставить в линию заголовка группы чтения (RG) в выходной файл в виде вектора символов или строки.
Типы данных: char |
string
'ReadType'
— Тип чтений, чтобы выровняться[0x0 string]
(значение по умолчанию) | 'pacbio
| 'ont2d
| 'intractg'
Тип чтений, чтобы выровняться в виде вектора символов или строки. Каждый тип чтения имеет различные значения параметров по умолчанию, чтобы использовать во время выравнивания. Можно перезаписать любые параметры. Допустимые опции:
'pacbio'
— Чтения PacBio
'ont2d'
— Оксфордская нанопора 2D чтения
'intractg'
— Контиги внутриразновидностей
Значения параметров следующие.
|
Эквивалентным нативным синтаксисом является |
|
Эквивалентным нативным синтаксисом является |
|
Эквивалентным нативным синтаксисом является |
Типы данных: char |
string
'ReduceSupplementaryMAPQ'
— Отметьте, чтобы уменьшать качество отображения (MAPQ) счет дополнительных выравниванийtrue
(значение по умолчанию) | false
Отметьте, чтобы уменьшать качество отображения (MAPQ) счет дополнительных выравниваний в виде true
или false
.
Типы данных: логический
'SeedSplitRatio'
— Порог для пересева
(значение по умолчанию) | неотрицательное целое числоПорог для пересева в виде неотрицательного целого числа. Задайте длину seed, в которой пересев происходит относительно минимальной длины seed MinSeedLength
. А именно, если MEM (максимальное точное совпадение) более длинен, чем MinSeedLength * SeedSplitRatio
, пересев происходит.
Типы данных: double
'SkipMateRescue'
— Отметьте, чтобы пропустить спасение помощникаfalse
(значение по умолчанию) | true
Отметьте, чтобы пропустить спасение помощника в виде true
или false
. Спасение помощника использует алгоритм Смита-лодочника (SW), чтобы выровнять несопоставленные чтения с помощниками, которые правильно выравниваются.
Типы данных: логический
'SkipPairing'
— Отметьте, чтобы пропустить соединение чтенияfalse
(значение по умолчанию) | true
Отметьте, чтобы пропустить чтение, соединяющееся в виде true
или false
. Если true
, для чтений парного конца программное обеспечение использует алгоритм Смита-лодочника (SW), чтобы спасти недостающие хиты только и не пытается найти хиты, которые соответствуют соответствующей паре.
Типы данных: логический
'SmartPairing'
— Отметьте, чтобы выполнить умное соединениеfalse
(значение по умолчанию) | true
Отметьте, чтобы выполнить умное соединение в виде true
или false
. Если значением является true
, смежные чтения пар программного обеспечения, которые находятся в том же файле и имеют то же имя. Такие файлы FASTQ также известны как чередованные файлы.
Типы данных: логический
'SoftClipSupplementary'
— Отметьте к мягкому клипу дополнительные выравниванияfalse
(значение по умолчанию) | true
Отметьте к мягкому клипу дополнительные выравнивания в виде true
или false
. Если значением является true
, программное обеспечение мягкие клипы и дополнительные выравнивания и первичное выравнивание.
Значением по умолчанию является false
, что означает что программное обеспечение мягкие клипы первичное выравнивание и твердые клипы дополнительные выравнивания.
Типы данных: логический
'TreatAltAsPrimary'
— Отметьте, чтобы обработать контиги ALT как часть первичного блокаfalse
(значение по умолчанию) | true
Отметьте, чтобы обработать контиги ALT как часть первичного блока в виде true
или false
.
Типы данных: логический
'UnpairedReadPenalty'
— Штраф за отображение пар чтения как непарные
(значение по умолчанию) | неотрицательное целое числоШтраф за отображение пар чтения как непарные в виде неотрицательного целого числа.
Счетом выравнивания к парной паре чтения является
. Счетом выравнивания к непарной паре чтения является read1
выиграйте + read2
счет - вставляет штраф
. Программное обеспечение сравнивает эти два баллов, чтобы обеспечить соединение чтения. Больший read1
выиграйте + read2
счет - UnpairedReadPenaltyUnpairedReadPenalty
значение приводит к более агрессивному соединению чтения.
Типы данных: double
'Verbosity'
— Уровень многословия информации распечатан
(значение по умолчанию) | неотрицательное целое числоУровень многословия информации, распечатанной к командной строке MATLAB, в то время как программное обеспечение запускается в виде неотрицательного целого числа. Допустимые опции:
0 — Для отключения всех выходных параметров к командной строке.
1 — Для сообщений ошибки печати.
2 — Для печати предупреждающих сообщений и сообщений об ошибке.
3 — Для печати всех сообщений.
4 — Для отладки целей только.
Типы данных: double
'ZDropOff'
— Сокращение для расширения Смита-лодочника
(значение по умолчанию) | неотрицательное целое числоСокращение для расширения Смита-лодочника (SW) в виде неотрицательного целого числа. Программное обеспечение использует следующее выражение:
, где i и j являются текущими положениями запроса и ссылки, соответственно. Когда различие между лучшим счетом и текущим дополнительным счетом больше, чем это значение выражения, программное обеспечение отключает расширение SW.
Типы данных: double
[1] Литий, Хэн и Ричард Дербин. “Быстрое и Точное Короткое Выравнивание Чтения с Преобразованием Нор-Wheeler”. Биоинформатика 25, № 14 (15 июля 2009): 1754–60. https://doi.org/10.1093/bioinformatics/btp324.
[2] Литий, Хэн и Ричард Дербин. “Быстрое и Точное Долго считанное Выравнивание с Преобразованием Нор-Wheeler”. Биоинформатика 26, № 5 (1 марта 2010): 589–95. https://doi.org/10.1093/bioinformatics/btp698.
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.