Последовательность Map читается для ссылки на геном с помощью BWA
bwamem(
отображает показания секвенирования из indexBaseName
,reads1
,reads2
,outputFileName
)reads1
и reads2
относительно ссылочной последовательности и записывает результаты в выходной файл outputFileName
. Область входа indexBaseName
представляет базовое имя (префикс) ссылочных файлов индекса [1][2].
bwamem
требуется пакет поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.
Примечание
bwamem
поддерживается в Mac и UNIX® только платформы.
bwamem(___,
использует дополнительные опции, заданные options
)options
. Задайте эти опции после всех других входных параметров.
bwamem(___,
использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, Name,Value
)'BandWidth',90
устанавливает максимально допустимую длину зазора равную 90.
Этот пример требует пакета поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, программное обеспечение предоставляет ссылку для загрузки. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.
Создайте набор файлов индекса для генома дрозофилы. Этот пример использует ссылочную последовательность Dmel_chr4.fa
, поставляется с тулбоксом. The 'Prefix'
Аргумент позволяет вам задать префикс выходных файлов индекса. Можно также включать информацию о пути к файлу. В данном примере задайте префикс следующим Dmel_chr4
и сохраните файлы индекса в текущей директории.
bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');
В качестве альтернативы указанию аргументов пары "имя-значение" можно использовать BWAIndexOptions
Объект, чтобы задать опции индексации.
indexOpt = BWAIndexOptions; indexOpt.Prefix = './Dmel_chr4'; indexOpt.Algorithm = 'bwtsw'; bwaindex('Dmel_chr4.fa',indexOpt);
Когда файлы индекса будут готовы, сопоставьте последовательности чтения со ссылкой с помощью bwamem
. Два входных файлов считывания в паре уже поставляются с тулбоксом. Используя аргументы пары "имя-значение", можно задать различные опции выравнивания, такие как количество параллельных потоков для использования.
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);
Также можно использовать BWAMEMoptions
для задания опций выравнивания.
alignOpt = BWAMEMOptions; alignOpt.NumThreads = 4; bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)
indexBaseName
- Базовое имя ссылочных файлов индексаБазовое имя (префикс) файлов индекса ссылки, заданное как вектор символов или строка. Например, базовое имя файла индекса 'Dmel_chr4.bwt'
является 'Dmel_chr4'
.
Индексные файлы находятся в форматах AMB, ANN, BWT, PAC и SA.
Пример: 'Dmel_chr4'
Типы данных: char
| string
reads1
- Имя файла с первыми считываемыми сообщениями или однокомпонентными чтениямиИмя файла с первым сопутствующим чтением или однокомпонентным чтением, заданное как вектор символов или строка.
Для парных данных последовательности в reads1
должен соответствовать read-for-read последовательностям в reads2
.
Пример: 'SRR6008575_10k_1.fq'
Типы данных: char
| string
reads2
- Имя файла со вторым сопутствующим чтением[]
Имя файла со вторым сопутствующим значением, заданное как вектор символов или строка.
Задайте reads2
как пустые ([]
, ''
, или ""
) если данные состоят только из однокомпонентных чтений.
Пример: 'SRR6008575_10k_2.fq'
Типы данных: char
| string
outputFileName
- Выход файлаВыход файла, заданное как вектор символов или строка. Этот файл содержит результаты отображения.
Пример: 'SRR6008575_10k_chr4.sam'
Типы данных: char
| string
options
- Дополнительные опции для отображенияBWAMEMOptions
объект | вектор символов | строкаДополнительные опции для отображения, заданные как BWAMEMOptions
объект, вектор символов или строка. Векторы символов или строка должны быть в bwa mem
собственный синтаксис (с префиксом штриха). Если вы задаете BWAMEMOptions
объект, программа использует только те свойства, которые заданы или изменены.
Типы данных: char
| string
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90)
устанавливает 90 как максимально допустимый зазор.'AlternativeHitsThreshold'
- Порог для определения, какие хиты получают тег XA в выходном файле SAM[5 200]
(по умолчанию) | неотрицательное целое число | двухэлементный числовой векторПорог для определения, какие удары получают тег XA в выходном файле SAM, заданный как неотрицательное целое n или двухэлементный числовой вектор [n m]
, где n и m должны быть неотрицательными целыми числами.
Если чтение имеет меньше n ударов с счетом более 80% от наилучшего счета для этого чтения, все удары получают тег XA в выходном файле SAM.
Когда вы также задаете m, программное обеспечение возвращает до m попаданий, если список попаданий содержит попадание в ALT-контакт.
Типы данных: double
'AppendReadCommentsToSAM'
- Флаг для добавления комментариев FASTA или FASTQ к выходному файлу SAMfalse
(по умолчанию) | true
Флаг для добавления комментариев FASTA или FASTQ к выходному файлу SAM, заданный как true
или false
. Комментарии появляются как текст после пространства в заголовке файла.
Типы данных: logical
'BandWidth'
- Максимально допустимая длина зазора100
(по умолчанию) | неотрицательное целое числоМаксимально допустимая длина зазора, заданная как неотрицательное целое число.
Типы данных: double
'BasesPerBatch'
- Количество основ на партию[]
(по умолчанию) | положительное целое числоКоличество основ в пакете, заданное как положительное целое число.
Если вы не задаете BasesPerBatch
, программное обеспечение использует 1e7 * NumThreads
по умолчанию. NumThreads
количество параллельных потоков, доступных при запуске bwamem
.
Если вы задаете BasesPerBatch
, программное обеспечение использует это точное число и не умножает число на NumThreads
. Это правило применяется независимо от того, заданы ли вы явно NumThreads
или нет.
Однако, если вы задаете NumThreads
но не BasesPerBatch
, программное обеспечение использует 1e7 * NumThreads
.
Размер пакета пропорционален количеству используемых параллельных потоков. Использование различного количества потоков может привести к различным выходам. Установка этой опции помогает с воспроизводимостью результатов.
Типы данных: double
'ClipPenalty'
- Штраф за обрезку выравниваний[5 5]
(по умолчанию) | неотрицательное целое число | двухэлементный числовой векторШтраф за обрезку выравниваний, заданный как неотрицательное целое или двухэлементный числовой вектор. Каждое чтение имеет лучший счет для выравнивания, которая охватывает длину чтения. Программное обеспечение не зажимает выравнивания, которые не охватывают длину считывания и не оцениваются выше суммы ClipPenalty
и лучший счет полнометражного чтения.
Задайте неотрицательное целое число, чтобы задать один и тот же штраф для обоих 5'
и 3'
усечение.
Задайте двухэлементный числовой вектор, чтобы задать различные штрафы для 5'
и 3'
усечение.
Типы данных: double
'DropChainFraction'
- Порог падения цепей относительно самой длинной перекрывающейся цепи0.5
(по умолчанию) | скаляром между 0
и 1
Порог для сбрасывания цепей относительно самой длинной перекрывающейся цепи, заданный как скаляр между 0
и 1
.
Программное обеспечение сбрасывает цепи, которые короче DropChainFraction * (longest overlapping chain length)
.
Типы данных: double
'DropChainLength'
- Минимальное количество основ0
(по умолчанию) | неотрицательное целое числоМинимальное количество основ в семенах, образующих цепь, задается в виде неотрицательного целого числа. Программа сбрасывает цепи короче DropChainLength
.
Типы данных: double
'ExtraCommand'
- Дополнительные команды""
(по умолчанию) | вектор символов | строкаДополнительные команды, заданные как вектор символов или строка.
Команды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.
Пример: 'ExtraCommand','-y'
Типы данных: char
| string
'FastaHeaderToXR'
- Флаг для включения заголовка FASTA в тег XRfalse
(по умолчанию) | true
Флаг для включения заголовка FASTA в тег XR, заданный как true
или false
.
Типы данных: logical
'GapExtensionPenalty'
- Штраф за расширение разрыва[1 1]
(по умолчанию) | неотрицательное целое число | двухэлементный числовой векторШтраф за расширение погрешности, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]
. n - штраф за продление удаления. m - штраф за расширение вставки.
Если вы задаете неотрицательное целое число, программа использует его в качестве штрафа за расширение удаления или вставки.
Типы данных: double
'GapOpenPenalty'
- Штраф за открытие разрыва[6 6]
(по умолчанию) | неотрицательное целое число | двухэлементный числовой векторШтраф открытия промежутка, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]
. n - штраф за открытие удаления. m - штраф за открытие вставки.
Если вы задаете неотрицательное целое число, программа использует его в качестве штрафа за открытие удаления или вставки.
Типы данных: double
'HeaderInsert'
- Текст для вставки в заголовок выходного файла SAM[0x0 string]
(по умолчанию) | вектор символов | строкаТекст для вставки в заголовок выходного файла SAM, заданный в виде вектора символов или строки.
Используйте одно из следующих действий:
Вектор символов или строка, которая начинается с @
чтобы вставить точный текст в заголовок SAM
Вектор символов или строка, являющаяся именем файла, где каждая линия в файле должна начинаться с @
Типы данных: char
| string
'IncludeAll'
- Флаг для применения всех доступных опцийfalse
(по умолчанию) | true
Флаг для включения всех доступных опций с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис, заданный как true
или false
.
Исходный (нативный) синтаксис префиксируется одним или двумя штрихами. По умолчанию функция преобразует только указанные опции. Если значение true
программное обеспечение преобразует все доступные опции со значениями по умолчанию для неопределенных опций в исходный синтаксис.
Примечание
Если вы задаете IncludeAll
на true
программное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN
, Inf
, []
, ''
, или ""
, тогда программное обеспечение не преобразует соответствующее свойство.
Типы данных: logical
'InsertSizeStatistics'
- Вставьте параметры распределения размеров[1x0 double]
(по умолчанию) | четырехэлементный числовой массивВставьте параметры распределения размеров, заданные как четырехэлементный числовой массив [mean std max min]
.
mean - средний размер вставки.
std - стандартное отклонение.
max - максимальный размер вставки.
min - минимальный размер вставки.
Если вы задаете массив n элементов, где n меньше четырех, элементы задают первые параметры распределения n. По умолчанию программное обеспечение выводит неопределенные параметры из данных.
Типы данных: double
'MarkShortSplitsSecond'
- Флаг, чтобы отметить более короткие разделения как вторичныеfalse
(по умолчанию) | true
Флаг, чтобы отметить более короткие разделенные удары как вторичные в флаге SAM, заданный как true
или false
.
Типы данных: logical
'MarkSmallestCoordinatePrimary'
- Флаг для маркировки сегмента с наименьшими координатами как основногоfalse
(по умолчанию) | true
Флаг для маркировки сегмента с наименьшими координатами как основного при разделении выравнивания, заданный как true
или false
.
Типы данных: logical
'MatchScore'
- Счет для соответствия последовательности1
(по умолчанию) | неотрицательное целое числоСчет для совпадения последовательности, заданный как неотрицательное целое число.
Типы данных: double
'MaxMemOccurrence'
- Максимальное количество вхождений MEM500
(по умолчанию) | положительное целое числоМаксимальное количество вхождений MEM (максимальное точное соответствие) для каждого чтения перед его отбросом, заданное как положительное целое число.
Типы данных: double
'MaxRoundsMateRescue'
- Максимальное количество раундов спасения помощников50
(по умолчанию) | неотрицательное целое числоМаксимальное количество раундов спасения пары для каждого чтения, заданное в виде неотрицательного целого числа. Программа использует алгоритм Smith-Waterman (SW) для спасения помощника.
Типы данных: double
'MinSeedLength'
- Минимальная длина seed19
(по умолчанию) | положительное целое числоМинимальная длина seed, заданная как положительное целое число. Программа отбрасывает любые совпадения короче минимальной длины seed.
Типы данных: double
'MismatchPenalty'
- Штраф за несоответствие выравнивания4
(по умолчанию) | неотрицательное целое числоШтраф за несоответствие выравнивания, заданный как неотрицательное целое число.
Типы данных: double
'NumThreads'
- Количество параллельных потоков1
(по умолчанию) | положительное целое числоКоличество параллельных потоков, заданное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков обычно значительно улучшает время выполнения, но увеличивает объем памяти.
Типы данных: double
'OutputAllAlignments'
- Флаг для возврата всех найденных выравниванийfalse
(по умолчанию) | true
Флаг для возврата всех найденных выравниваний, включая непарные и парные чтения, заданный как true
или false
. Если значение true
программа возвращает все найденные выравнивания и помечает их как вторичные выравнивания.
Типы данных: logical
'OutputScoreThreshold'
- Порог счета для возвращаемых выравниваний30
(по умолчанию) | положительное целое числоПорог счета для возвращаемых выравниваний, заданный как положительное целое число. Укажите минимальный счет, который должен быть выравниваниями в файле выхода.
Типы данных: double
'ReadGroupLine'
- Текст для вставки в заголовок считанной группы[0x0 string]
(по умолчанию) | вектор символов | строкаТекст для вставки в заголовок группы чтения (RG) линии в файле выхода, заданный как вектор символов или строка.
Типы данных: char
| string
'ReadType'
- Тип чтения для выравнивания[0x0 string]
(по умолчанию) | 'pacbio
| 'ont2d
| 'intractg'
Тип чтения для выравнивания, заданный как вектор символов или строка. Каждый тип чтения имеет различные значения параметров по умолчанию для использования во время выравнивания. Можно перезаписать любые параметры. Допустимые опции:
'pacbio'
- PacBio читает
'ont2d'
- Оксфордский нанопор 2D читается
'intractg'
- Внутривидовые контиги
Значения параметров следующие.
|
Эквивалентный собственный синтаксис |
|
Эквивалентный собственный синтаксис |
|
Эквивалентный собственный синтаксис |
Типы данных: char
| string
'ReduceSupplementaryMAPQ'
- Флаг для уменьшения оценки качества отображения (MAPQ) дополнительных выравниванийtrue
(по умолчанию) | false
Флаг для уменьшения счета качества отображения (MAPQ) дополнительных выравниваний, заданный как true
или false
.
Типы данных: logical
'SeedSplitRatio'
- Порог для переопределения1.50
(по умолчанию) | неотрицательное целое числоПорог для переопределения, заданное как неотрицательное целое число. Укажите длину seed, при которой повторное высевание происходит относительно минимальной длины seed MinSeedLength
. В частности, если MEM (максимальное точное соответствие) длиннее MinSeedLength * SeedSplitRatio
, происходит повторная подача.
Типы данных: double
'SkipMateRescue'
- Флаг, чтобы пропустить спасение помощникаfalse
(по умолчанию) | true
Флаг для пропуска спасения помощника, заданный как true
или false
. Mate rescue использует алгоритм Смита-Уотермана (SW), чтобы согласовать несопоставленные чтения с сопоставлениями, которые правильно выровнены.
Типы данных: logical
'SkipPairing'
- Флаг, чтобы пропустить чтение соединенияfalse
(по умолчанию) | true
Флаг для пропуска соединения чтения, заданный как true
или false
. Если true
, для парных чтений, программное обеспечение использует алгоритм Smith-Waterman (SW), чтобы спасти только отсутствующие хиты и не пытается найти хиты, которые соответствуют правильной паре.
Типы данных: logical
'SmartPairing'
- Флаг для выполнения интеллектуального сопряженияfalse
(по умолчанию) | true
Флаг для выполнения интеллектуального сопряжения, заданный как true
или false
. Если значение true
, программные пары смежных чтений, которые находятся в том же файле и имеют то же имя. Такие файлы FASTQ также известны как перемеженные файлы.
Типы данных: logical
'SoftClipSupplementary'
- Флаг для дополнительных выравниваний мягкого зажимаfalse
(по умолчанию) | true
Флаг для дополнительных выравниваний мягкого зажима, заданный как true
или false
. Если значение true
, программное обеспечение мягко зажимает как дополнительные выравнивания, так и первичную выравнивание.
Значение по умолчанию false
, что означает, что программное обеспечение мягко фиксирует основное выравнивание и жестко фиксирует дополнительные выравнивания.
Типы данных: logical
'TreatAltAsPrimary'
- Флаг для обработки ALT contigs как части первичной сборкиfalse
(по умолчанию) | true
Флаг для обработки ALT contigs как части первичной сборки, заданный как true
или false
.
Типы данных: logical
'UnpairedReadPenalty'
- Штраф за отображение считанных пар как непарных17
(по умолчанию) | неотрицательное целое числоШтраф за отображение считанных пар как непарных, заданный как неотрицательное целое число.
Счет выравнивания для парной пары чтения
. Счет выравнивания для непарной пары чтения read1
счет + read2
счет - вставка штрафа
. Программное обеспечение сравнивает эти два счетов, чтобы принудительно считать сопряжение. Больший read1
счет + read2
счет - UnpairedReadPenseUnpairedReadPenalty
значение приводит к более агрессивному соединению в пару считывания.
Типы данных: double
'Verbosity'
- Уровень подробностей печатаемой информации0
(по умолчанию) | неотрицательное целое числоУровень подробностей информации, напечатанной в командной строке MATLAB во время работы программного обеспечения, заданный как неотрицательное целое число. Допустимые опции:
0 - Для отключения всех выходов в командной строке.
1 - Для печати сообщений об ошибке.
2 - Для печати предупреждений и сообщений об ошибке.
3 - Для печати всех сообщений.
4 - Только в целях отладки.
Типы данных: double
'ZDropOff'
- Отключение для расширения Смита-Уотермана100
(по умолчанию) | неотрицательное целое числоОтсечение для расширения Смита-Уотермана (SW), заданное как неотрицательное целое число. Программа использует следующее выражение:
, где i и j являются текущими позициями запроса и ссылки, соответственно. Когда различие между лучшим счетом и текущим счетом расширения больше этого значения выражения, программное обеспечение прекращает расширение SW.
Типы данных: double
[1] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при коротком считывании с преобразованием Burrows-Wheeler. Биоинформатика 25, № 14 (15 июля 2009): 1754-60. https://doi.org/10.1093/bioinformatics/btp324.
[2] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при долгом чтении с преобразованием Burrows-Wheeler. Биоинформатика 26, № 5 (1 марта 2010): 589-95. https://doi.org/10.1093/bioinformatics/btp698.
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.