bwamem

Последовательность Map читается для ссылки на геном с помощью BWA

Описание

пример

bwamem(indexBaseName,reads1,reads2,outputFileName) отображает показания секвенирования из reads1 и reads2 относительно ссылочной последовательности и записывает результаты в выходной файл outputFileName. Область входа indexBaseName представляет базовое имя (префикс) ссылочных файлов индекса [1][2].

bwamem требуется пакет поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.

Примечание

bwamem поддерживается в Mac и UNIX® только платформы.

пример

bwamem(___,options) использует дополнительные опции, заданные options. Задайте эти опции после всех других входных параметров.

пример

bwamem(___,Name,Value) использует дополнительные опции, заданные одним или несколькими аргументами пары "имя-значение". Для примера, 'BandWidth',90 устанавливает максимально допустимую длину зазора равную 90.

Примеры

свернуть все

Этот пример требует пакета поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, программное обеспечение предоставляет ссылку для загрузки. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.

Создайте набор файлов индекса для генома дрозофилы. Этот пример использует ссылочную последовательность Dmel_chr4.fa, поставляется с тулбоксом. The 'Prefix' Аргумент позволяет вам задать префикс выходных файлов индекса. Можно также включать информацию о пути к файлу. В данном примере задайте префикс следующим Dmel_chr4 и сохраните файлы индекса в текущей директории.

bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');

В качестве альтернативы указанию аргументов пары "имя-значение" можно использовать BWAIndexOptions Объект, чтобы задать опции индексации.

indexOpt = BWAIndexOptions;
indexOpt.Prefix = './Dmel_chr4';
indexOpt.Algorithm = 'bwtsw';
bwaindex('Dmel_chr4.fa',indexOpt);

Когда файлы индекса будут готовы, сопоставьте последовательности чтения со ссылкой с помощью bwamem. Два входных файлов считывания в паре уже поставляются с тулбоксом. Используя аргументы пары "имя-значение", можно задать различные опции выравнивания, такие как количество параллельных потоков для использования.

bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);

Также можно использовать BWAMEMoptions для задания опций выравнивания.

alignOpt = BWAMEMOptions;
alignOpt.NumThreads = 4;
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)

Входные параметры

свернуть все

Базовое имя (префикс) файлов индекса ссылки, заданное как вектор символов или строка. Например, базовое имя файла индекса 'Dmel_chr4.bwt' является 'Dmel_chr4'.

Индексные файлы находятся в форматах AMB, ANN, BWT, PAC и SA.

Пример: 'Dmel_chr4'

Типы данных: char | string

Имя файла с первым сопутствующим чтением или однокомпонентным чтением, заданное как вектор символов или строка.

Для парных данных последовательности в reads1 должен соответствовать read-for-read последовательностям в reads2.

Пример: 'SRR6008575_10k_1.fq'

Типы данных: char | string

Имя файла со вторым сопутствующим значением, заданное как вектор символов или строка.

Задайте reads2 как пустые ([], '', или "") если данные состоят только из однокомпонентных чтений.

Пример: 'SRR6008575_10k_2.fq'

Типы данных: char | string

Выход файла, заданное как вектор символов или строка. Этот файл содержит результаты отображения.

Пример: 'SRR6008575_10k_chr4.sam'

Типы данных: char | string

Дополнительные опции для отображения, заданные как BWAMEMOptions объект, вектор символов или строка. Векторы символов или строка должны быть в bwa mem собственный синтаксис (с префиксом штриха). Если вы задаете BWAMEMOptions объект, программа использует только те свойства, которые заданы или изменены.

Типы данных: char | string

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90) устанавливает 90 как максимально допустимый зазор.

Порог для определения, какие удары получают тег XA в выходном файле SAM, заданный как неотрицательное целое n или двухэлементный числовой вектор [n m], где n и m должны быть неотрицательными целыми числами.

Если чтение имеет меньше n ударов с счетом более 80% от наилучшего счета для этого чтения, все удары получают тег XA в выходном файле SAM.

Когда вы также задаете m, программное обеспечение возвращает до m попаданий, если список попаданий содержит попадание в ALT-контакт.

Типы данных: double

Флаг для добавления комментариев FASTA или FASTQ к выходному файлу SAM, заданный как true или false. Комментарии появляются как текст после пространства в заголовке файла.

Типы данных: logical

Максимально допустимая длина зазора, заданная как неотрицательное целое число.

Типы данных: double

Количество основ в пакете, заданное как положительное целое число.

Если вы не задаете BasesPerBatch, программное обеспечение использует 1e7 * NumThreads по умолчанию. NumThreads количество параллельных потоков, доступных при запуске bwamem.

Если вы задаете BasesPerBatch, программное обеспечение использует это точное число и не умножает число на NumThreads. Это правило применяется независимо от того, заданы ли вы явно NumThreads или нет.

Однако, если вы задаете NumThreads но не BasesPerBatch, программное обеспечение использует 1e7 * NumThreads.

Размер пакета пропорционален количеству используемых параллельных потоков. Использование различного количества потоков может привести к различным выходам. Установка этой опции помогает с воспроизводимостью результатов.

Типы данных: double

Штраф за обрезку выравниваний, заданный как неотрицательное целое или двухэлементный числовой вектор. Каждое чтение имеет лучший счет для выравнивания, которая охватывает длину чтения. Программное обеспечение не зажимает выравнивания, которые не охватывают длину считывания и не оцениваются выше суммы ClipPenalty и лучший счет полнометражного чтения.

Задайте неотрицательное целое число, чтобы задать один и тот же штраф для обоих 5' и 3' усечение.

Задайте двухэлементный числовой вектор, чтобы задать различные штрафы для 5' и 3' усечение.

Типы данных: double

Порог для сбрасывания цепей относительно самой длинной перекрывающейся цепи, заданный как скаляр между 0 и 1.

Программное обеспечение сбрасывает цепи, которые короче DropChainFraction * (longest overlapping chain length).

Типы данных: double

Минимальное количество основ в семенах, образующих цепь, задается в виде неотрицательного целого числа. Программа сбрасывает цепи короче DropChainLength.

Типы данных: double

Дополнительные команды, заданные как вектор символов или строка.

Команды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.

Пример: 'ExtraCommand','-y'

Типы данных: char | string

Флаг для включения заголовка FASTA в тег XR, заданный как true или false.

Типы данных: logical

Штраф за расширение погрешности, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]. n - штраф за продление удаления. m - штраф за расширение вставки.

Если вы задаете неотрицательное целое число, программа использует его в качестве штрафа за расширение удаления или вставки.

Типы данных: double

Штраф открытия промежутка, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]. n - штраф за открытие удаления. m - штраф за открытие вставки.

Если вы задаете неотрицательное целое число, программа использует его в качестве штрафа за открытие удаления или вставки.

Типы данных: double

Текст для вставки в заголовок выходного файла SAM, заданный в виде вектора символов или строки.

Используйте одно из следующих действий:

  • Вектор символов или строка, которая начинается с @ чтобы вставить точный текст в заголовок SAM

  • Вектор символов или строка, являющаяся именем файла, где каждая линия в файле должна начинаться с @

Типы данных: char | string

Флаг для включения всех доступных опций с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис, заданный как true или false.

Исходный (нативный) синтаксис префиксируется одним или двумя штрихами. По умолчанию функция преобразует только указанные опции. Если значение trueпрограммное обеспечение преобразует все доступные опции со значениями по умолчанию для неопределенных опций в исходный синтаксис.

Примечание

Если вы задаете IncludeAll на trueпрограммное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN, Inf, [], '', или "", тогда программное обеспечение не преобразует соответствующее свойство.

Типы данных: logical

Вставьте параметры распределения размеров, заданные как четырехэлементный числовой массив [mean std max min].

  • mean - средний размер вставки.

  • std - стандартное отклонение.

  • max - максимальный размер вставки.

  • min - минимальный размер вставки.

Если вы задаете массив n элементов, где n меньше четырех, элементы задают первые параметры распределения n. По умолчанию программное обеспечение выводит неопределенные параметры из данных.

Типы данных: double

Флаг, чтобы отметить более короткие разделенные удары как вторичные в флаге SAM, заданный как true или false.

Типы данных: logical

Флаг для маркировки сегмента с наименьшими координатами как основного при разделении выравнивания, заданный как true или false.

Типы данных: logical

Счет для совпадения последовательности, заданный как неотрицательное целое число.

Типы данных: double

Максимальное количество вхождений MEM (максимальное точное соответствие) для каждого чтения перед его отбросом, заданное как положительное целое число.

Типы данных: double

Максимальное количество раундов спасения пары для каждого чтения, заданное в виде неотрицательного целого числа. Программа использует алгоритм Smith-Waterman (SW) для спасения помощника.

Типы данных: double

Минимальная длина seed, заданная как положительное целое число. Программа отбрасывает любые совпадения короче минимальной длины seed.

Типы данных: double

Штраф за несоответствие выравнивания, заданный как неотрицательное целое число.

Типы данных: double

Количество параллельных потоков, заданное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков обычно значительно улучшает время выполнения, но увеличивает объем памяти.

Типы данных: double

Флаг для возврата всех найденных выравниваний, включая непарные и парные чтения, заданный как true или false. Если значение trueпрограмма возвращает все найденные выравнивания и помечает их как вторичные выравнивания.

Типы данных: logical

Порог счета для возвращаемых выравниваний, заданный как положительное целое число. Укажите минимальный счет, который должен быть выравниваниями в файле выхода.

Типы данных: double

Текст для вставки в заголовок группы чтения (RG) линии в файле выхода, заданный как вектор символов или строка.

Типы данных: char | string

Тип чтения для выравнивания, заданный как вектор символов или строка. Каждый тип чтения имеет различные значения параметров по умолчанию для использования во время выравнивания. Можно перезаписать любые параметры. Допустимые опции:

  • 'pacbio' - PacBio читает

  • 'ont2d' - Оксфордский нанопор 2D читается

  • 'intractg' - Внутривидовые контиги

Значения параметров следующие.

'pacbio'

  • MinSeedLength = 17

  • DropChainLength = 40

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис '-k17 -W40 -r10 -A1 -B1 -O1 -E1 -L0'.

'ont2d'

  • MinSeedLength = 14

  • DropChainLength = 20

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис '-k14 -W20 -r10 -A1 -B1 -O1 -E1 -L0'.

'intractg'

  • MismatchPenalty = 9

  • GapOpenPenalty = 16

  • ClipPenalty = 5

Эквивалентный собственный синтаксис '-B9 -O16 -L5'.

Типы данных: char | string

Флаг для уменьшения счета качества отображения (MAPQ) дополнительных выравниваний, заданный как true или false.

Типы данных: logical

Порог для переопределения, заданное как неотрицательное целое число. Укажите длину seed, при которой повторное высевание происходит относительно минимальной длины seed MinSeedLength. В частности, если MEM (максимальное точное соответствие) длиннее MinSeedLength * SeedSplitRatio, происходит повторная подача.

Типы данных: double

Флаг для пропуска спасения помощника, заданный как true или false. Mate rescue использует алгоритм Смита-Уотермана (SW), чтобы согласовать несопоставленные чтения с сопоставлениями, которые правильно выровнены.

Типы данных: logical

Флаг для пропуска соединения чтения, заданный как true или false. Если true, для парных чтений, программное обеспечение использует алгоритм Smith-Waterman (SW), чтобы спасти только отсутствующие хиты и не пытается найти хиты, которые соответствуют правильной паре.

Типы данных: logical

Флаг для выполнения интеллектуального сопряжения, заданный как true или false. Если значение true, программные пары смежных чтений, которые находятся в том же файле и имеют то же имя. Такие файлы FASTQ также известны как перемеженные файлы.

Типы данных: logical

Флаг для дополнительных выравниваний мягкого зажима, заданный как true или false. Если значение true, программное обеспечение мягко зажимает как дополнительные выравнивания, так и первичную выравнивание.

Значение по умолчанию false, что означает, что программное обеспечение мягко фиксирует основное выравнивание и жестко фиксирует дополнительные выравнивания.

Типы данных: logical

Флаг для обработки ALT contigs как части первичной сборки, заданный как true или false.

Типы данных: logical

Штраф за отображение считанных пар как непарных, заданный как неотрицательное целое число.

Счет выравнивания для парной пары чтения read1 счет + read2 счет - вставка штрафа. Счет выравнивания для непарной пары чтения read1 счет + read2 счет - UnpairedReadPense. Программное обеспечение сравнивает эти два счетов, чтобы принудительно считать сопряжение. Больший UnpairedReadPenalty значение приводит к более агрессивному соединению в пару считывания.

Типы данных: double

Уровень подробностей информации, напечатанной в командной строке MATLAB во время работы программного обеспечения, заданный как неотрицательное целое число. Допустимые опции:

  • 0 - Для отключения всех выходов в командной строке.

  • 1 - Для печати сообщений об ошибке.

  • 2 - Для печати предупреждений и сообщений об ошибке.

  • 3 - Для печати всех сообщений.

  • 4 - Только в целях отладки.

Типы данных: double

Отсечение для расширения Смита-Уотермана (SW), заданное как неотрицательное целое число. Программа использует следующее выражение:

|ij|MatchScore+ZDropOff, где i и j являются текущими позициями запроса и ссылки, соответственно. Когда различие между лучшим счетом и текущим счетом расширения больше этого значения выражения, программное обеспечение прекращает расширение SW.

Типы данных: double

Ссылки

[1] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при коротком считывании с преобразованием Burrows-Wheeler. Биоинформатика 25, № 14 (15 июля 2009): 1754-60. https://doi.org/10.1093/bioinformatics/btp324.

[2] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при долгом чтении с преобразованием Burrows-Wheeler. Биоинформатика 26, № 5 (1 марта 2010): 589-95. https://doi.org/10.1093/bioinformatics/btp698.

Введенный в R2020b
Для просмотра документации необходимо авторизоваться на сайте