bwamem

Сопоставьте чтения последовательности со ссылочным геномом с помощью BWA

Описание

пример

bwamem(indexBaseName,reads1,reads2,outputFileName) сопоставляет чтения секвенирования от reads1 и reads2 против ссылочной последовательности и записей результаты к выходному файлу outputFileName. Вход indexBaseName представляет базовое имя (префикс) файлов справочного указателя [1][2].

bwamem требует Пакета поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Примечание

bwamem поддерживается на Mac и UNIX® платформы только.

пример

bwamem(___,options) использует дополнительные опции, заданные options. Задайте эти опции после всех других входных параметров.

пример

bwamem(___,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары "имя-значение". Например, 'BandWidth',90 устанавливает максимальную допустимую длину разрыва на 90.

Примеры

свернуть все

Этот пример требует Пакета поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, программное обеспечение обеспечивает ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты Программной поддержки Bioinformatics Toolbox.

Создайте набор индексных файлов для генома Дрозофилы. Этот пример использует ссылочную последовательность Dmel_chr4.fa, предоставленный тулбокс. 'Prefix' аргумент позволяет вам задать префикс выходных индексных файлов. Можно также включать информацию о пути к файлу. В данном примере задайте префикс как Dmel_chr4 и сохраните индексные файлы в текущем каталоге.

bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');

Как альтернатива определению аргументов пары "имя-значение", можно использовать BWAIndexOptions объект задать опции индексации.

indexOpt = BWAIndexOptions;
indexOpt.Prefix = './Dmel_chr4';
indexOpt.Algorithm = 'bwtsw';
bwaindex('Dmel_chr4.fa',indexOpt);

Если индексные файлы готовы, сопоставляют последовательности чтения со ссылкой с помощью bwamem. Два парных конца читали, входным файлам уже предоставляют тулбокс. Используя аргументы пары "имя-значение", можно задать различные опции выравнивания, такие как количество параллельных потоков, чтобы использовать.

bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);

В качестве альтернативы можно использовать BWAMEMoptions задавать опции выравнивания.

alignOpt = BWAMEMOptions;
alignOpt.NumThreads = 4;
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)

Входные параметры

свернуть все

Базовое имя (префикс) файлов справочного указателя в виде вектора символов или строки. Например, базовое имя индексного файла 'Dmel_chr4.bwt' 'Dmel_chr4'.

Индексные файлы находятся в AMB, ЭНН, BWT, PAC и форматах файлов SA.

Пример: 'Dmel_chr4'

Типы данных: char | string

Имя файла с первыми чтениями помощника или одно концом читает в виде вектора символов или строки.

Для данных парного конца, последовательностей в reads1 должен соответствовать чтение для чтения последовательностям в reads2.

Пример: 'SRR6008575_10k_1.fq'

Типы данных: char | string

Имя файла со вторым помощником читает в виде вектора символов или строки.

Задайте reads2 как пустой ([], '', или "") если данные состоят из чтений одно конца только.

Пример: 'SRR6008575_10k_2.fq'

Типы данных: char | string

Имя выходного файла в виде вектора символов или строки. Этот файл содержит результаты отображения.

Пример: 'SRR6008575_10k_chr4.sam'

Типы данных: char | string

Дополнительные опции для отображения в виде BWAMEMOptions объект, вектор символов или строка. Вектор символов или строка должны быть в bwa mem нативный синтаксис (снабженный префиксом тире). Если вы задаете BWAMEMOptions объект, программное обеспечение использует только те свойства, которые установлены или изменены.

Типы данных: char | string

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90) наборы 90 как максимальный допустимый разрыв.

Порог для определения, какие хиты получают тег XA в файле выхода SAM в виде неотрицательного целочисленного n или двухэлементного числового векторного [n m], где n и m должны быть неотрицательными целыми числами.

Если чтение имеет меньше, чем хиты n со счетом, больше, чем 80% лучшего счета к тому чтению, все хиты получают тег XA в файле выхода SAM.

Когда вы также задаете m, программное обеспечение возвращается до хитов m, если список совпадений содержит хит к контигу ALT.

Типы данных: double

Отметьте, чтобы добавить FASTA или комментарии FASTQ к файлу выхода SAM в виде true или false. Комментарии появляются как текст после пробела в заголовке файла.

Типы данных: логический

Максимальная допустимая длина разрыва в виде неотрицательного целого числа.

Типы данных: double

Количество основ на пакет в виде положительного целого числа.

Если вы не задаете BasesPerBatch, программное обеспечение использует 1e7 * NumThreads по умолчанию. NumThreads количество параллельных потоков, доступных, когда вы запускаетесь bwamem.

Если вы задаете BasesPerBatch, использование программного обеспечения, что точный номер и не умножает номер на NumThreads. Это правило применяется независимо от того, устанавливаете ли вы явным образом NumThreads или нет.

Однако, если вы задаете NumThreads но не BasesPerBatch, программное обеспечение использует 1e7 * NumThreads.

Пакетный размер пропорционален количеству параллельных потоков в использовании. Используя различные количества потоков может произвести различные выходные параметры. Определение этой опции помогает с воспроизводимостью результатов.

Типы данных: double

Штраф за отсеченные выравнивания в виде неотрицательного целого числа или двухэлементного числового вектора. Каждое чтение имеет лучший счет к выравниванию, которое охватывает продолжительность чтения. Программное обеспечение не отсекает выравнивания, которые не охватывают продолжительность чтения и не выигрывают выше, чем сумма ClipPenalty и лучший счет чтения во всю длину.

Задайте неотрицательное целое число, чтобы установить тот же штраф за оба 5' и 3' усечение.

Задайте двухэлементный числовой вектор, чтобы установить различные штрафы за 5' и 3' усечение.

Типы данных: double

Порог для отбрасывания цепей относительно самой длинной перекрывающейся цепи в виде скаляра между 0 и 1.

Программное обеспечение уронило цепи, которые короче, чем DropChainFraction * (longest overlapping chain length).

Типы данных: double

Минимальное количество основ в seed, формирующих цепь в виде неотрицательного целого числа. Программное обеспечение уронило цепи короче, чем DropChainLength.

Типы данных: double

Дополнительные команды в виде вектора символов или строки.

Команды должны быть в нативном синтаксисе (снабжены префиксом одним или двумя тире). Используйте эту опцию, чтобы применить недокументированные флаги и флаги без соответствующего MATLAB® свойства.

Пример: 'ExtraCommand','-y'

Типы данных: char | string

Отметьте, чтобы включать заголовок FASTA в тег XR в виде true или false.

Типы данных: логический

Разорвите дополнительный штраф в виде неотрицательного целого числа или двухэлементного числового векторного [n m]. n является штрафом за расширение удаления. m является штрафом за расширение вставки.

Если вы задаете неотрицательное целое число, программное обеспечение использует его в качестве штрафа за расширение удаления или вставки.

Типы данных: double

Разорвите вводный штраф в виде неотрицательного целого числа или двухэлементного числового векторного [n m]. n является штрафом за открытие удаления. m является штрафом за открытие вставки.

Если вы задаете неотрицательное целое число, программное обеспечение использует его в качестве штрафа за открытие удаления или вставки.

Типы данных: double

Текст, чтобы вставить в заголовок файла выхода SAM в виде вектора символов или строки.

Используйте одно из следующего:

  • Вектор символов или строка, которая запускается с @ вставить точный текст в заголовок SAM

  • Вектор символов или строка, которая является именем файла, где каждая линия в файле должна запуститься с @

Типы данных: char | string

Отметьте, чтобы включать все доступные параметры с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис в виде true или false.

Исходный (нативный) синтаксис снабжается префиксом одним или двумя тире. По умолчанию функция преобразует только заданные опции. Если значением является true, программное обеспечение преобразует все доступные параметры, со значениями по умолчанию для незаданных опций, к исходному синтаксису.

Примечание

Если вы устанавливаете IncludeAll к true, программное обеспечение переводит все доступные свойства со значениями по умолчанию для незаданных свойств. Единственное исключение - это, когда значением по умолчанию свойства является NaNInf, [], '', или "", затем программное обеспечение не переводит соответствующее свойство.

Типы данных: логический

Вставьте параметры распределения размера в виде четырехэлементного числового массива [mean std max min].

  • mean является средним размером вставки.

  • std является стандартным отклонением.

  • max является максимальным размером вставки.

  • min является минимальным размером вставки.

Если вы задаете массив элементов n, где n меньше четыре, элементы задают первые параметры распределения n. По умолчанию программное обеспечение выводит незаданные параметры из данных.

Типы данных: double

Отметьте, чтобы отметить короче хиты разделения как вторичные во флаге SAM в виде true или false.

Типы данных: логический

Отметьте, чтобы отметить сегмент самыми маленькими координатами как первичный, когда выравнивание будет разделено в виде true или false.

Типы данных: логический

Выиграйте за соответствие последовательности в виде неотрицательного целого числа.

Типы данных: double

Максимальное количество MEM (максимальное точное совпадение) случаи для каждого чтения, прежде чем это будет отброшено в виде положительного целого числа.

Типы данных: double

Максимальное количество раундов помощника спасает для каждого чтения в виде неотрицательного целого числа. Программное обеспечение использует алгоритм Смита-лодочника (SW) для спасения помощника.

Типы данных: double

Минимальная длина seed в виде положительного целого числа. Программное обеспечение отбрасывает любые соответствия короче, чем минимальная длина seed.

Типы данных: double

Штраф за выравнивание не сочетается в виде неотрицательного целого числа.

Типы данных: double

Количество параллельных потоков, чтобы использовать в виде положительного целого числа. Потоки запущены на отдельных процессорах или ядрах. Увеличение числа потоков обычно значительно улучшает время выполнения, но увеличивает объем потребляемой памяти.

Типы данных: double

Отметьте, чтобы возвратить все найденные выравнивания включая непарный и чтения парного конца в виде true или false. Если значением является true, программное обеспечение возвращает все найденные выравнивания и отмечает их как вторичные выравнивания.

Типы данных: логический

Выиграйте порог за возврат выравниваний в виде положительного целого числа. Задайте минимальный счет, что выравниваниям, должно быть, придется быть в выходном файле.

Типы данных: double

Текст, чтобы вставить в линию заголовка группы чтения (RG) в выходной файл в виде вектора символов или строки.

Типы данных: char | string

Тип чтений, чтобы выровняться в виде вектора символов или строки. Каждый тип чтения имеет различные значения параметров по умолчанию, чтобы использовать во время выравнивания. Можно перезаписать любые параметры. Допустимые опции:

  • 'pacbio' — Чтения PacBio

  • 'ont2d' — Оксфордская нанопора 2D чтения

  • 'intractg' — Контиги внутриразновидностей

Значения параметров следующие.

'pacbio'

  • MinSeedLength= 17

  • DropChainLength= 40

  • SeedSplitRatio= 10

  • MatchScore= 1

  • MismatchPenalty= 1

  • GapOpenPenalty= 1

  • GapExtensionPenalty= 1

  • ClipPenalty= 0

Эквивалентным нативным синтаксисом является '-k17 -W40 -r10 -A1 -B1 -O1 -E1 -L0'.

'ont2d'

  • MinSeedLength= 14

  • DropChainLength= 20

  • SeedSplitRatio= 10

  • MatchScore= 1

  • MismatchPenalty= 1

  • GapOpenPenalty= 1

  • GapExtensionPenalty= 1

  • ClipPenalty= 0

Эквивалентным нативным синтаксисом является '-k14 -W20 -r10 -A1 -B1 -O1 -E1 -L0'.

'intractg'

  • MismatchPenalty= 9

  • GapOpenPenalty= 16

  • ClipPenalty= 5

Эквивалентным нативным синтаксисом является '-B9 -O16 -L5'.

Типы данных: char | string

Отметьте, чтобы уменьшать качество отображения (MAPQ) счет дополнительных выравниваний в виде true или false.

Типы данных: логический

Порог для пересева в виде неотрицательного целого числа. Задайте длину seed, в которой пересев происходит относительно минимальной длины seed MinSeedLength. А именно, если MEM (максимальное точное совпадение) более длинен, чем MinSeedLength * SeedSplitRatio, пересев происходит.

Типы данных: double

Отметьте, чтобы пропустить спасение помощника в виде true или false. Спасение помощника использует алгоритм Смита-лодочника (SW), чтобы выровнять несопоставленные чтения с помощниками, которые правильно выравниваются.

Типы данных: логический

Отметьте, чтобы пропустить чтение, соединяющееся в виде true или false. Если true, для чтений парного конца программное обеспечение использует алгоритм Смита-лодочника (SW), чтобы спасти недостающие хиты только и не пытается найти хиты, которые соответствуют соответствующей паре.

Типы данных: логический

Отметьте, чтобы выполнить умное соединение в виде true или false. Если значением является true, смежные чтения пар программного обеспечения, которые находятся в том же файле и имеют то же имя. Такие файлы FASTQ также известны как чередованные файлы.

Типы данных: логический

Отметьте к мягкому клипу дополнительные выравнивания в виде true или false. Если значением является true, программное обеспечение мягкие клипы и дополнительные выравнивания и первичное выравнивание.

Значением по умолчанию является false, что означает что программное обеспечение мягкие клипы первичное выравнивание и твердые клипы дополнительные выравнивания.

Типы данных: логический

Отметьте, чтобы обработать контиги ALT как часть первичного блока в виде true или false.

Типы данных: логический

Штраф за отображение пар чтения как непарные в виде неотрицательного целого числа.

Счетом выравнивания к парной паре чтения является read1 выиграйте + read2 счет - вставляет штраф. Счетом выравнивания к непарной паре чтения является read1 выиграйте + read2 счет - UnpairedReadPenalty. Программное обеспечение сравнивает эти два баллов, чтобы обеспечить соединение чтения. Больший UnpairedReadPenalty значение приводит к более агрессивному соединению чтения.

Типы данных: double

Уровень многословия информации, распечатанной к командной строке MATLAB, в то время как программное обеспечение запускается в виде неотрицательного целого числа. Допустимые опции:

  • 0 — Для отключения всех выходных параметров к командной строке.

  • 1 — Для сообщений ошибки печати.

  • 2 — Для печати предупреждающих сообщений и сообщений об ошибке.

  • 3 — Для печати всех сообщений.

  • 4 — Для отладки целей только.

Типы данных: double

Сокращение для расширения Смита-лодочника (SW) в виде неотрицательного целого числа. Программное обеспечение использует следующее выражение:

|ij|MatchScore+ZDropOff, где i и j являются текущими положениями запроса и ссылки, соответственно. Когда различие между лучшим счетом и текущим дополнительным счетом больше, чем это значение выражения, программное обеспечение отключает расширение SW.

Типы данных: double

Ссылки

[1] Литий, Хэн и Ричард Дербин. “Быстрое и Точное Короткое Выравнивание Чтения с Преобразованием Нор-Wheeler”. Биоинформатика 25, № 14 (15 июля 2009): 1754–60. https://doi.org/10.1093/bioinformatics/btp324.

[2] Литий, Хэн и Ричард Дербин. “Быстрое и Точное Долго считанное Выравнивание с Преобразованием Нор-Wheeler”. Биоинформатика 26, № 5 (1 марта 2010): 589–95. https://doi.org/10.1093/bioinformatics/btp698.

Введенный в R2020b