BWAMEMOptions

Набор опций для bwamem

Описание

A BWAMEMOptions объект содержит опции для bwamem функция, которая выравнивает последовательность, считываемую с эталонным [1][2] генома.

Создание

Описание

пример

bwamemOpt = BWAMEMOptions создает BWAMEMOptions объект со значениями свойств по умолчанию.

BWAMEMOptions требуется пакет поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, то функция предоставляет ссылку на загрузку. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.

Примечание

BWAMEMOptions поддерживается в Mac и UNIX® только платформы.

пример

bwamemOpt = BWAMEMOptions(Name,Value) устанавливает свойства объекта с помощью одного или нескольких аргументов пары "имя-значение". Заключайте каждое имя свойства в кавычки. Для примера, bwamemOpt = BWAMEMOptions('BandWidth',90) устанавливает максимально допустимую длину зазора равную 90.

bwamemOpt = BWAMEMOptions(S) задает необязательные параметры с помощью строкового или символьного вектора S.

Входные параметры

расширить все

bwamem опции, заданные как вектор символов или строка. S должно быть в bwa mem синтаксис опции (префикс одним или двумя штрихами).

Пример: '-k14 -W20 -r10'

Свойства

расширить все

Порог для определения, какие удары получают тег XA в выходном файле SAM, заданный как неотрицательное целое n или двухэлементный числовой вектор [n m], где n и m должны быть неотрицательными целыми числами.

Если чтение имеет меньше n ударов с счетом более 80% от наилучшего счета для этого чтения, все удары получают тег XA в выходном файле SAM.

Когда вы также задаете m, программное обеспечение возвращает до m попаданий, если список попаданий содержит попадание в ALT-контакт.

Типы данных: double

Флаг для добавления комментариев FASTA или FASTQ к выходному файлу SAM, заданный как true или false. Комментарии появляются как текст после пространства в заголовке файла.

Типы данных: logical

Максимально допустимая длина зазора, заданная как неотрицательное целое число.

Типы данных: double

Количество основ в пакете, заданное как положительное целое число.

Если вы не задаете BasesPerBatch, программное обеспечение использует 1e7 * NumThreads по умолчанию. NumThreads количество параллельных потоков, доступных при запуске bwamem.

Если вы задаете BasesPerBatch, программное обеспечение использует это точное число и не умножает число на NumThreads. Это правило применяется независимо от того, заданы ли вы явно NumThreads или нет.

Однако, если вы задаете NumThreads но не BasesPerBatch, программное обеспечение использует 1e7 * NumThreads.

Размер пакета пропорционален количеству используемых параллельных потоков. Использование различного количества потоков может привести к различным выходам. Установка этой опции помогает с воспроизводимостью результатов.

Типы данных: double

Штраф за обрезку выравниваний, заданный как неотрицательное целое или двухэлементный числовой вектор. Каждое чтение имеет лучший счет для выравнивания, которая охватывает длину чтения. Программное обеспечение не зажимает выравнивания, которые не охватывают длину считывания и не оцениваются выше суммы ClipPenalty и лучший счет полнометражного чтения.

Задайте неотрицательное целое число, чтобы задать один и тот же штраф для обоих 5' и 3' усечение.

Задайте двухэлементный числовой вектор, чтобы задать различные штрафы для 5' и 3' усечение.

Типы данных: double

Порог для сбрасывания цепей относительно самой длинной перекрывающейся цепи, заданный как скаляр между 0 и 1.

Программное обеспечение сбрасывает цепи, которые короче DropChainFraction * (longest overlapping chain length).

Типы данных: double

Минимальное количество основ в семенах, образующих цепь, задается в виде неотрицательного целого числа. Программа сбрасывает цепи короче DropChainLength.

Типы данных: double

Дополнительные команды, заданные как вектор символов или строка.

Команды должны быть в собственном синтаксисе (с префиксом один или два штриха). Используйте эту опцию для применения недокументированных флагов и флагов без соответствующего MATLAB® свойства.

Когда программа преобразует исходные флаги в свойства MATLAB, она сохраняет все неопознанные флаги в этом свойстве.

Пример: '-y'

Типы данных: char | string

Флаг для включения заголовка FASTA в тег XR, заданный как true или false.

Типы данных: logical

Штраф за расширение погрешности, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]. n - штраф за продление удаления. m - штраф за расширение вставки.

Если вы задаете неотрицательное целое число, программа использует его как штраф за расширение удаления или вставки.

Типы данных: double

Штраф открытия промежутка, заданный как неотрицательное целое или двухэлементный числовой вектор [n m]. n - штраф за открытие удаления. m - штраф за открытие вставки.

Если вы задаете неотрицательное целое число, программа использует его в качестве штрафа за открытие удаления или вставки.

Типы данных: double

Текст для вставки в заголовок выходного файла SAM, заданный в виде вектора символов или строки.

Используйте одно из следующих действий:

  • Вектор символов или строка, которая начинается с @ чтобы вставить точный текст в заголовок SAM

  • Вектор символов или строка, являющаяся именем файла, где каждая линия в файле должна начинаться с @

Типы данных: char | string

Флаг для включения всех свойств объекта с соответствующими значениями по умолчанию при преобразовании в синтаксис исходных опций, заданный как true или false. Можно преобразовать свойства в исходный синтаксис, префиксированный одним или двумя штрихами (такими как '-d 100 -e 80') при помощи getCommand. Значение по умолчанию false означает, что, когда вы вызываете getCommand(optionsObject)преобразует только указанные свойства. Если значение true, getCommand преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств в исходный синтаксис.

Примечание

Если вы задаете IncludeAll на trueпрограммное обеспечение преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что когда значение по умолчанию свойства NaN, Inf, [], '', или "", тогда программное обеспечение не преобразует соответствующее свойство.

Пример: true

Типы данных: logical

Вставьте параметры распределения размеров, заданные как четырехэлементный числовой массив [mean std max min].

  • mean - средний размер вставки.

  • std - стандартное отклонение.

  • max - максимальный размер вставки.

  • min - минимальный размер вставки.

Если вы задаете массив n элементов, где n меньше четырех, элементы задают первые параметры распределения n. По умолчанию программное обеспечение выводит неопределенные параметры из данных.

Типы данных: double

Флаг, чтобы отметить более короткие разделенные удары как вторичные в флаге SAM, заданный как true или false.

Типы данных: logical

Флаг для маркировки сегмента с наименьшими координатами как основного при разделении выравнивания, заданный как true или false.

Типы данных: logical

Счет для совпадения последовательности, заданный как неотрицательное целое число.

Типы данных: double

Максимальное количество вхождений MEM (максимальное точное соответствие) для каждого чтения перед его отбросом, заданное как положительное целое число.

Типы данных: double

Максимальное количество раундов спасения пары для каждого чтения, заданное в виде неотрицательного целого числа. Программа использует алгоритм Smith-Waterman (SW) для спасения помощника.

Типы данных: double

Минимальная длина seed, заданная как положительное целое число. Программа отбрасывает любые совпадения короче минимальной длины seed.

Типы данных: double

Штраф за несоответствие выравнивания, заданный как неотрицательное целое число.

Типы данных: double

Количество параллельных потоков, заданное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков обычно значительно улучшает время выполнения, но увеличивает объем памяти.

Типы данных: double

Флаг для возврата всех найденных выравниваний, включая непарные и парные чтения, заданный как true или false. Если значение trueпрограмма возвращает все найденные выравнивания и помечает их как вторичные выравнивания.

Типы данных: logical

Порог счета для возвращаемых выравниваний, заданный как положительное целое число. Укажите минимальный счет, который должен быть выравниваниями в файле выхода.

Типы данных: double

Текст для вставки в заголовок группы чтения (RG) линии в файле выхода, заданный как вектор символов или строка.

Типы данных: char | string

Тип чтения для выравнивания, заданный как вектор символов или строка. Каждый тип чтения имеет различные значения параметров по умолчанию для использования во время выравнивания. Можно перезаписать любые параметры. Допустимые опции:

  • 'pacbio' - PacBio читает

  • 'ont2d' - Оксфордский нанопор 2D читается

  • 'intractg' - Внутривидовые контиги

Значения параметров следующие.

'pacbio'

  • MinSeedLength = 17

  • DropChainLength = 40

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис '-k17 -W40 -r10 -A1 -B1 -O1 -E1 -L0'.

'ont2d'

  • MinSeedLength = 14

  • DropChainLength = 20

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис '-k14 -W20 -r10 -A1 -B1 -O1 -E1 -L0'.

'intractg'

  • MismatchPenalty = 9

  • GapOpenPenalty = 16

  • ClipPenalty = 5

Эквивалентный собственный синтаксис '-B9 -O16 -L5'.

Типы данных: char | string

Флаг для уменьшения счета качества отображения (MAPQ) дополнительных выравниваний, заданный как true или false.

Типы данных: logical

Порог для переопределения, заданное как неотрицательное целое число. Укажите длину seed, при которой повторное высевание происходит относительно минимальной длины seed MinSeedLength. В частности, если MEM (максимальное точное соответствие) длиннее MinSeedLength * SeedSplitRatio, происходит повторная подача.

Типы данных: double

Флаг для пропуска спасения помощника, заданный как true или false. Mate rescue использует алгоритм Смита-Уотермана (SW), чтобы согласовать несопоставленные чтения с сопоставлениями, которые правильно выровнены.

Типы данных: logical

Флаг для пропуска соединения чтения, заданный как true или false. Если true, для парных чтений, программное обеспечение использует алгоритм Smith-Waterman (SW), чтобы спасти только отсутствующие хиты и не пытается найти хиты, которые соответствуют правильной паре.

Типы данных: logical

Флаг для выполнения интеллектуального сопряжения, заданный как true или false. Если значение true, программные пары смежных чтений, которые находятся в том же файле и имеют то же имя. Такие файлы FASTQ также известны как перемеженные файлы.

Типы данных: logical

Флаг для дополнительных выравниваний мягкого зажима, заданный как true или false. Если значение true, программное обеспечение мягко зажимает как дополнительные выравнивания, так и первичную выравнивание.

Значение по умолчанию false, что означает, что программное обеспечение мягко фиксирует основное выравнивание и жестко фиксирует дополнительные выравнивания.

Типы данных: logical

Флаг для обработки ALT contigs как части первичной сборки, заданный как true или false.

Типы данных: logical

Штраф за отображение считанных пар как непарных, заданный как неотрицательное целое число.

Счет выравнивания для парной пары чтения read1 счет + read2 счет - вставка штрафа. Счет выравнивания для непарной пары чтения read1 счет + read2 счет - UnpairedReadPense. Программное обеспечение сравнивает эти два счетов, чтобы принудительно считать сопряжение. Больший UnpairedReadPenalty значение приводит к более агрессивному соединению в пару считывания.

Типы данных: double

Уровень подробностей информации, напечатанной в командной строке MATLAB во время работы программного обеспечения, заданный как неотрицательное целое число. Допустимые опции:

  • 0 - Для отключения всех выходов в командной строке.

  • 1 - Для печати сообщений об ошибке.

  • 2 - Для печати предупреждений и сообщений об ошибке.

  • 3 - Для печати всех сообщений.

  • 4 - Только в целях отладки.

Типы данных: double

Это свойство доступно только для чтения.

Поддерживаемая версия исходного bwa программное обеспечение, возвращаемое как строка.

Пример: "0.7.17"

Типы данных: string

Отсечение для расширения Смита-Уотермана (SW), заданное как неотрицательное целое число. Программа использует следующее выражение:

|ij|MatchScore+ZDropOff, где i и j являются текущими позициями запроса и ссылки, соответственно. Когда различие между лучшим счетом и текущим счетом расширения больше этого значения выражения, программное обеспечение прекращает расширение SW.

Типы данных: double

Функции объекта

getCommandПереведите свойства объекта в синтаксис исходных опций
getOptionsTableВозвращает таблицу со всеми свойствами и эквивалентными опциями в исходном синтаксисе

Примеры

свернуть все

Этот пример требует пакета поддержки BWA для Bioinformatics Toolbox™. Если пакет поддержки не установлен, программное обеспечение предоставляет ссылку для загрузки. Для получения дополнительной информации смотрите Пакеты поддержки ПО Bioinformatics Toolbox.

Создайте набор файлов индекса для генома дрозофилы. Этот пример использует ссылочную последовательность Dmel_chr4.fa, поставляется с тулбоксом. The 'Prefix' Аргумент позволяет вам задать префикс выходных файлов индекса. Можно также включать информацию о пути к файлу. В данном примере задайте префикс следующим Dmel_chr4 и сохраните файлы индекса в текущей директории.

bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');

В качестве альтернативы указанию аргументов пары "имя-значение" можно использовать BWAIndexOptions Объект, чтобы задать опции индексации.

indexOpt = BWAIndexOptions;
indexOpt.Prefix = './Dmel_chr4';
indexOpt.Algorithm = 'bwtsw';
bwaindex('Dmel_chr4.fa',indexOpt);

Когда файлы индекса будут готовы, сопоставьте последовательности чтения со ссылкой с помощью bwamem. Два входных файлов считывания в паре уже поставляются с тулбоксом. Используя аргументы пары "имя-значение", можно задать различные опции выравнивания, такие как количество параллельных потоков для использования.

bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);

Также можно использовать BWAMEMoptions для задания опций выравнивания.

alignOpt = BWAMEMOptions;
alignOpt.NumThreads = 4;
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)

Ссылки

[1] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при коротком считывании с преобразованием Burrows-Wheeler. Биоинформатика 25, № 14 (15 июля 2009): 1754-60. https://doi.org/10.1093/bioinformatics/btp324.

[2] Ли, Хэн и Ричард Дурбин. Быстрая и точная выравнивание при долгом чтении с преобразованием Burrows-Wheeler. Биоинформатика 26, № 5 (1 марта 2010): 589-95. https://doi.org/10.1093/bioinformatics/btp698.

Введенный в R2020b