exponenta event banner

bwamem

Последовательность карт считывает в эталонный геном с помощью BWA

Описание

пример

bwamem(indexBaseName,reads1,reads2,outputFileName) сопоставляет последовательные чтения из reads1 и reads2 по ссылочной последовательности и записывает результаты в выходной файл outputFileName. Вход indexBaseName представляет базовое имя (префикс) [1][2] ссылочных индексных файлов.

bwamem требуется пакет поддержки BWA для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.

Примечание

bwamem поддерживается только на платформах Mac и UNIX ®.

пример

bwamem(___,options) использует дополнительные параметры, указанные в options. Укажите эти параметры после всех других входных аргументов.

пример

bwamem(___,Name,Value) использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, 'BandWidth',90 устанавливает максимально допустимую длину зазора равной 90.

Примеры

свернуть все

В этом примере требуется пакет поддержки BWA для Toolbox™ биоинформатики. Если пакет поддержки не установлен, программа предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.

Создайте набор индексных файлов для генома дрозофилы. В этом примере используется ссылочная последовательность Dmel_chr4.fa, с набором инструментов. 'Prefix' позволяет определить префикс выходных индексных файлов. Можно также включить информацию о пути к файлу. Для этого примера определите префикс как Dmel_chr4 и сохраните индексные файлы в текущей папке.

bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');

В качестве альтернативы указанию аргументов пары «имя-значение» можно использовать BWAIndexOptions для задания параметров индексирования.

indexOpt = BWAIndexOptions;
indexOpt.Prefix = './Dmel_chr4';
indexOpt.Algorithm = 'bwtsw';
bwaindex('Dmel_chr4.fa',indexOpt);

Как только индексные файлы будут готовы, сопоставьте считанные последовательности со ссылкой с помощью bwamem. На панели инструментов уже имеются два входных файла для чтения. С помощью аргументов пары «имя-значение» можно задать различные параметры выравнивания, например, количество параллельных потоков.

bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);

Кроме того, можно использовать BWAMEMoptions для задания параметров трассы.

alignOpt = BWAMEMOptions;
alignOpt.NumThreads = 4;
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)

Входные аргументы

свернуть все

Базовое имя (префикс) ссылочных индексных файлов, указанное как символьный вектор или строка. Например, базовое имя индексного файла 'Dmel_chr4.bwt' является 'Dmel_chr4'.

Индексные файлы находятся в форматах AMB, ANN, BWT, PAC и SA.

Пример: 'Dmel_chr4'

Типы данных: char | string

Имя файла с первым совпадающим чтением или одинарным чтением, указанное как символьный вектор или строка.

Для данных парного конца последовательности в reads1 должны соответствовать последовательностям в reads2.

Пример: 'SRR6008575_10k_1.fq'

Типы данных: char | string

Имя файла со вторым совмещением, указанное как символьный вектор или строка.

Определить reads2 как пустые ([], '', или ""), если данные состоят только из одного конца чтения.

Пример: 'SRR6008575_10k_2.fq'

Типы данных: char | string

Имя выходного файла, указанное как символьный вектор или строка. Этот файл содержит результаты сопоставления.

Пример: 'SRR6008575_10k_chr4.sam'

Типы данных: char | string

Дополнительные параметры сопоставления, указанные как BWAMEMOptions объект, символьный вектор или строка. Вектор или строка символа должны быть в bwa mem собственный синтаксис (префикс с помощью тире). Если указать BWAMEMOptions , программа использует только те свойства, которые заданы или изменены.

Типы данных: char | string

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90) устанавливает 90 в качестве максимально допустимого зазора.

Пороговое значение для определения, какие совпадения получают тег XA в выходном SAM-файле, указанное как неотрицательное целое число n или двухэлементный числовой вектор [n m], где n и m должны быть неотрицательными целыми числами.

Если считывание имеет менее n совпадений с оценкой, превышающей 80% от наилучшей оценки для этого чтения, все совпадения получают тег XA в выходном SAM-файле.

При указании m программа возвращает до m попаданий, если список попаданий содержит попадание в продолжение ALT.

Типы данных: double

Флаг для добавления комментариев FASTA или FASTQ к выходному SAM-файлу, указанный как true или false. Комментарии отображаются в виде текста после пробела в заголовке файла.

Типы данных: logical

Максимально допустимая длина зазора, заданная как неотрицательное целое число.

Типы данных: double

Число оснований в пакете, указанное как положительное целое число.

Если не указать BasesPerBatch, программное обеспечение использует 1e7 * NumThreads по умолчанию. NumThreads - количество параллельных потоков, доступных при выполнении bwamem.

При указании BasesPerBatch, программное обеспечение использует это точное число и не умножает число на NumThreads. Это правило применяется независимо от того, задано ли явно NumThreads или нет.

Однако при указании NumThreads но не BasesPerBatch, программное обеспечение использует 1e7 * NumThreads.

Размер пакета пропорционален количеству используемых параллельных потоков. Использование различного количества потоков может привести к различным выходам. Указание этого параметра помогает обеспечить воспроизводимость результатов.

Типы данных: double

Штраф для отсеченных трасс, определяемый как неотрицательное целое число или двухэлементный числовой вектор. Каждое чтение имеет наилучший балл для выравнивания, охватывающего длину чтения. Программа не отсекает трассы, которые не охватывают длину чтения и не имеют баллов выше суммы ClipPenalty и лучший балл полнометражного прочтения.

Укажите неотрицательное целое число, чтобы установить одинаковый штраф для обоих 5' и 3' отсечение.

Укажите двухэлементный числовой вектор для установки различных штрафов 5' и 3' отсечение.

Типы данных: double

Порог отбрасывания цепочек относительно самой длинной перекрывающейся цепочки, заданный как скаляр между 0 и 1.

Программное обеспечение сбрасывает цепочки, которые короче, чем DropChainFraction * (longest overlapping chain length).

Типы данных: double

Минимальное число оснований в семенах, образующих цепь, определяемое как неотрицательное целое число. Программное обеспечение сбрасывает цепочки короче, чем DropChainLength.

Типы данных: double

Дополнительные команды, определяемые как символьный вектор или строка.

Команды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ®.

Пример: 'ExtraCommand','-y'

Типы данных: char | string

Флаг для включения заголовка FASTA в тег XR, указанный как true или false.

Типы данных: logical

Штраф за расширение промежутка, указанный как неотрицательное целое число или двухэлементный числовой вектор [n m]. n - штраф за продление удаления. m - штраф за расширение вставки.

Если указано неотрицательное целое число, программа использует его в качестве штрафа за расширение удаления или вставки.

Типы данных: double

Штраф за открытие разрыва, заданный как неотрицательное целое число или двухэлементный числовой вектор [n m]. n - штраф за открытие удаления. m - штраф за открытие вставки.

Если указано неотрицательное целое число, программа использует его как штраф за открытие удаления или вставки.

Типы данных: double

Текст для вставки в заголовок выходного SAM-файла, указанный как символьный вектор или строка.

Используйте одно из следующих действий.

  • Символьный вектор или строка, начинающаяся с @ для вставки точного текста в заголовок SAM

  • Символьный вектор или строка, являющаяся именем файла, где каждая строка файла должна начинаться с @

Типы данных: char | string

Флажок для включения всех доступных опций с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис, указанный как true или false.

Исходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.

Примечание

Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.

Типы данных: logical

Вставить параметры распределения размеров, заданные как четырехэлементный числовой массив [mean std max min].

  • среднее - средний размер вставки.

  • std - стандартное отклонение.

  • max - максимальный размер вставки.

  • min - минимальный размер вставки.

Если задан массив n элементов, где n меньше четырех, элементы задают первые n параметров распределения. По умолчанию программа выводит неустановленные параметры из данных.

Типы данных: double

Флаг для пометки более коротких совпадений разделения как вторичных в флаге SAM, указанный как true или false.

Типы данных: logical

Флажок для обозначения сегмента с наименьшими координатами в качестве основного при разделении трассы, указанный как true или false.

Типы данных: logical

Оценка соответствия последовательности, указанная как неотрицательное целое число.

Типы данных: double

Максимальное количество экземпляров MEM (максимальное точное совпадение) для каждого чтения до его отбрасывания, указанное как положительное целое число.

Типы данных: double

Максимальное количество раундов восстановления совмещения для каждого чтения, указанное как неотрицательное целое число. Программное обеспечение использует алгоритм Смита-Уотермана (SW) для спасения спутника жизни.

Типы данных: double

Минимальная длина начального числа, заданная как положительное целое число. Программа отбрасывает любые совпадения, более короткие, чем минимальная начальная длина.

Типы данных: double

Штраф за несоответствие выравнивания, указанное как неотрицательное целое число.

Типы данных: double

Число параллельных потоков для использования, указанное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков, как правило, значительно улучшает время выполнения, но увеличивает объем памяти.

Типы данных: double

Флажок для возврата всех найденных трасс, включая непарные и парные чтения, указанные как true или false. Если значение равно true, программа возвращает все найденные трассы и помечает их как вторичные трассы.

Типы данных: logical

Порог оценки для возвращаемых трасс, заданный как положительное целое число. Укажите минимальный балл, который должен быть в выходном файле для трасс.

Типы данных: double

Текст для вставки в строку заголовка группы чтения (RG) в выходном файле, указанный как символьный вектор или строка.

Типы данных: char | string

Тип чтения для выравнивания, заданный как символьный вектор или строка. Каждый тип считывания имеет различные значения параметров по умолчанию для использования во время выравнивания. Можно перезаписать любые параметры. Допустимые параметры:

  • 'pacbio' - PacBio читает

  • 'ont2d' - Оксфордский нанопорный 2D читает

  • 'intractg' - Внутривидовые контиги

Значения параметров следующие.

'pacbio'

  • MinSeedLength = 17

  • DropChainLength = 40

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис: '-k17 -W40 -r10 -A1 -B1 -O1 -E1 -L0'.

'ont2d'

  • MinSeedLength = 14

  • DropChainLength = 20

  • SeedSplitRatio = 10

  • MatchScore = 1

  • MismatchPenalty = 1

  • GapOpenPenalty = 1

  • GapExtensionPenalty = 1

  • ClipPenalty = 0

Эквивалентный собственный синтаксис: '-k14 -W20 -r10 -A1 -B1 -O1 -E1 -L0'.

'intractg'

  • MismatchPenalty = 9

  • GapOpenPenalty = 16

  • ClipPenalty = 5

Эквивалентный собственный синтаксис: '-B9 -O16 -L5'.

Типы данных: char | string

Флаг для уменьшения показателя качества отображения (MAPQ) дополнительных трасс, указанный как true или false.

Типы данных: logical

Порог повторной загрузки, заданный как неотрицательное целое число. Укажите длину начального уровня, при которой выполняется повторное заполнение, относительно минимальной длины начального уровня MinSeedLength. В частности, если MEM (максимальное точное совпадение) длиннее, чем MinSeedLength * SeedSplitRatio, происходит повторная загрузка.

Типы данных: double

Флаг для пропуска спасательной операции со спутником, указанный как true или false. Функция спасения спаривания использует алгоритм Смита-Уотермана (SW) для выравнивания несопоставленных операций чтения с правильно выровненными соединениями.

Типы данных: logical

Флаг для пропуска пары чтения, указанный как true или false. Если true, для парных чтения, программное обеспечение использует алгоритм Смита-Уотермана (SW), чтобы спасти только отсутствующие хиты, и не пытается найти хиты, которые подходят для правильной пары.

Типы данных: logical

Флаг для выполнения смарт-спаривания, указанный как true или false. Если значение равно true, программные пары смежных операций чтения, которые находятся в одном файле и имеют одно и то же имя. Такие файлы FASTQ также известны как перемежающиеся файлы.

Типы данных: logical

Флажок для дополнительных трасс мягкого клипа, указанный как true или false. Если значение равно trueпрограммно-мягкие зажимы выполняют как дополнительные выравнивания, так и первичное выравнивание.

Значение по умолчанию: false, что означает, что программное обеспечение блокирует первичное выравнивание и жестко зажимает дополнительные выравнивания.

Типы данных: logical

Флаг для обработки компонентов ALT как части основной сборки, указанный как true или false.

Типы данных: logical

Штраф для сопоставления пар чтения как непарных, задается как неотрицательное целое число.

Балл выравнивания для парной пары чтения равен read1 score + read2 score - insert penalty. Балл выравнивания для непарной пары чтения равен read1 score + read2 score - UnpairedReadPenalty. Программное обеспечение сравнивает эти два балла, чтобы принудительно связать чтение. Большее UnpairedReadPenalty значение приводит к более агрессивному спариванию чтения.

Типы данных: double

Уровень детализации информации, напечатанной в командной строке MATLAB во время работы программы, указывается как неотрицательное целое число. Допустимые параметры:

  • 0 - для отключения всех выходов в командной строке.

  • 1 - Для печати сообщений об ошибках.

  • 2 - Для печати предупреждений и сообщений об ошибках.

  • 3 - Для печати всех сообщений.

  • 4 - Только для отладки.

Типы данных: double

Отсечение для расширения Смита-Уотермана (SW), заданного как неотрицательное целое число. Программное обеспечение использует следующее выражение:

|i−j|∗MatchScore+ZDropOff, где i и j - текущие позиции запроса и ссылки соответственно. Если разница между лучшим баллом и текущим баллом расширения больше, чем это значение выражения, программное обеспечение завершает расширение SW.

Типы данных: double

Ссылки

[1] Ли, Хенг и Ричард Дурбин. «Быстрое и точное короткое выравнивание чтения с преобразованием Burrows-Wheeler». Биоинформатика 25, № 14 (15 июля 2009): 1754-60. https://doi.org/10.1093/bioinformatics/btp324.

[2] Ли, Хенг и Ричард Дурбин. «Быстрое и точное длинночитаемое выравнивание с преобразованием Бэрроуз-Уилер». Биоинформатика 26, № 5 (1 марта 2010): 589-95. https://doi.org/10.1093/bioinformatics/btp698.

Представлен в R2020b