Последовательность карт считывает в эталонный геном с помощью BWA
bwamem( сопоставляет последовательные чтения из indexBaseName,reads1,reads2,outputFileName)reads1 и reads2 по ссылочной последовательности и записывает результаты в выходной файл outputFileName. Вход indexBaseName представляет базовое имя (префикс) [1][2] ссылочных индексных файлов.
bwamem требуется пакет поддержки BWA для Toolbox™ биоинформатики. Если пакет поддержки не установлен, функция предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.
Примечание
bwamem поддерживается только на платформах Mac и UNIX ®.
bwamem(___, использует дополнительные параметры, указанные в options)options. Укажите эти параметры после всех других входных аргументов.
bwamem(___, использует дополнительные параметры, заданные одним или несколькими аргументами пары имя-значение. Например, Name,Value)'BandWidth',90 устанавливает максимально допустимую длину зазора равной 90.
В этом примере требуется пакет поддержки BWA для Toolbox™ биоинформатики. Если пакет поддержки не установлен, программа предоставляет ссылку для загрузки. Дополнительные сведения см. в разделе Пакеты поддержки ПО для панели инструментов биоинформатики.
Создайте набор индексных файлов для генома дрозофилы. В этом примере используется ссылочная последовательность Dmel_chr4.fa, с набором инструментов. 'Prefix' позволяет определить префикс выходных индексных файлов. Можно также включить информацию о пути к файлу. Для этого примера определите префикс как Dmel_chr4 и сохраните индексные файлы в текущей папке.
bwaindex('Dmel_chr4.fa','Prefix','./Dmel_chr4');
В качестве альтернативы указанию аргументов пары «имя-значение» можно использовать BWAIndexOptions для задания параметров индексирования.
indexOpt = BWAIndexOptions; indexOpt.Prefix = './Dmel_chr4'; indexOpt.Algorithm = 'bwtsw'; bwaindex('Dmel_chr4.fa',indexOpt);
Как только индексные файлы будут готовы, сопоставьте считанные последовательности со ссылкой с помощью bwamem. На панели инструментов уже имеются два входных файла для чтения. С помощью аргументов пары «имя-значение» можно задать различные параметры выравнивания, например, количество параллельных потоков.
bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam','NumThreads',4);
Кроме того, можно использовать BWAMEMoptions для задания параметров трассы.
alignOpt = BWAMEMOptions; alignOpt.NumThreads = 4; bwamem('Dmel_chr4','SRR6008575_10k_1.fq','SRR6008575_10k_2.fq','SRR6008575_10k_chr4.sam',alignOpt)
indexBaseName - Базовое имя ссылочных индексных файловБазовое имя (префикс) ссылочных индексных файлов, указанное как символьный вектор или строка. Например, базовое имя индексного файла 'Dmel_chr4.bwt' является 'Dmel_chr4'.
Индексные файлы находятся в форматах AMB, ANN, BWT, PAC и SA.
Пример: 'Dmel_chr4'
Типы данных: char | string
reads1 - Имя файла с первым дублирующим чтением или одинарным чтениемИмя файла с первым совпадающим чтением или одинарным чтением, указанное как символьный вектор или строка.
Для данных парного конца последовательности в reads1 должны соответствовать последовательностям в reads2.
Пример: 'SRR6008575_10k_1.fq'
Типы данных: char | string
reads2 - Имя файла со вторым матом[]Имя файла со вторым совмещением, указанное как символьный вектор или строка.
Определить reads2 как пустые ([], '', или ""), если данные состоят только из одного конца чтения.
Пример: 'SRR6008575_10k_2.fq'
Типы данных: char | string
outputFileName - Имя выходного файлаИмя выходного файла, указанное как символьный вектор или строка. Этот файл содержит результаты сопоставления.
Пример: 'SRR6008575_10k_chr4.sam'
Типы данных: char | string
options - Дополнительные параметры для отображенияBWAMEMOptions объект | символьный вектор | строкаДополнительные параметры сопоставления, указанные как BWAMEMOptions объект, символьный вектор или строка. Вектор или строка символа должны быть в bwa mem собственный синтаксис (префикс с помощью тире). Если указать BWAMEMOptions , программа использует только те свойства, которые заданы или изменены.
Типы данных: char | string
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
bwamem(indexbasename,reads1,reads2,outputfile,'BandWidth',90) устанавливает 90 в качестве максимально допустимого зазора.'AlternativeHitsThreshold' - Пороговое значение для определения совпадений с тегом приема XA в выходном SAM-файле[5 200] (по умолчанию) | неотрицательное целое | двухэлементный числовой векторПороговое значение для определения, какие совпадения получают тег XA в выходном SAM-файле, указанное как неотрицательное целое число n или двухэлементный числовой вектор [n m], где n и m должны быть неотрицательными целыми числами.
Если считывание имеет менее n совпадений с оценкой, превышающей 80% от наилучшей оценки для этого чтения, все совпадения получают тег XA в выходном SAM-файле.
При указании m программа возвращает до m попаданий, если список попаданий содержит попадание в продолжение ALT.
Типы данных: double
'AppendReadCommentsToSAM' - Флажок для добавления комментариев FASTA или FASTQ к выходному SAM-файлуfalse (по умолчанию) | trueФлаг для добавления комментариев FASTA или FASTQ к выходному SAM-файлу, указанный как true или false. Комментарии отображаются в виде текста после пробела в заголовке файла.
Типы данных: logical
'BandWidth' - Максимально допустимая длина зазора100 (по умолчанию) | неотрицательное целое числоМаксимально допустимая длина зазора, заданная как неотрицательное целое число.
Типы данных: double
'BasesPerBatch' - Количество баз на партию[] (по умолчанию) | положительное целое числоЧисло оснований в пакете, указанное как положительное целое число.
Если не указать BasesPerBatch, программное обеспечение использует 1e7 * NumThreads по умолчанию. NumThreads - количество параллельных потоков, доступных при выполнении bwamem.
При указании BasesPerBatch, программное обеспечение использует это точное число и не умножает число на NumThreads. Это правило применяется независимо от того, задано ли явно NumThreads или нет.
Однако при указании NumThreads но не BasesPerBatch, программное обеспечение использует 1e7 * NumThreads.
Размер пакета пропорционален количеству используемых параллельных потоков. Использование различного количества потоков может привести к различным выходам. Указание этого параметра помогает обеспечить воспроизводимость результатов.
Типы данных: double
'ClipPenalty' - Штраф за подрезанные трассы[5 5] (по умолчанию) | неотрицательное целое | двухэлементный числовой векторШтраф для отсеченных трасс, определяемый как неотрицательное целое число или двухэлементный числовой вектор. Каждое чтение имеет наилучший балл для выравнивания, охватывающего длину чтения. Программа не отсекает трассы, которые не охватывают длину чтения и не имеют баллов выше суммы ClipPenalty и лучший балл полнометражного прочтения.
Укажите неотрицательное целое число, чтобы установить одинаковый штраф для обоих 5' и 3' отсечение.
Укажите двухэлементный числовой вектор для установки различных штрафов 5' и 3' отсечение.
Типы данных: double
'DropChainFraction' - Порог отбрасывания цепей относительно самой длинной перекрывающейся цепи0.5 (по умолчанию) | скаляр между 0 и 1Порог отбрасывания цепочек относительно самой длинной перекрывающейся цепочки, заданный как скаляр между 0 и 1.
Программное обеспечение сбрасывает цепочки, которые короче, чем DropChainFraction * (longest overlapping chain length).
Типы данных: double
'DropChainLength' - Минимальное количество баз0 (по умолчанию) | неотрицательное целое числоМинимальное число оснований в семенах, образующих цепь, определяемое как неотрицательное целое число. Программное обеспечение сбрасывает цепочки короче, чем DropChainLength.
Типы данных: double
'ExtraCommand' - Дополнительные команды"" (по умолчанию) | символьный вектор | строкаДополнительные команды, определяемые как символьный вектор или строка.
Команды должны иметь собственный синтаксис (префикс одного или двух тире). Эта опция используется для применения флагов и флагов без документов без соответствующих свойств MATLAB ®.
Пример: 'ExtraCommand','-y'
Типы данных: char | string
'FastaHeaderToXR' - Флаг для включения заголовка FASTA в тег XRfalse (по умолчанию) | trueФлаг для включения заголовка FASTA в тег XR, указанный как true или false.
Типы данных: logical
'GapExtensionPenalty' - Штраф за увеличение разрыва[1 1] (по умолчанию) | неотрицательное целое | двухэлементный числовой векторШтраф за расширение промежутка, указанный как неотрицательное целое число или двухэлементный числовой вектор [n m]. n - штраф за продление удаления. m - штраф за расширение вставки.
Если указано неотрицательное целое число, программа использует его в качестве штрафа за расширение удаления или вставки.
Типы данных: double
'GapOpenPenalty' - Штраф за открытие разрыва[6 6] (по умолчанию) | неотрицательное целое | двухэлементный числовой векторШтраф за открытие разрыва, заданный как неотрицательное целое число или двухэлементный числовой вектор [n m]. n - штраф за открытие удаления. m - штраф за открытие вставки.
Если указано неотрицательное целое число, программа использует его как штраф за открытие удаления или вставки.
Типы данных: double
'HeaderInsert' - Текст для вставки в заголовок выходного SAM-файла[0x0 string] (по умолчанию) | символьный вектор | строкаТекст для вставки в заголовок выходного SAM-файла, указанный как символьный вектор или строка.
Используйте одно из следующих действий.
Символьный вектор или строка, начинающаяся с @ для вставки точного текста в заголовок SAM
Символьный вектор или строка, являющаяся именем файла, где каждая строка файла должна начинаться с @
Типы данных: char | string
'IncludeAll' - Флажок для применения всех доступных опцийfalse (по умолчанию) | trueФлажок для включения всех доступных опций с соответствующими значениями по умолчанию при преобразовании в исходный синтаксис, указанный как true или false.
Исходный (собственный) синтаксис префиксируется одним или двумя тире. По умолчанию функция преобразует только указанные опции. Если значение равно true, программа преобразует все доступные опции со значениями по умолчанию для неуказанных опций в исходный синтаксис.
Примечание
Если установить IncludeAll кому true, программа преобразует все доступные свойства со значениями по умолчанию для неопределенных свойств. Единственным исключением является то, что если значением по умолчанию свойства является NaN, Inf, [], '', или "", то программное обеспечение не переводит соответствующее свойство.
Типы данных: logical
'InsertSizeStatistics' - Вставить параметры распределения размеров[1x0 double] (по умолчанию) | четырехэлементный числовой массивВставить параметры распределения размеров, заданные как четырехэлементный числовой массив [mean std max min].
среднее - средний размер вставки.
std - стандартное отклонение.
max - максимальный размер вставки.
min - минимальный размер вставки.
Если задан массив n элементов, где n меньше четырех, элементы задают первые n параметров распределения. По умолчанию программа выводит неустановленные параметры из данных.
Типы данных: double
'MarkShortSplitsSecond' - Флаг для обозначения более коротких разделенных попаданий как вторичныхfalse (по умолчанию) | trueФлаг для пометки более коротких совпадений разделения как вторичных в флаге SAM, указанный как true или false.
Типы данных: logical
'MarkSmallestCoordinatePrimary' - Флажок для обозначения сегмента с наименьшими координатами в качестве основногоfalse (по умолчанию) | trueФлажок для обозначения сегмента с наименьшими координатами в качестве основного при разделении трассы, указанный как true или false.
Типы данных: logical
'MatchScore' - Счет за соответствие последовательности1 (по умолчанию) | неотрицательное целое числоОценка соответствия последовательности, указанная как неотрицательное целое число.
Типы данных: double
'MaxMemOccurrence' - Максимальное количество экземпляров MEM500 (по умолчанию) | положительное целое числоМаксимальное количество экземпляров MEM (максимальное точное совпадение) для каждого чтения до его отбрасывания, указанное как положительное целое число.
Типы данных: double
'MaxRoundsMateRescue' - Максимальное количество раундов спасения спутника50 (по умолчанию) | неотрицательное целое числоМаксимальное количество раундов восстановления совмещения для каждого чтения, указанное как неотрицательное целое число. Программное обеспечение использует алгоритм Смита-Уотермана (SW) для спасения спутника жизни.
Типы данных: double
'MinSeedLength' - Минимальная длина семени19 (по умолчанию) | положительное целое числоМинимальная длина начального числа, заданная как положительное целое число. Программа отбрасывает любые совпадения, более короткие, чем минимальная начальная длина.
Типы данных: double
'MismatchPenalty' - Штраф за несоответствие центровки4 (по умолчанию) | неотрицательное целое числоШтраф за несоответствие выравнивания, указанное как неотрицательное целое число.
Типы данных: double
'NumThreads' - Количество параллельных потоков1 (по умолчанию) | положительное целое числоЧисло параллельных потоков для использования, указанное как положительное целое число. Потоки выполняются на отдельных процессорах или ядрах. Увеличение количества потоков, как правило, значительно улучшает время выполнения, но увеличивает объем памяти.
Типы данных: double
'OutputAllAlignments' - Флаг для возврата всех найденных трассfalse (по умолчанию) | trueФлажок для возврата всех найденных трасс, включая непарные и парные чтения, указанные как true или false. Если значение равно true, программа возвращает все найденные трассы и помечает их как вторичные трассы.
Типы данных: logical
'OutputScoreThreshold' - Порог оценки для возвращаемых трасс30 (по умолчанию) | положительное целое числоПорог оценки для возвращаемых трасс, заданный как положительное целое число. Укажите минимальный балл, который должен быть в выходном файле для трасс.
Типы данных: double
'ReadGroupLine' - Текст для вставки в заголовок группы для чтения[0x0 string] (по умолчанию) | символьный вектор | строкаТекст для вставки в строку заголовка группы чтения (RG) в выходном файле, указанный как символьный вектор или строка.
Типы данных: char | string
'ReadType' - Тип чтения для выравнивания[0x0 string] (по умолчанию) | 'pacbio | 'ont2d | 'intractg'Тип чтения для выравнивания, заданный как символьный вектор или строка. Каждый тип считывания имеет различные значения параметров по умолчанию для использования во время выравнивания. Можно перезаписать любые параметры. Допустимые параметры:
'pacbio' - PacBio читает
'ont2d' - Оксфордский нанопорный 2D читает
'intractg' - Внутривидовые контиги
Значения параметров следующие.
|
Эквивалентный собственный синтаксис: |
|
Эквивалентный собственный синтаксис: |
|
Эквивалентный собственный синтаксис: |
Типы данных: char | string
'ReduceSupplementaryMAPQ' - Флаг для снижения показателя качества отображения (MAPQ) дополнительных трассtrue (по умолчанию) | falseФлаг для уменьшения показателя качества отображения (MAPQ) дополнительных трасс, указанный как true или false.
Типы данных: logical
'SeedSplitRatio' - Пороговое значение для повторной загрузки1.50 (по умолчанию) | неотрицательное целое числоПорог повторной загрузки, заданный как неотрицательное целое число. Укажите длину начального уровня, при которой выполняется повторное заполнение, относительно минимальной длины начального уровня MinSeedLength. В частности, если MEM (максимальное точное совпадение) длиннее, чем MinSeedLength * SeedSplitRatio, происходит повторная загрузка.
Типы данных: double
'SkipMateRescue' - Флаг для пропуска спасения спутника жизниfalse (по умолчанию) | trueФлаг для пропуска спасательной операции со спутником, указанный как true или false. Функция спасения спаривания использует алгоритм Смита-Уотермана (SW) для выравнивания несопоставленных операций чтения с правильно выровненными соединениями.
Типы данных: logical
'SkipPairing' - Флаг для пропуска спаривания для чтенияfalse (по умолчанию) | trueФлаг для пропуска пары чтения, указанный как true или false. Если true, для парных чтения, программное обеспечение использует алгоритм Смита-Уотермана (SW), чтобы спасти только отсутствующие хиты, и не пытается найти хиты, которые подходят для правильной пары.
Типы данных: logical
'SmartPairing' - Флаг для выполнения интеллектуального спариванияfalse (по умолчанию) | trueФлаг для выполнения смарт-спаривания, указанный как true или false. Если значение равно true, программные пары смежных операций чтения, которые находятся в одном файле и имеют одно и то же имя. Такие файлы FASTQ также известны как перемежающиеся файлы.
Типы данных: logical
'SoftClipSupplementary' - Флажок для дополнительных трасс мягкого зажимаfalse (по умолчанию) | trueФлажок для дополнительных трасс мягкого клипа, указанный как true или false. Если значение равно trueпрограммно-мягкие зажимы выполняют как дополнительные выравнивания, так и первичное выравнивание.
Значение по умолчанию: false, что означает, что программное обеспечение блокирует первичное выравнивание и жестко зажимает дополнительные выравнивания.
Типы данных: logical
'TreatAltAsPrimary' - Флаг для обработки компонентов ALT в составе первичной сборкиfalse (по умолчанию) | trueФлаг для обработки компонентов ALT как части основной сборки, указанный как true или false.
Типы данных: logical
'UnpairedReadPenalty' - Штраф за сопоставление пар чтения как непарных17 (по умолчанию) | неотрицательное целое числоШтраф для сопоставления пар чтения как непарных, задается как неотрицательное целое число.
Балл выравнивания для парной пары чтения равен . Балл выравнивания для непарной пары чтения равен read1 score + read2 score - insert penalty. Программное обеспечение сравнивает эти два балла, чтобы принудительно связать чтение. Большее read1 score + read2 score - UnpairedReadPenaltyUnpairedReadPenalty значение приводит к более агрессивному спариванию чтения.
Типы данных: double
'Verbosity' - Уровень детализации напечатанной информации0 (по умолчанию) | неотрицательное целое числоУровень детализации информации, напечатанной в командной строке MATLAB во время работы программы, указывается как неотрицательное целое число. Допустимые параметры:
0 - для отключения всех выходов в командной строке.
1 - Для печати сообщений об ошибках.
2 - Для печати предупреждений и сообщений об ошибках.
3 - Для печати всех сообщений.
4 - Только для отладки.
Типы данных: double
'ZDropOff' - Отсечка для расширения Смита-Уотермана100 (по умолчанию) | неотрицательное целое числоОтсечение для расширения Смита-Уотермана (SW), заданного как неотрицательное целое число. Программное обеспечение использует следующее выражение:
, где i и j - текущие позиции запроса и ссылки соответственно. Если разница между лучшим баллом и текущим баллом расширения больше, чем это значение выражения, программное обеспечение завершает расширение SW.
Типы данных: double
[1] Ли, Хенг и Ричард Дурбин. «Быстрое и точное короткое выравнивание чтения с преобразованием Burrows-Wheeler». Биоинформатика 25, № 14 (15 июля 2009): 1754-60. https://doi.org/10.1093/bioinformatics/btp324.
[2] Ли, Хенг и Ричард Дурбин. «Быстрое и точное длинночитаемое выравнивание с преобразованием Бэрроуз-Уилер». Биоинформатика 26, № 5 (1 марта 2010): 589-95. https://doi.org/10.1093/bioinformatics/btp698.
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.