Последовательности для обрезки на основе заданного критерия
seqtrim(
обрезает последовательности в fastqFile
)fastqFile
и сохраняет обрезанные последовательности в новых файлах FASTQ. По умолчанию обрезанные последовательности сохранены под именами файлов с суффиксным '_trimmed'
добавленный. Если вы не задаете критерия обрезки, функция обрезает последовательности с помощью значения по умолчанию.
seqtrim(
дополнительные опции использования заданы одним или несколькими fastqFile
,Name,Value
)Name,Value
парные аргументы.
[
возвращает массив ячеек outFiles
,nSeqTrimmed
,nSeqUntrimmed
]
= seqtrim(___)outFiles
с именами выходных файлов. nSeqTrimmed
и nSeqUntrimmed
представляйте количества последовательностей, обрезанных и необрезанных из каждого входного файла, соответственно.
Обрежьте каждую последовательность, когда количество основ с качеством ниже 20 будет больше 3 в раздвижном окне размера 25.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq', 'Method', 'MaxNumberLowQualityBases', ... 'Threshold', [3 20], 'WindowSize', 25);
Проверяйте количество последовательностей, которые были обрезаны.
nt
nt = 36
Проверяйте количество последовательностей, которые были не обрезаны.
unt
unt = 14
Обрежьте первые 10 основ каждой последовательности.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','Termini', ... 'Threshold',[10 0]);
Обрежьте последние 5 основ.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','Termini', ... 'Threshold',[0 5]);
Обрежьте каждую последовательность в положении 50.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','BasePositions', ... 'Threshold',[1 50]);
Обрежьте каждую последовательность, когда рабочее среднее основное качество станет меньше чем 20.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq','Method','MeanQuality', ... 'Threshold',20)
Обрежьте каждую последовательность, когда процент основ с качеством ниже 10 будет больше чем 15.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq','Method','MaxPercentLowQualityBases', ... 'Threshold',[15 10])
fastqFile
— Имена файлов FASTQ с последовательностью и информацией о качествеИмена FASTQ-отформатированных файлов с последовательностью и информацией качества, указанной как вектор символов, строка, представляют в виде строки вектор или массив ячеек из символьных векторов.
Пример: 'SRR005164_1_50.fastq'
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
'Method','MaxNumberLowQualityBases','Threshold',[3 20]
задает, чтобы обрезать каждую последовательность, когда количество основ с качеством ниже 20 больше 3.'Method'
— Критерий, чтобы обрезать последовательности 'MaxNumberLowQualityBases'
(значение по умолчанию) | 'MaxPercentLowQualityBases'
| 'MeanQuality'
| 'BasePositions'
| 'Termini'
Критерий, чтобы обрезать последовательности, заданные как одна из следующих опций. Задайте только один критерий обрезки на вызов функции.
'MaxNumberLowQualityBases'
– применяет максимальный порог на количество низкокачественных основ, позволенных прежде, чем обрезать последовательность, запускающуюся в 5'
конец.
'MaxPercentLowQualityBases'
– применяет максимальный порог на процент низкокачественных основ, позволенных прежде, чем обрезать последовательность, запускающуюся в 5'
конец.
'MeanQuality'
– применяет минимальный порог на рабочее среднее основное качество, позволенное прежде, чем обрезать последовательность, запускающуюся в 5'
конец.
'BasePositions'
– обрезают каждая последовательность согласно основным положениям (первая база, и в последний раз базируйтесь), запускающийся в 5'
конец.
'Termini'
– обрезки каждая последовательность от любого 5'
или 3'
закончите или от обоих концов.
Используйте этот аргумент пары "имя-значение" вместе с 'Threshold'
задавать соответствующее пороговое значение. В зависимости от критерия обрезки, соответствующего значения для 'Threshold'
варьируется. Смотрите 'Threshold'
опция для значений по умолчанию.
Последовательности, приводящие к пустым последовательностям после обрезки, сохранены в выходных файлах как пустые последовательности. Чтобы удалить пустые последовательности из файлов, используйте seqfilter
функция с 'MinLength'
набор опции к значению 1
.
Пример: 'Method','MaxNumberLowQualityBases','Threshold',[5 15]
'Threshold'
— Пороговое значение для обрезки критерияПороговое значение для критерия обрезки, заданного как скаляр или вектор. Используйте эту пару "имя-значение", чтобы задать пороговое значение для критерия обрезки, заданного 'Method'
.
В зависимости от критерия обрезки, соответствующего значения для 'Threshold'
может быть скалярный или двухэлементный вектор. Если вы не задаете 'Threshold'
, затем функция использует пороговое значение по умолчанию соответствующего метода. Для каждого критерия обрезки функция использует формат кодировки основного качества, заданного 'Encoding'
аргумент пары "имя-значение".
'Method' | 'Threshold' | 'Threshold' по умолчанию значение |
---|---|---|
'MaxNumberLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является неотрицательным целым числом, которое задает максимальное количество низкокачественных основ, позволенных перед обрезкой. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. | [0 10]
|
'MaxPercentLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является скаляром между 0 и 100, который задает максимальный процент низкокачественных основ, позволенных перед обрезкой. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. | [0 10]
|
'MeanQuality' | Положительная скалярная величина, которая задает минимальный порог на рабочем среднем основном качестве, позволенном прежде, чем обрезать последовательность, запускающуюся в 5' конец. | 0
|
'BasePositions' | Двухэлементный векторный Обрезать только Обрезать только | [1 Inf] , то есть, каждую последовательность оставляют необрезанной. |
'Termini' | Двухэлементный векторный Обрезать основы V1 в Обрезать основы V2 в | [0 0] , то есть, каждую последовательность оставляют необрезанной. |
Пример: 'Method','MaxPercentLowQualityBases','Threshold',[10 20]
'WindowSize'
— Размер раздвижного окна, чтобы применить критерий фильтрации к последовательностиInf
(значение по умолчанию) | положительное целое числоРазмер раздвижного окна, чтобы применить критерий обрезки к последовательности, заданной как положительное целое число. Размер окна соответствует количеству основ, которые функция использует когда-то, чтобы применить критерий. Любая данная последовательность обрезается перед первой базой окна, которое нарушает данный критерий.
Раздвижное окно может быть применено к следующим методам:
'MaxNumberLowQualityBases'
,
'MaxPercentLowQualityBases'
, и
'MeanQuality'
.
Последовательности короче, чем размер окна сохранены в выходном файле как пустые последовательности. Чтобы удалить пустые последовательности из файлов, используйте seqfilter
функция с 'MinLength'
набор опции к значению 1
.
Пример: 'WindowSize',10
'Encoding'
— Основной качественный формат кодировки'Illumina18'
(значение по умолчанию) | 'Sanger'
| 'Solexa'
| 'Illumina13'
| 'Illumina15'
Основной качественный формат кодировки, заданный как вектор символов или строка.
Пример: 'Encoding','Sanger'
'OutputDir'
— Относительный или абсолютный путь к директории выходного файлаОтносительный или абсолютный путь к директории выходного файла, заданной как вектор символов или строка. Значением по умолчанию является текущий каталог.
Пример: 'OutputDir','F:\results'
'OutputSuffix'
— Суффикс, чтобы использовать на имя выходного файла'_trimmed'
(значение по умолчанию) | вектор символов | строкаСуффикс, чтобы использовать на имя выходного файла, заданное как вектор символов или строка. Это вставляется после входного имени файла и перед расширением файла. Значением по умолчанию является '_trimmed'
.
Пример: 'OutputSuffix','_WindowSize10_trimmed'
'UseParallel'
— Булевская переменная, указывающая, выполнить ли расчет параллельноfalse
(значение по умолчанию) | true
Булевская переменная, указывающая, выполнить ли расчет параллельно, заданный как true
или false
.
Для параллельных вычислений у вас должен быть Parallel Computing Toolbox™. Если параллельный пул не существует, каждый автоматически создан, когда опция автосоздания включена в ваших параллельных настройках. В противном случае расчет запускается в последовательном режиме.
Существует стоимость, сопоставленная с совместно использованием больших входных файлов через рабочих в распределенной среде. В некоторых случаях выполнение параллельно не может быть выгодным в терминах производительности.
Во время параллельных расчетов работа разделена на файлы, не на последовательности, означая, что, для одного большого файла, запускаясь параллельно не имеет значения.
Пример: 'UseParallel',true
outFiles
— Имена выходного файлаИмена выходного файла, возвращенные как массив ячеек из символьных векторов.
nSeqTrimmed
— Количество последовательностей обрезается из каждого входного файлаКоличество последовательностей обрезается из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqTrimmed
соответствует порядку входных файлов.
nSeqUntrimmed
— Количество последовательностей не обрезается из каждого входного файлаКоличество последовательностей не обрезается из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqUntrimmed
соответствует порядку входных файлов.
Чтобы запуститься параллельно, установите 'UseParallel'
к true
.
Для получения дополнительной информации смотрите 'UseParallel'
аргумент пары "имя-значение".
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.