Последовательности для обрезки на основе заданного критерия
seqtrim(fastqFile)
seqtrim(fastqFile,Name,Value)
[outFiles,nSeqTrimmed,nSeqUntrimmed]
= seqtrim(___)
seqtrim(
обрезает последовательности в fastqFile
)fastqFile
и сохраняет обрезанные последовательности в новых файлах FASTQ. По умолчанию обрезанные последовательности сохранены под именами файлов с суффиксным добавленным '_trimmed'
. Если вы не задаете критерия обрезки, функция обрезает последовательности с помощью значения по умолчанию.
seqtrim(
дополнительные опции использования заданы одним или несколькими аргументами пары fastqFile
,Name,Value
)Name,Value
.
[
возвращает массив ячеек outFiles
,nSeqTrimmed
,nSeqUntrimmed
]
= seqtrim(___)outFiles
с именами выходных файлов. nSeqTrimmed
и nSeqUntrimmed
представляют количества последовательностей, обрезанных и необрезанных из каждого входного файла, соответственно.
Обрежьте каждую последовательность, когда количество основ с качеством ниже 20 будет больше, чем 3 в раздвижном окне размера 25.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq', 'Method', 'MaxNumberLowQualityBases', ... 'Threshold', [3 20], 'WindowSize', 25);
Проверяйте количество последовательностей, которые были обрезаны.
nt
nt = 36
Проверяйте количество последовательностей, которые были не обрезаны.
unt
unt = 14
Обрежьте первые 10 основ каждой последовательности.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','Termini', ... 'Threshold',[10 0]);
Обрежьте последние 5 основ.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','Termini', ... 'Threshold',[0 5]);
Обрежьте каждую последовательность в положении 50.
[outfile,nt] = seqtrim('SRR005164_1_50.fastq','Method','BasePositions', ... 'Threshold',[1 50]);
Обрежьте каждую последовательность, когда рабочее среднее основное качество станет меньше чем 20.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq','Method','MeanQuality', ... 'Threshold',20)
Обрежьте каждую последовательность, когда процент основ с качеством ниже 10 будет больше чем 15.
[outFile,nt,unt] = seqtrim('SRR005164_1_50.fastq','Method','MaxPercentLowQualityBases', ... 'Threshold',[15 10])
fastqFile
— Имена файлов FASTQ с последовательностью и информацией о качествеИмена FASTQ-отформатированных файлов с последовательностью и информацией качества, указанной как вектор символов, строка, представляют в виде строки вектор или массив ячеек из символьных векторов.
Пример: 'SRR005164_1_50.fastq'
Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми.
Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение.
Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
'Method','MaxNumberLowQualityBases','Threshold',[3 20]
задает, чтобы обрезать каждую последовательность, когда количество основ с качеством ниже 20 больше, чем 3.'Method'
— Критерий, чтобы обрезать последовательности 'MaxNumberLowQualityBases'
(значение по умолчанию) | 'MaxPercentLowQualityBases'
| 'MeanQuality'
| 'BasePositions'
| 'Termini'
Критерий, чтобы обрезать последовательности, заданные как одна из следующих опций. Задайте только один критерий обрезки на вызов функции.
'MaxNumberLowQualityBases'
– применяет максимальный порог на количество низкокачественных основ, позволенных прежде, чем обрезать последовательность, запускающуюся в конце 5'
.
'MaxPercentLowQualityBases'
– применяет максимальный порог на процент низкокачественных основ, позволенных прежде, чем обрезать последовательность, запускающуюся в конце 5'
.
'MeanQuality'
– применяет минимальный порог на рабочее среднее основное качество, позволенное прежде, чем обрезать последовательность, запускающуюся в конце 5'
.
'BasePositions'
– обрезает каждую последовательность согласно основным положениям (первая база, и в последний раз базируйтесь), запускающийся в конце 5'
.
'Termini'
– обрезает каждую последовательность или от 5'
или от конца 3'
или от обоих концов.
Используйте этот аргумент пары "имя-значение" вместе с 'Threshold'
, чтобы задать соответствующее пороговое значение. В зависимости от критерия обрезки отличается соответствующее значение для 'Threshold'
. См. опцию 'Threshold'
для значений по умолчанию.
Последовательности, приводящие к пустым последовательностям после обрезки, сохранены в выходных файлах как пустые последовательности. Чтобы удалить пустые последовательности из файлов, используйте функцию seqfilter
с набором опции 'MinLength'
к значению 1
.
Пример: 'Method','MaxNumberLowQualityBases','Threshold',[5 15]
'Порог'
Пороговое значение для обрезки критерияПороговое значение для критерия обрезки, заданного как скаляр или вектор. Используйте эту пару "имя-значение", чтобы задать пороговое значение для критерия обрезки, заданного 'Method'
.
В зависимости от критерия обрезки соответствующее значение для 'Threshold'
может быть скалярным или двухэлементным вектором. Если вы не задаете 'Threshold'
, то функция использует пороговое значение по умолчанию соответствующего метода. Для каждого критерия обрезки функция использует формат кодировки основного качества, заданного аргументом пары "имя-значение" 'Encoding'
.
'Method' | 'Threshold' | Значение 'Threshold' по умолчанию |
---|---|---|
'MaxNumberLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является неотрицательным целым числом, которое задает максимальное количество низкокачественных основ, позволенных перед обрезкой. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. | [0 10] |
'MaxPercentLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является скаляром между 0 и 100, который задает максимальный процент низкокачественных основ, позволенных перед обрезкой. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. | [0 10] |
'MeanQuality' | Положительная скалярная величина, которая задает минимальный порог на рабочем среднем основном качестве, позволенном прежде, чем обрезать последовательность, запускающуюся в конце 5' . | 0 |
'BasePositions' | Двухэлементный векторный Чтобы обрезать только конец Чтобы обрезать только конец | [1 Inf] , то есть, каждую последовательность оставляют необрезанной. |
'Termini' | Двухэлементный векторный Чтобы обрезать основы V1 в Чтобы обрезать основы V2 в | [0 0] , то есть, каждую последовательность оставляют необрезанной. |
Пример: 'Method','MaxPercentLowQualityBases','Threshold',[10 20]
'WindowSize'
— Размер раздвижного окна, чтобы применить критерий фильтрации к последовательностиInf
(значение по умолчанию) | положительное целое числоРазмер раздвижного окна, чтобы применить критерий обрезки к последовательности, заданной как положительное целое число. Размер окна соответствует количеству основ, которые функция использует когда-то, чтобы применить критерий. Любая данная последовательность обрезается перед первой базой окна, которое нарушает данный критерий.
Раздвижное окно может быть применено к следующим методам:
'MaxNumberLowQualityBases'
,
'MaxPercentLowQualityBases'
, и
'MeanQuality'
.
Последовательности короче, чем размер окна сохранены в выходном файле как пустые последовательности. Чтобы удалить пустые последовательности из файлов, используйте функцию seqfilter
с набором опции 'MinLength'
к значению 1
.
Пример: 'WindowSize',10
'Encoding'
— Основной качественный формат кодировки'Illumina18'
(значение по умолчанию) | 'Sanger'
| 'Solexa'
| 'Illumina13'
| 'Illumina15'
Основной качественный формат кодировки, заданный как вектор символов или строка.
Пример: 'Encoding','Sanger'
'outputDir'
Относительный или абсолютный путь к директории выходного файлаОтносительный или абсолютный путь к директории выходного файла, заданной как вектор символов или строка. Значением по умолчанию является текущий каталог.
Пример: 'OutputDir','F:\results'
'OutputSuffix'
— Снабдите суффиксом, чтобы использовать на имя выходного файла'_trimmed'
(значение по умолчанию) | вектор символов | строкаСуффикс, чтобы использовать на имя выходного файла, заданное как вектор символов или строка. Это вставляется после входного имени файла и перед расширением файла. Значением по умолчанию является '_trimmed'
.
Пример: 'OutputSuffix','_WindowSize10_trimmed'
'UseParallel'
Булевская переменная, указывающая, выполнить ли вычисление параллельноfalse
(значение по умолчанию) | true
Булевская переменная, указывающая, выполнить ли вычисление параллельно, заданный как true
или false
.
Для параллельных вычислений у вас должен быть Parallel Computing Toolbox™. Если параллельный пул не существует, каждый автоматически создан, когда опция автосоздания включена в ваших параллельных настройках. В противном случае вычисление запускается в последовательном режиме.
Существует стоимость, сопоставленная с совместно использованием больших входных файлов через рабочих в распределенной среде. В некоторых случаях выполнение параллельно не может быть выгодным с точки зрения производительности.
Во время параллельных вычислений работа разделена на файлы, не на последовательности, означая, что, для одного большого файла, запускаясь параллельно не имеет значения.
Пример: 'UseParallel',true
outFiles
— Имена выходного файлаИмена выходного файла, возвращенные как массив ячеек из символьных векторов.
nSeqTrimmed
— Количество последовательностей обрезается из каждого входного файлаКоличество последовательностей обрезало из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqTrimmed
соответствует порядку входных файлов.
nSeqUntrimmed
— Количество последовательностей не обрезается из каждого входного файлаКоличество последовательностей, необрезанных из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqUntrimmed
соответствует порядку входных файлов.
Чтобы запуститься параллельно, установите 'UseParallel'
на true
.
Для получения дополнительной информации смотрите аргумент пары "имя-значение" 'UseParallel'
.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.