Отфильтровывайте последовательности на основе заданного критерия
seqfilter(
применяет критерий фильтрации к последовательностям в fastqFile
)fastqFile
и сохраняет последовательности, которые соответствуют критерию, в новом файле FASTQ. По умолчанию последовательности, которые проходят критерий, сохраняются под именами файлов с суффиксом '_filtered'
приложенный. Если вы не задаете никакого критерия, функция фильтрует последовательности по умолчанию.
seqfilter(
использует дополнительные опции, заданные одним или несколькими fastqFile
,Name,Value
)Name,Value
аргументы в виде пар.
Фильтрация последовательностей с более чем 10% низкокачественных основ, где основа рассматривается как низкое качество, когда его счет качества менее 20.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MaxPercentLowQualityBases',... 'Threshold',[10 20]) ;
Проверьте количество последовательностей, сохраненных в файле выхода.
in
in = 39
Проверьте количество отфильтрованных последовательностей.
out
out = 11
Отфильтровывают последовательности, имеющие средний счет качества ниже 20.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MeanQuality',... 'Threshold',20);
Примените критерий фильтрации к каждым 10 основам в качестве скользящего окна.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MeanQuality',... 'Threshold',20,'WindowSize',10);
Фильтрация последовательностей с менее чем 100 основами.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MinLength',... 'Threshold',100);
fastqFile
- Имена файлов FASTQ с информацией о последовательности и качествеИмена FASTQ-форматированных файлов с информацией о последовательности и качестве, заданные как вектор символов, строка, строковый вектор или массив ячеек векторов символов.
Пример: 'SRR005164_1_50.fastq'
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
'Method','MaxNumberLowQualityBases','Threshold',[5 15]
задает для фильтрации последовательностей с общим количеством более 5 низкокачественных основы, где основа рассматривается как низкокачественная основа, если ее счет качества меньше 15.'Method'
- Критерий фильтрации последовательностей'MaxNumberLowQualityBases'
(по умолчанию) | 'MaxPercentLowQualityBases'
| 'MeanQuality'
| 'MinLength'
Критерий для фильтрации последовательностей, заданный как один из следующих опций. Задайте только один критерий фильтрации для каждого вызова функции.
'MaxNumberLowQualityBases'
- применяет максимальный порог по количеству разрешенных низкокачественных основ.
'MaxPercentLowQualityBases'
- применяет максимальный порог для процента допустимых низкокачественных основ.
'MeanQuality'
- применяет минимальный порог среднего базового качества для каждой последовательности.
'MinLength'
- применяет минимальный порог длины последовательности.
Используйте этот аргумент пары "имя-значение" вместе с 'Threshold'
для определения соответствующего порогового значения. В зависимости от критерия фильтрации, соответствующее значение для 'Threshold'
может быть скалярным или двухэлементным вектором. Смотрите 'Threshold'
опция для значений по умолчанию. Если вы не задаете 'Threshold'
, тогда функция использует пороговое значение по умолчанию заданного метода. Для каждого критерия фильтрации функция использует базовый формат кодирования качества, заданный 'Encoding'
аргумент пары "имя-значение".
Пример: 'Method','MaxNumberLowQualityBases','Threshold',[5 15]
'Threshold'
- Пороговое значение для критерия фильтрацииПороговое значение для критерия фильтрации, заданное в виде скаляра или вектора. Используйте эту пару "имя-значение", чтобы задать пороговое значение для критерия фильтрации, заданного 'Method'
.
В зависимости от критерия фильтрации, соответствующее значение для 'Threshold'
может быть скалярным или двухэлементным вектором. Если вы не задаете 'Threshold'
затем функция использует пороговое значение по умолчанию соответствующего метода. Для каждого критерия фильтрации функция использует формат кодирования базового качества, заданный 'Encoding'
аргумент пары "имя-значение".
'Method' | 'Threshold' | Значения по умолчанию 'Threshold' значение |
---|---|---|
'MaxNumberLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является неотрицательным целым числом, которое задает максимальное допустимое количество низкокачественных основ. V2 задает минимальное базовое качество. Любая основа с качеством менее V2 считается низкокачественной основой. Любая последовательность, содержащая количество низкокачественных основ, больше V1, отфильтровывается и не сохраняется в файле выхода. | [0 10] |
'MaxPercentLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является скаляром от 0 до 100, который задает максимальный процент допустимых низкокачественных основ. V2 задает минимальное базовое качество. Любая основа с качеством менее V2 считается низкокачественной основой. Любая последовательность, содержащая процент низкокачественных основ, больше V1, отфильтровывается и не сохраняется в файле выхода. | [0 10] |
'MeanQuality' | Положительная скалярная величина, который задает минимальный порог среднего базового качества для каждой последовательности. Любая последовательность со средним качеством базы, меньше этого значения, отфильтровывается. | 0 |
'MinLength' | Неотрицательное целое число, которое задает минимальный порог допустимой длины последовательности. Любая последовательность с длиной меньше этого значения отфильтровывается. | 1 |
Пример: 'Method','MaxPercentLowQualityBases','Threshold',[10 20]
'WindowSize'
- Размер раздвижного окна для применения критерия фильтрации к последовательностиInf
(по умолчанию) | положительное целое числоРазмер скользящего окна для применения критерия фильтрации к последовательности, заданной как положительное целое число. Размер окна соответствует количеству основ, которые функция использует одновременно для применения критерия. Если какое-либо окно не справляется с критерием, вся последовательность отбрасывается.
Значение по умолчанию является Inf
, то есть критерий фильтрации применяется ко всей последовательности.
Пример: 'WindowSize',100
'Encoding'
- Базовый формат кодирования качества'Illumina18'
(по умолчанию) | 'Sanger'
| 'Solexa'
| 'Illumina13'
| 'Illumina15'
Базовый формат кодирования качества, заданный как вектор символов или строка.
Пример: 'Encoding','Sanger'
'OutputDir'
- Относительный или абсолютный путь к директории выходного файлаОтносительный или абсолютный путь к выходу файлу директории, заданный как вектор символов или строка. По умолчанию это текущая директория.
Пример: 'OutputDir','F:\results'
'OutputSuffix'
- Суффикс для использования в имени выходного файла'_filtered'
(по умолчанию) | вектор символов | строкаСуффикс для использования в имени выходного файла, заданный как вектор символов или строка. Оно вставляется после входа файла и перед расширением файла. Значение по умолчанию является '_filtered'
.
Пример: 'OutputSuffix','_WindowSize100_filtered'
'PairedFiles'
- Рассматривать ли входные файлы как пары для данных последовательности с парным концомfalse
(по умолчанию) | true
Рассматривать ли входные файлы как пары для данных последовательности с парным концом, задается как true
или false
.
Если true
файлы входа считываются как пары, и данные последовательности поддерживаются синхронно между файлами. То есть, если последовательность отфильтрована в первом файле, соответствующая последовательность в парном файле также отфильтровывается.
Пример: 'PairedFiles',true
'WriteSingleton'
- Сохранять ли синглтонные последовательности в отдельном выходном файлеfalse
(по умолчанию) | true
Сохранять ли последовательности синглтонов в отдельном выходном файле, заданном как true
или false
. Чтобы установить это значение true
, а 'PairedFiles'
опция также должен быть установлен на true
.
Синглтонная последовательность является последовательностью, которая проходит критерий фильтрации, но ее соответствующая последовательность в парном файле не делает true
синглтонные последовательности сохраняются в отдельном файле с суффиксом '_singleton'
. Значение по умолчанию является false
, что означает, что в выходных файлах сохраняются только последовательности, которые передают критерий фильтрации в обоих входных файлах заданной пары.
Пример: 'PairedFiles',true,'WriteSingleton',true
'UseParallel'
- Логическое значение, указывающее, выполнять ли расчеты параллельноfalse
(по умолчанию) | true
Логическое значение, указывающее, выполнять ли расчеты параллельно, задается как true
или false
.
Для параллельных вычислений необходимо иметь Toolbox™ Parallel Computing. Если параллельный пул не существует, он создается автоматически, когда опция автоматического создания включена в ваших параллельных настройках. В противном случае расчет выполняется в последовательном режиме.
Примечание
Существует стоимость, связанная с совместным использованием больших входных файлов между работниками в распределённом окружении. В некоторых случаях параллельная работа может быть неэффективной с точки зрения эффективности.
Пример: 'UseParallel',true
outFiles
- Выходы файловВыходы файлов, возвращенные как массив ячеек из векторов символов.
nSeqIn
- Количество последовательностей, выбранных из каждого входного файлаКоличество последовательностей, выбранных из каждого файла входов, возвращенных в виде скаляра или n -by- 1
вектор, где n количество файлов входа. Если существует несколько входных файлов, порядок в nSeqIn
соответствует порядку входных файлов.
nSeqOut
- Количество последовательностей, исключенных из каждого входного файлаКоличество последовательностей, исключенных из каждого файла входов, возвращаемых в виде скаляра или n -by- 1
вектор, где n количество файлов входа. Если существует несколько входных файлов, порядок в nSeqOut
соответствует порядку входных файлов.
Чтобы запустить параллельно, установите 'UseParallel'
на true
.
Для получения дополнительной информации смотрите 'UseParallel'
аргумент пары "имя-значение".
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.