Отфильтруйте последовательности на основе заданного критерия
seqfilter(
применяет критерий фильтрации к последовательностям в fastqFile
)fastqFile
и сохраняет последовательности, которые соответствуют критерию в новом файле FASTQ. По умолчанию последовательности, которые передают критерий, сохранены под именами файлов с суффиксным '_filtered'
добавленный. Если вы не задаете критерия, функция фильтрует последовательности с помощью значения по умолчанию.
seqfilter(
дополнительные опции использования заданы одним или несколькими fastqFile
,Name,Value
)Name,Value
парные аргументы.
Отфильтруйте последовательности больше чем с 10% низкокачественных базисов, где основа рассматривается низким качеством, когда его качественный счет меньше 20.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MaxPercentLowQualityBases',... 'Threshold',[10 20]) ;
Проверяйте количество последовательностей, сохраненных в выходном файле.
in
in = 39
Проверяйте количество отфильтрованных последовательностей.
out
out = 11
Отфильтруйте последовательности, имеющие счет среднего качества ниже 20.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MeanQuality',... 'Threshold',20);
Примените критерий фильтрации к каждым 10 базисам как раздвижное окно.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MeanQuality',... 'Threshold',20,'WindowSize',10);
Отфильтруйте последовательности меньше чем с 100 базисами.
[outFile,in,out] = seqfilter('SRR005164_1_50.fastq',... 'Method','MinLength',... 'Threshold',100);
fastqFile
— Имена файлов FASTQ с последовательностью и информацией о качествеИмена FASTQ-отформатированных файлов с последовательностью и информацией о качестве в виде вектора символов, строки, представляют в виде строки вектор или массив ячеек из символьных векторов.
Пример: 'SRR005164_1_50.fastq'
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
'Method','MaxNumberLowQualityBases','Threshold',[5 15]
задает, чтобы отфильтровать последовательности с в общей сложности больше чем 5 низкокачественными базисами, где основа рассматривается низкокачественной основой, если ее качественный счет меньше 15.'Method'
— Критерий, чтобы отфильтровать последовательности'MaxNumberLowQualityBases'
(значение по умолчанию) | 'MaxPercentLowQualityBases'
| 'MeanQuality'
| 'MinLength'
Критерий, чтобы отфильтровать последовательности в виде одной из следующих опций. Задайте только один критерий фильтрации на вызов функции.
'MaxNumberLowQualityBases'
– применяет максимальный порог на количество низкокачественных позволенных базисов.
'MaxPercentLowQualityBases'
– применяет максимальный порог на процент низкокачественных позволенных базисов.
'MeanQuality'
– применяется минимальный порог в среднем основывают качество через каждую последовательность.
'MinLength'
– применяет минимальный порог на длину последовательности.
Используйте этот аргумент пары "имя-значение" вместе с 'Threshold'
задавать соответствующее пороговое значение. В зависимости от критерия фильтрации, соответствующего значения для 'Threshold'
может быть скалярный или двухэлементный вектор. Смотрите 'Threshold'
опция для значений по умолчанию. Если вы не задаете 'Threshold'
, затем функция использует пороговое значение по умолчанию заданного метода. Для каждого критерия фильтрации функция использует основной качественный формат кодировки, заданный 'Encoding'
аргумент пары "имя-значение".
Пример: 'Method','MaxNumberLowQualityBases','Threshold',[5 15]
'Threshold'
— Пороговое значение для фильтрации критерияПороговое значение для критерия фильтрации в виде скаляра или вектора. Используйте эту пару "имя-значение", чтобы задать пороговое значение для критерия фильтрации, заданного 'Method'
.
В зависимости от критерия фильтрации, соответствующего значения для 'Threshold'
может быть скалярный или двухэлементный вектор. Если вы не задаете 'Threshold'
, затем функция использует пороговое значение по умолчанию соответствующего метода. Для каждого критерия фильтрации функция использует формат кодировки основного качества, заданного 'Encoding'
аргумент пары "имя-значение".
'Method' | 'Threshold' | 'Threshold' по умолчанию значение |
---|---|---|
'MaxNumberLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является неотрицательным целым числом, которое задает максимальное количество низкокачественных позволенных базисов. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. Любая последовательность, содержащая много низкокачественных базисов, больше, чем V1, отфильтрована и не сохраненная в выходном файле. | [0 10]
|
'MaxPercentLowQualityBases' | Двухэлементный векторный [V1 V2] . V1 является скаляром между 0 и 100, который задает максимальный процент низкокачественных позволенных базисов. V2 задает минимальное основное качество. Любая основа с качеством меньше, чем V2 рассматривается низкокачественной основой. Любая последовательность, содержащая процент низкокачественных базисов, больше, чем V1, отфильтрована и не сохраненная в выходном файле. | [0 10]
|
'MeanQuality' | Положительная скалярная величина, которая задает минимальный порог в среднем, основывает качество через каждую последовательность. Любая последовательность со средним основным качеством меньше, чем это значение отфильтрована. | 0
|
'MinLength' | Неотрицательное целое число, которое задает минимальный порог на позволенной длине последовательности. Любая последовательность с длиной меньше, чем это значение отфильтрована. | 1
|
Пример: 'Method','MaxPercentLowQualityBases','Threshold',[10 20]
'WindowSize'
— Размер раздвижного окна, чтобы применить критерий фильтрации к последовательностиInf
(значение по умолчанию) | положительное целое числоРазмер раздвижного окна, чтобы применить критерий фильтрации к последовательности в виде положительного целого числа. Размер окна соответствует количеству базисов, что функция использует одновременно, чтобы применить критерий. Если какое-либо окно приводит критерий к сбою, целая последовательность отбрасывается.
Значением по умолчанию является Inf
, то есть, критерий фильтрации применяется к целой последовательности.
Пример: 'WindowSize',100
'Encoding'
— Основной качественный формат кодировки'Illumina18'
(значение по умолчанию) | 'Sanger'
| 'Solexa'
| 'Illumina13'
| 'Illumina15'
Основной качественный формат кодировки в виде вектора символов или строки.
Пример: 'Encoding','Sanger'
'OutputDir'
— Относительный или абсолютный путь к директории выходного файлаОтносительный или абсолютный путь к директории выходного файла в виде вектора символов или строки. Значением по умолчанию является текущий каталог.
Пример: 'OutputDir','F:\results'
'OutputSuffix'
— Суффикс, чтобы использовать на имя выходного файла'_filtered'
(значение по умолчанию) | вектор символов | строкаСуффикс, чтобы использовать в выходном файле называет в виде вектора символов или строки. Это вставляется после входного имени файла и перед расширением файла. Значением по умолчанию является '_filtered'
.
Пример: 'OutputSuffix','_WindowSize100_filtered'
'PairedFiles'
— Рассмотреть ли входные файлы как пары для данных о последовательности парного концаfalse
(значение по умолчанию) | true
Рассмотреть ли входные файлы как пары для данных о последовательности парного конца в виде true
или false
.
Если true
, входные файлы читаются как пары, и данные о последовательности обеспечены в синхронизации между файлами. Таким образом, если последовательность отфильтрована в первом файле, соответствующая последовательность в парном файле также отфильтрована.
Пример: 'PairedFiles',true
'WriteSingleton'
— Сохранить ли одноэлементные последовательности в отдельном выходном файлеfalse
(значение по умолчанию) | true
Сохранить ли одноэлементные последовательности в отдельном выходном файле в виде true
или false
. Установить это на true
, 'PairedFiles'
опция должна также быть установлена в true
.
Одноэлементная последовательность является последовательностью, которые передают критерий фильтрации, но его соответствующая последовательность в парном файле не делает. Если true
, одноэлементные последовательности сохранены в разделять файле с суффиксным '_singleton'
. Значением по умолчанию является false
, подразумевать, что, только последовательности, которые передают критерий фильтрации в обоих входных файлах данной пары, сохранены в выходных файлах.
Пример: 'PairedFiles',true,'WriteSingleton',true
'UseParallel'
— Булевская переменная, указывающая, выполнить ли расчет параллельноfalse
(значение по умолчанию) | true
Булевская переменная, указывающая, выполнить ли расчет параллельно в виде true
или false
.
Для параллельных вычислений у вас должен быть Parallel Computing Toolbox™. Если параллельный пул не существует, каждый автоматически создан, когда опция автосоздания включена в ваших параллельных настройках. В противном случае расчет запускается в последовательном режиме.
Примечание
Существует стоимость, сопоставленная с совместно использованием больших входных файлов через рабочих в распределенной среде. В некоторых случаях выполнение параллельно не может быть выгодным в терминах эффективности.
Пример: 'UseParallel',true
outFiles
— Имена выходного файлаИмена выходного файла, возвращенные как массив ячеек из символьных векторов.
nSeqIn
— Количество последовательностей выбрано из каждого входного файлаКоличество последовательностей выбрано из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqIn
соответствует порядку входных файлов.
nSeqOut
— Количество последовательностей исключено из каждого входного файлаКоличество последовательностей исключено из каждого входного файла, возвращенного как скаляр или n-by-1
вектор, где n является количеством входных файлов. Если существует несколько входных файлов, порядок в nSeqOut
соответствует порядку входных файлов.
Чтобы запуститься параллельно, установите 'UseParallel'
к true
.
Для получения дополнительной информации смотрите 'UseParallel'
аргумент пары "имя-значение".
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.