exponenta event banner

seqsplit

Разделение последовательностей на отдельные файлы на основе штрихкодов

Описание

пример

seqsplit(fastqFile,barcodeFile) разделяет последовательности в fastqFile в соответствии со штрих-кодами в barcodeFile и сохраняет последовательности в отдельных файлах. По умолчанию имя выходного файла состоит из имени входного файла, за которым следует идентификатор штрихкода. Последовательности, не соответствующие каким-либо предоставленным штрихкодам или совпадающие с несколькими штрихкодами неоднозначно, сохраняются в файле с суффиксом '_unmatched' вместо идентификатора штрихкода.

пример

seqsplit(___,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары.

пример

[outFiles,N] = seqsplit(___) возвращает имена выходных файлов в массиве ячеек outFiles. N представляет вектор, содержащий количество последовательностей, сохраненных в каждом выходном файле.

Примеры

свернуть все

Создайте файл с разделителями табуляции с идентификаторами штрих-кодов и последовательностями штрих-кодов.

 barcodeInfo = {'ID1', 'AAAAC'; 'ID2', 'AGATT'; 'ID3', 'GACTT'};
 writetable(cell2table(barcodeInfo), 'barcodeExample.txt', ...
        'Delimiter', '\t', 'WriteVariableNames', false);

Разделение последовательностей на отдельные выходные файлы на основе последовательностей штрих-кодов. По умолчанию функция предполагает, что штрих-код находится на 5 '-конце каждой последовательности, и во время сопоставления штрих-кодов несовпадения не допускаются.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt');

Проверьте количество последовательностей в каждом выходном файле после разделения.

N
N = 3×1

     2
     1
     1

Допустим до двух несоответствий во время сопоставления штрихкода.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt', ...
        'MaxMismatches',2,'OutputSuffix','_MM2_split');
N
N = 3×1

     5
     9
     5

Входные аргументы

свернуть все

Имена файлов в формате FASTQ с информацией о последовательности и качестве, заданными как символьный вектор, строка, строковый вектор или массив ячеек символьных векторов.

Пример: 'SRR005164_1_50.fastq'

Имя файла штрих-кода с информацией штрих-кода, указанного как символьный вектор или строка. Файл должен иметь формат табуляции, содержащий идентификаторы штрих-кодов и последовательности штрих-кодов. За каждым идентификатором должна следовать последовательность штрих-кодов, и все последовательности штрих-кодов должны иметь одинаковую длину.

Пример: 'barcodeExample.txt'

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'MaxMismatches',2 указывает на возможность до 2 несовпадений во время сопоставления штрих-кодов.

Максимальное число несоответствий, разрешенных при сопоставлении штрих-кодов, указанное как неотрицательное целое число. Значение по умолчанию - 0, то есть несовпадения не допускаются.

Пример: 'MaxMismatches',2

Тип штрихкода для сопоставления, указанный как 3 или 5. Значение 5 соответствует штрих-коду, расположенному в 5' конец каждой последовательности, и 3 соответствует 3' конец.

Пример: 'BarcodeFormat',3

Удалить ли штрихкод и соответствующую информацию о качестве из согласованных последовательностей, указанных как true или false. Значение по умолчанию: true.

Пример: 'RemoveBarcode',false

Сохранять ли несопоставленные последовательности и соответствующую информацию о качестве в отдельном выходном файле, указанном как true или false. Имя выходного файла имеет суффикс '_unmatched' вместо идентификатора штрих-кода.

Пример: 'WriteUnmatched',true

Относительный или абсолютный путь к каталогу выходного файла, указанный как символьный вектор или строка. По умолчанию используется текущий каталог.

Пример: 'OutputDir','F:\results'

Суффикс для использования в имени выходного файла, указанный как символьный вектор или строка. Он вставляется после имени входного файла и перед идентификатором штрих-кода. Значение по умолчанию: '_split'.

Пример: 'OutputSuffix','_MisMatches2_split'

Выполнять ли параллельное вычисление, указанное как true или false.

Для параллельных вычислений необходимо иметь Toolbox™ Parallel Computing. Если параллельный пул не существует, он создается автоматически, если в настройках параллельного создания включена опция автоматического создания. В противном случае вычисления выполняются в последовательном режиме.

Примечание

Существует стоимость совместного использования больших входных файлов сотрудниками в распределенной среде. В некоторых случаях параллельная работа может оказаться неэффективной с точки зрения производительности.

Пример: 'UseParallel',true

Выходные аргументы

свернуть все

Имена выходных файлов, возвращаемые в виде массива ячеек символьных векторов. По умолчанию имя каждого выходного файла состоит из имени входного файла, за которым следует выходной суффикс ('_split') и идентификатор штрихкода.

Количество последовательностей, сохраненных в каждом выходном файле, возвращаемых в виде скаляра или n-by-1 вектор, где n - количество выходных файлов. При наличии нескольких выходных файлов порядок внутри N соответствует порядку выходных файлов.

Расширенные возможности

См. также

| |

Представлен в R2016b