seqsplit

Разделите последовательности на отдельные файлы на основе штрихкодов

Описание

пример

seqsplit(fastqFile,barcodeFile) разделяет последовательности в fastqFile согласно штрихкодам в barcodeFile и сохраняет последовательности в отдельных файлах. По умолчанию имя выходного файла состоит из входа файла и идентификатора штрих-кода. Последовательности, которые не соответствуют никаким предоставленным штрихкодам или которые неоднозначно соответствуют нескольким штрихкодам, сохраняются в файле с суффиксом '_unmatched' вместо идентификатора штрихкода.

пример

seqsplit(___,Name,Value) использует дополнительные опции, заданные одним или несколькими Name,Value аргументы в виде пар.

пример

[outFiles,N] = seqsplit(___) возвращает имена файлов выхода в массиве ячеек outFiles. N представляет вектор, содержащий количества последовательностей, сохраненных в каждом выходном файле.

Примеры

свернуть все

Создайте файл с разделителем табуляций со идентификаторами и последовательностями штрихкодов.

 barcodeInfo = {'ID1', 'AAAAC'; 'ID2', 'AGATT'; 'ID3', 'GACTT'};
 writetable(cell2table(barcodeInfo), 'barcodeExample.txt', ...
        'Delimiter', '\t', 'WriteVariableNames', false);

Разделите последовательности в отдельные выходные файлы на основе последовательностей штрихкода. По умолчанию функция принимает, что штрихкод расположен в 5 '-конце каждой последовательности, и несоответствия не допускаются во время соответствия штрихкода.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt');

После разделения проверьте количество последовательностей в каждом выходном файле.

N
N = 3×1

     2
     1
     1

Допускается до двух несоответствий во время соответствия штрихкода.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt', ...
        'MaxMismatches',2,'OutputSuffix','_MM2_split');
N
N = 3×1

     5
     9
     5

Входные параметры

свернуть все

Имена FASTQ-форматированных файлов с информацией о последовательности и качестве, заданные как вектор символов, строка, строковый вектор или массив ячеек векторов символов.

Пример: 'SRR005164_1_50.fastq'

Имя файла штрих-кода со штрих-кодом в виде вектора символов или строки. Файл должен иметь формат табуляций, содержащий идентификаторы штрихкодов и последовательности штрихкодов. Каждый идентификатор должен содержать последовательность штрихкодов, и все последовательности штрихкодов должны иметь одинаковую длину.

Пример: 'barcodeExample.txt'

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'MaxMismatches',2 задает разрешение до 2 несоответствий во время соответствия штрихкода.

Максимально допустимое количество несоответствий во время соответствия штрихкода, заданное как неотрицательное целое число. Значение по умолчанию 0, то есть несоответствия не допускаются.

Пример: 'MaxMismatches',2

Тип совпадающего штрихкода, заданный как 3 или 5. Значение 5 соответствует штрих-коду, расположенному на 5' конец каждой последовательности и 3 соответствует 3' конец.

Пример: 'BarcodeFormat',3

Удалите ли штрих-код и соответствующую информацию о качестве из совпадающих последовательностей, заданную как true или false. Значение по умолчанию является true.

Пример: 'RemoveBarcode',false

Сохраните ли несопоставленные последовательности и соответствующую информацию о качестве в отдельном выходном файле, заданном как true или false. Имя выходного файла имеет суффикс '_unmatched' вместо идентификатора штрихкода.

Пример: 'WriteUnmatched',true

Относительный или абсолютный путь к выходу файлу директории, заданный как вектор символов или строка. По умолчанию это текущая директория.

Пример: 'OutputDir','F:\results'

Суффикс для использования в имени выходного файла, заданный как вектор символов или строка. Он вставляется после имени файла входа и перед идентификатором штрихкода. Значение по умолчанию является '_split'.

Пример: 'OutputSuffix','_MisMatches2_split'

Выполнять ли расчеты параллельно, задается как true или false.

Для параллельных вычислений необходимо иметь Toolbox™ Parallel Computing. Если параллельный пул не существует, он создается автоматически, когда опция автоматического создания включена в ваших параллельных настройках. В противном случае расчет выполняется в последовательном режиме.

Примечание

Существует стоимость, связанная с совместным использованием больших входных файлов между работниками в распределённом окружении. В некоторых случаях параллельная работа может быть неэффективной с точки зрения эффективности.

Пример: 'UseParallel',true

Выходные аргументы

свернуть все

Выходы файлов, возвращенные как массив ячеек из векторов символов. По умолчанию имя каждого выходного файла состоит из входа файла и выходного суффикса ('_split') и идентификатор штрих-кода.

Количество последовательностей, сохраненных в каждом файле выходов, возвращенных в виде скаляра или n -by- 1 вектор, где n количество файлов выхода. Если существует несколько выходных файлов, порядок в N соответствует порядку выходных файлов.

Расширенные возможности

См. также

| |

Введенный в R2016b