seqsplit

Разделите последовательности в отдельные файлы на основе штрихкодов

Описание

пример

seqsplit(fastqFile,barcodeFile) последовательности разделений в fastqFile согласно штрихкодам в barcodeFile и сохраняет последовательности в отдельных файлах. По умолчанию имя выходного файла состоит из входного имени файла, сопровождаемого штриховым идентификатором. Последовательности, которые не совпадают ни с кем, обеспечили штрихкоды или то соответствие несколько штрихкодов двусмысленно, сохранены в файле с суффиксным '_unmatched' вместо штрихового идентификатора.

пример

seqsplit(___,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы.

пример

[outFiles,N] = seqsplit(___) возвращает имена выходных файлов в массиве ячеек outFilesN представляет вектор, содержащий количества последовательностей, сохраненных в каждом выходном файле.

Примеры

свернуть все

Создайте файл с разделением табуляцией с последовательностями штрихкода и штриховыми идентификаторами.

 barcodeInfo = {'ID1', 'AAAAC'; 'ID2', 'AGATT'; 'ID3', 'GACTT'};
 writetable(cell2table(barcodeInfo), 'barcodeExample.txt', ...
        'Delimiter', '\t', 'WriteVariableNames', false);

Разделите последовательности в отдельные выходные файлы на основе последовательностей штрихкода. По умолчанию функция принимает, что штрихкод расположен в 5' концах каждой последовательности, и никакие несоответствия не позволены во время соответствия штрихкода.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt');

Проверяйте количество последовательностей в каждом выходном файле после разделения.

N
N = 3×1

     2
     1
     1

Позвольте до двух несоответствий во время соответствия штрихкода.

[outFiles, N] = seqsplit('SRR005164_1_50.fastq', 'barcodeExample.txt', ...
        'MaxMismatches',2,'OutputSuffix','_MM2_split');
N
N = 3×1

     5
     9
     5

Входные параметры

свернуть все

Имена FASTQ-отформатированных файлов с последовательностью и информацией о качестве в виде вектора символов, строки, представляют в виде строки вектор или массив ячеек из символьных векторов.

Пример: 'SRR005164_1_50.fastq'

Имя файла штрихкода с информацией о штрихкоде в виде вектора символов или строки. Файл должен быть отформатирован вкладкой, содержа последовательности штрихкода и штриховые идентификаторы. Каждый ID должен сопровождаться последовательностью штрихкода, и все последовательности штрихкода должны иметь ту же длину.

Пример: 'barcodeExample.txt'

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'MaxMismatches',2 задает, чтобы позволить до 2 несоответствий во время соответствия штрихкода.

Максимальное количество несоответствий позволено во время штрихкода, соответствующего в виде неотрицательного целого числа. Значение по умолчанию 0, то есть, никакие несоответствия не позволены.

Пример: 'MaxMismatches',2

Тип штрихкода, чтобы соответствовать в виде 3 или 5. Значение 5 соответствует штрихкоду, расположенному в 5' конец каждой последовательности и 3 соответствует 3' конец.

Пример: 'BarcodeFormat',3

Удалить ли штрихкод и соответствующую информацию о качестве от совпадающих последовательностей в виде true или false. Значением по умолчанию является true.

Пример: 'RemoveBarcode',false

Сохранить ли несопоставленные последовательности и соответствующую информацию о качестве в отдельном выходном файле в виде true или false. Имя выходного файла имеет суффиксный '_unmatched' вместо штрихового идентификатора.

Пример: 'WriteUnmatched',true

Относительный или абсолютный путь к директории выходного файла в виде вектора символов или строки. Значением по умолчанию является текущий каталог.

Пример: 'OutputDir','F:\results'

Суффикс, чтобы использовать в выходном файле называет в виде вектора символов или строки. Это вставляется после входного имени файла и перед штриховым идентификатором. Значением по умолчанию является '_split'.

Пример: 'OutputSuffix','_MisMatches2_split'

Выполнить ли расчет параллельно в виде true или false.

Для параллельных вычислений у вас должен быть Parallel Computing Toolbox™. Если параллельный пул не существует, каждый автоматически создан, когда опция автосоздания включена в ваших параллельных настройках. В противном случае расчет запускается в последовательном режиме.

Примечание

Существует стоимость, сопоставленная с совместно использованием больших входных файлов через рабочих в распределенной среде. В некоторых случаях выполнение параллельно не может быть выгодным в терминах эффективности.

Пример: 'UseParallel',true

Выходные аргументы

свернуть все

Имена выходного файла, возвращенные как массив ячеек из символьных векторов. По умолчанию имя каждого выходного файла состоит из входного имени файла, сопровождаемого выходным суффиксом ('_split') и штриховой идентификатор.

Количества последовательностей, сохраненных в каждом выходном файле, возвращенном как скаляр или n-by-1 вектор, где n является количеством выходных файлов. Если существует несколько выходных файлов, порядок в N соответствует порядку выходных файлов.

Расширенные возможности

Смотрите также

| |

Введенный в R2017b