BioRead

Содержите чтения последовательности и их качественные данные

Описание

Объект BioRead содержит считанные данные упорядочивания, включая заголовки последовательности, последовательности нуклеотида и качественные очки.

Создайте объект BioRead из NGS (упорядочивание следующего поколения) данные, хранимые в FASTQ-или SAM-отформатированном файле. Каждый элемент в объекте имеет последовательность, заголовок и качественный счет, сопоставленный с ним. Используйте свойства объектов и функции, чтобы исследовать, получить доступ, отфильтровать, и управлять всеми данными или подмножеством данных. Если у вас есть данные с чтениями, которые уже сопоставлены со ссылочной последовательностью, и необходимо получить доступ к записям выравнивания, использовать BioMap вместо этого.

Создание

Синтаксис

bioreadObj = BioRead
bioreadObj = BioRead(File)
bioreadObj = BioRead(S)
bioreadObj = BioRead(Seqs)
bioreadObj = BioRead(Seqs,Quals)
bioreadObj = BioRead(Seqs,Quals,Headers)
bioreadObj = BioRead(___,Name,Value)

Описание

пример

bioreadObj = BioRead создает пустой объект BioRead bioreadObj.

пример

bioreadObj = BioRead(File) создает объект BioRead из File, FASTQ-или SAM-отформатированного файла. Данные остаются в исходном файле после того, как объект создается, и вы имеете доступ к данным через свойства объектов, но не можете изменить свойства, кроме свойства Name.

пример

bioreadObj = BioRead(S) создает объект BioRead из S, структуры MATLAB®, содержа поля Header, Sequence и Quality. Данные из S остаются в памяти, и можно изменить свойства объекта.

пример

bioreadObj = BioRead(Seqs) создает объект BioRead из Seqs, массива ячеек из символьных векторов или вектора строки, содержащего последовательности нуклеотида.

пример

bioreadObj = BioRead(Seqs,Quals) создает объект BioRead из Seqs и устанавливает свойство Quality объекта к Quals, массиву ячеек из символьных векторов или вектору строки, содержащему представление ASCII качественной музыки на основу к каждому чтению.

пример

bioreadObj = BioRead(Seqs,Quals,Headers) также устанавливает свойство Header объекта к Headers, массиву ячеек из символьных векторов или вектору строки, содержащему текст заголовка для каждого чтения.

пример

bioreadObj = BioRead(___,Name,Value) задает опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущих синтаксисах. Например, br = BioRead('SRR005164_1_50.fastq','InMemory',true) задает, чтобы загрузить данные в памяти вместо того, чтобы оставить его в исходном файле.

Входные параметры

развернуть все

Имя FASTQ-или SAM-отформатированного файла, заданного как вектор символов или строка.

Данные о доступах к объекту BioRead с помощью вспомогательного индексного файла. Индексный файл должен иметь то же имя как исходный файл, но с .idx расширением. Если индексный файл не находится в той же папке как исходный файл, функция BioRead создает индексный файл в той папке.

Примечание

Поскольку данные остаются в исходном файле, не удаляйте исходный файл и вспомогательный индексный файл.

Пример: 'ex1.sam'

Типы данных: char

Информация последовательности, указанная как структура. S должен содержать поля Header, Sequence и Quality. Например, fastqread и функции samread возвращают такую структуру.

Примеры

Типы данных: struct

Последовательности нуклеотида, заданные как массив ячеек из символьных векторов или вектор строки.

Типы данных: cell

Информация качества последовательности, указанная как массив ячеек из символьных векторов.

Типы данных: cell

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: br = BioRead('SRR005164_1_50.fastq','InMemory',true) задает, чтобы загрузить данные в памяти вместо того, чтобы оставить его в исходном файле.

Булев индикатор, чтобы сохранить данные в памяти, заданной как пара, разделенная запятой, состоящая из 'InMemory' и true или false.

Когда вы создаете объект BioRead из файла, объект не загружает данные в памяти, но оставляет его в исходном файле и получает доступ к нему с помощью индексного файла, чтобы сделать процесс большей памятью эффективный. Вы не можете изменить свойства объектов, если вы не загружаете данные в памяти.

Если первый вход не является файлом, этот аргумент пары "имя-значение" проигнорирован, и данные автоматически помещаются в память.

Пример: 'InMemory',true

Типы данных: логический

Путь к папке индексного файла, где индексный файл существует или создан, задан как пара, разделенная запятой, состоящая из 'IndexDir' и вектора символов или строки.

Пример: 'IndexDir','C:\data\'

Типы данных: char

Свойства

развернуть все

Информация о заголовке чтений, заданных как массив ячеек из символьных векторов. Каждый вектор символов представляет текст заголовка для каждого чтения. Существует непосредственное отношение между номером и порядком векторов символов (элементы) в свойствах Header и Sequence, если Header не является массивом пустой ячейки.

Типы данных: cell

Имя объекта, заданное как вектор символов или строка.

Пример: 'seqdata'

Типы данных: char

Количество чтений в объекте, заданном как положительное целое число.

Пример: 20000

Типы данных: double

Качественная музыка на основу ко всем чтениям, заданным как массив ячеек из символьных векторов. Каждый элемент является представлением ASCII качественной музыки на основу к каждому чтению. Непосредственное отношение существует между номером и порядком элементов в Quality и Sequence, если Quality не является массивом пустой ячейки.

Пример: {'<<:<<<','<<<7<:'}

Типы данных: cell

Последовательности нуклеотида (чтения), заданные как массив ячеек из символьных векторов.

Пример: {'TATCTG','ATCTAC'}

Типы данных: cell

Функции объекта

combineОбъедините два объекта
getПолучите свойство объекта
getHeaderПолучите заголовки последовательности из объекта
getQualityПолучите информацию о качестве последовательности из объекта
getSequenceПолучите последовательности из объекта
getSubsequenceПолучите частичные последовательности из объекта
getSubsetПолучите подмножество элементов от объекта
plotSummaryСтатистика краткого изложения сюжета данных NGS
setУстановите свойство объекта
setHeaderОбновите информацию о заголовке чтений
setQualityОбновите информацию о качестве
setSequenceОбновите последовательности чтения
setSubsequenceОбновите частичные последовательности
setSubsetОбновите элементы объекта
writeЗапишите содержимое объекта BioRead или BioMap зарегистрировать

Примеры

свернуть все

Создайте объект BioRead из упорядочивания считанных данных, сохраненных в FASTQ-отформатированном файле.

br = BioRead('SRR005164_1_50.fastq')
br = 
  BioRead with properties:

     Quality: [50x1 File indexed property]
    Sequence: [50x1 File indexed property]
      Header: [50x1 File indexed property]
       NSeqs: 50
        Name: ''


По умолчанию, при создании объекта BioRead из файла, функция также создает индексный файл, если вы уже не существуете. Этот пример использует существующий индексный файл, созданный и сохраненный в:

fullfile(matlabroot,'toolbox','bioinfo','bioinfodata','SRR005164_1_50.fastq.idx')

Данные остаются в исходном файле и доступах к объекту данные с помощью индексного файла, делая процесс большей памятью эффективный. Но вы не можете отредактировать свойства объектов, кроме свойства Name.

Чтобы отредактировать свойства, установите 'InMemory' на true.

brEdit = BioRead('SRR005164_1_50.fastq','InMemory',true);
brEdit.Header(1) = {'SR1'};
brEdit.Header(1)
ans = 1x1 cell array
    {'SR1'}

Если вы создаете объект из массива структур MATLAB или массива ячеек последовательностей нуклеотида, данные о последовательности всегда сохранены в памяти по умолчанию, и опция InMemory проигнорирована.

Например, сгенерируйте переменные MATLAB, содержащие синтетические последовательности и качественные очки.

seqs = {randseq(10);randseq(15);randseq(20)};
quals = {repmat('!',1,10); repmat('%',1,15);repmat('&',1,20)};
headers = {'H1';'H2';'H3'};

Создайте структуру с помощью этих переменных.

structData = struct('Header',headers,'Sequence',seqs,'Quality',quals);

Создайте объект BioRead из структуры.

brStruct = BioRead(structData);

Можно отредактировать свойства объекта, потому что данные остаются в памяти.

brStruct.Header(1) = {'H1.1'};
brStruct.Header(1)
ans = 1x1 cell array
    {'H1.1'}

Представленный в R2010a