BioRead

Содержите чтения последовательности и их качественные данные

Описание

BioRead объект содержит считанные данные секвенирования, включая заголовки последовательности, последовательности нуклеотида и качественные баллы.

Создайте объект BioRead из NGS (секвенирование следующего поколения) данные, хранимые в FASTQ-или SAM-отформатированном файле. Каждый элемент в объекте имеет последовательность, заголовок и качественный счет, сопоставленный с ним. Используйте свойства объектов и функции, чтобы исследовать, получить доступ, отфильтровать, и управлять всеми данными или подмножеством данных. Если у вас есть данные с чтениями, которые уже сопоставлены со ссылочной последовательностью, и необходимо получить доступ к записям выравнивания, использовать BioMap вместо этого.

Создание

Описание

пример

bioreadObj = BioRead создает пустой BioRead объект bioreadObj.

пример

bioreadObj = BioRead(File) создает BioRead объект от File, FASTQ-или SAM-отформатированный файл. Данные остаются в исходном файле после того, как объект создается, и вы имеете доступ к данным через свойства объектов, но не можете изменить свойства, кроме Name свойство.

пример

bioreadObj = BioRead(S) создает BioRead объект от S, структура MATLAB®, содержа поля Header, Sequence, и Quality. Данные из S остается в памяти, и можно изменить свойства объекта.

пример

bioreadObj = BioRead(Seqs) создает BioRead объект от Seqs, массив ячеек из символьных векторов или вектор строки, содержащий последовательности нуклеотида.

пример

bioreadObj = BioRead(Seqs,Quals) создает BioRead объект от Seqs и устанавливает Quality свойство объекта к Quals, массив ячеек из символьных векторов или вектор строки, содержащий представление ASCII качественной музыки на основу к каждому чтению.

пример

bioreadObj = BioRead(Seqs,Quals,Headers) также устанавливает Header свойство объекта к Headers, массив ячеек из символьных векторов или вектор строки, содержащий текст заголовка для каждого чтения.

пример

bioreadObj = BioRead(___,Name,Value) задает опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущих синтаксисах. Например, br = BioRead('SRR005164_1_50.fastq','InMemory',true) задает, чтобы загрузить данные в памяти вместо того, чтобы оставить его в исходном файле.

Входные параметры

развернуть все

Имя FASTQ-или SAM-отформатированного файла в виде вектора символов или строки.

BioRead данные о доступах к объекту с помощью вспомогательного индексного файла. Индексный файл должен иметь то же имя как исходный файл, но с .idx расширением. Если индексный файл не находится в той же папке как исходный файл, BioRead функция создает индексный файл в той папке.

Примечание

Поскольку данные остаются в исходном файле, не удаляйте исходный файл и вспомогательный индексный файл.

Пример: 'ex1.sam'

Типы данных: char

Информация о последовательности в виде структуры. S должен содержать поля Header, Sequence, и Quality. Например, fastqread и samread функции возвращают такую структуру.

Примеры

Типы данных: struct

Последовательности нуклеотида в виде массива ячеек из символьных векторов или вектора строки.

Типы данных: cell

Информация о качестве последовательности в виде массива ячеек из символьных векторов.

Типы данных: cell

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: br = BioRead('SRR005164_1_50.fastq','InMemory',true) задает, чтобы загрузить данные в памяти вместо того, чтобы оставить его в исходном файле.

Булев индикатор, чтобы сохранить данные в памяти в виде разделенной запятой пары, состоящей из 'InMemory' и true или false.

Когда вы создаете BioRead объект из файла, объект не загружает данные в памяти, но оставляет его в исходном файле и получает доступ к нему с помощью индексного файла, чтобы сделать процесс большей памятью эффективный. Вы не можете изменить свойства объектов, если вы не загружаете данные в памяти.

Если первый вход не является файлом, этот аргумент пары "имя-значение" проигнорирован, и данные автоматически помещаются в память.

Пример: 'InMemory',true

Типы данных: логический

Путь к папке индексного файла, где индексный файл существует или создается в виде разделенной запятой пары, состоящей из 'IndexDir' и вектор символов или строка.

Пример: 'IndexDir','C:\data\'

Типы данных: char

Свойства

развернуть все

Информация о заголовке чтений в виде массива ячеек из символьных векторов. Каждый вектор символов представляет текст заголовка для каждого чтения. Существует непосредственное отношение между номером и порядком векторов символов (элементы) в Header и Sequence свойства, если Header массив пустой ячейки.

Типы данных: cell

Имя объекта в виде вектора символов или строки.

Пример: 'seqdata'

Типы данных: char

Количество чтений в объекте в виде положительного целого числа.

Пример: 20000

Типы данных: double

Качественная музыка на основу ко всем чтениям в виде массива ячеек из символьных векторов. Каждым элементом является представление ASCII качественной музыки на основу к каждому чтению. Непосредственное отношение существует между номером и порядком элементов в Quality и Sequence, если Quality массив пустой ячейки.

Пример: {'<<:<<<','<<<7<:'}

Типы данных: cell

Последовательности нуклеотида (чтения) в виде массива ячеек из символьных векторов.

Пример: {'TATCTG','ATCTAC'}

Типы данных: cell

Функции объекта

combineОбъедините два объекта
getПолучите свойство объекта
getHeaderПолучите заголовки последовательности из объекта
getQualityПолучите информацию о качестве последовательности из объекта
getSequenceПолучите последовательности из объекта
getSubsequenceПолучите частичные последовательности из объекта
getSubsetПолучите подмножество элементов от объекта
setУстановите свойство объекта
setHeaderОбновите информацию о заголовке чтений
setQualityОбновите информацию о качестве
setSequenceОбновите последовательности чтения
setSubsequenceОбновите частичные последовательности
setSubsetОбновите элементы объекта
writeЗапишите содержимое объекта BioRead или BioMap зарегистрировать

Примеры

свернуть все

Создайте объект BioRead из секвенирования считанных данных, сохраненных в FASTQ-отформатированном файле.

br = BioRead('SRR005164_1_50.fastq')
br = 
  BioRead with properties:

     Quality: [50x1 File indexed property]
    Sequence: [50x1 File indexed property]
      Header: [50x1 File indexed property]
       NSeqs: 50
        Name: ''


По умолчанию, при создании объекта BioRead из файла, функция также создает индексный файл, если вы уже не существуете. Этот пример использует существующий индексный файл, созданный и сохраненный в:

fullfile(matlabroot,'toolbox','bioinfo','bioinfodata','SRR005164_1_50.fastq.idx')

Данные остаются в исходном файле и доступах к объекту данные с помощью индексного файла, делая процесс большей памятью эффективный. Но вы не можете отредактировать свойства объектов, кроме Name свойство.

Чтобы отредактировать свойства, установите 'InMemory' к true .

brEdit = BioRead('SRR005164_1_50.fastq','InMemory',true);
brEdit.Header(1) = {'SR1'};
brEdit.Header(1)
ans = 1x1 cell array
    {'SR1'}

Если вы создаете объект из массива структур MATLAB или массива ячеек последовательностей нуклеотида, данные о последовательности всегда сохранены в памяти по умолчанию и InMemory опция проигнорирована.

Например, сгенерируйте переменные MATLAB, содержащие синтетические последовательности и качественные баллы.

seqs = {randseq(10);randseq(15);randseq(20)};
quals = {repmat('!',1,10); repmat('%',1,15);repmat('&',1,20)};
headers = {'H1';'H2';'H3'};

Создайте структуру с помощью этих переменных.

structData = struct('Header',headers,'Sequence',seqs,'Quality',quals);

Создайте объект BioRead из структуры.

brStruct = BioRead(structData);

Можно отредактировать свойства объекта, потому что данные остаются в памяти.

brStruct.Header(1) = {'H1.1'};
brStruct.Header(1)
ans = 1x1 cell array
    {'H1.1'}

Введен в R2010a