soapread

Считайте данные из файла Короткого аналитического пакета олигонуклеотида (SOAP)

Синтаксис

SOAPStruct = soapread(File)
SOAPStruct = soapread(File,Name,Value)

Описание

SOAPStruct = soapread(File) чтения File, отформатированный SOAP файл (версия 2.15) и возвращают данные в SOAPStruct, массиве MATLAB® структур.

SOAPStruct = soapread(File,Name,Value) читает отформатированный SOAP файл с дополнительными опциями, заданными одним или несколькими аргументами пары Name,Value.

Входные параметры

File

Вектор символов или строка, задающая имя файла, путь и имя файла или текст отформатированного SOAP файла. Если вы задаете только имя файла, тот файл должен быть на пути поиска файлов MATLAB или в Текущей папке.

Функция soapread читает отформатированные SOAP файлы (версия 2.15).

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

'BlockRead'

Скаляр или вектор, который управляет чтением одной записи последовательности или блоком записей последовательности из отформатированного SOAP файла, содержащего несколько последовательностей. Введите скалярный N, чтобы считать N th запись в файле. Войдите 1 2 вектор [M1, M2], чтобы считать блок записей, запускающихся при записи M1 и заканчивающихся при записи M2. Чтобы считать все остающиеся записи в файле, запускающемся при записи M1, введите положительное значение для M1 и введите Inf для M2.

'AlignDetails'

Логическое определение, включать ли поле AlignDetails в выходной аргумент SOAPStruct. Поле AlignDetails включает информацию о несоответствиях, вставках и удалениях в выравнивании. Выбором является true (значение по умолчанию) или false.

Значение по умолчанию: tRUE

Выходные аргументы

SOAPStruct

N-by-1 массив структур, содержащих выравнивание последовательности и сопоставляющих информацию из отформатированного SOAP файла, где N является количеством записей выравнивания, сохраненных в отформатированном SOAP файле. Каждая структура содержит следующие поля.

Поле Описание
QueryName

Имя выровненной последовательности чтения.

SequenceВектор символов, содержащий представления буквы последовательности чтения. Это - противоположное дополнение, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
QualityВектор символов, содержащий представление ASCII качества на основу, выигрывает за последовательность чтения. Качественный счет инвертируется, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
NumHitsКоличество общих экземпляров, где эта последовательность чтения, выровненная к идентичной длине основ на другой области ссылочной последовательности.
PairedEndSourceFileФлаг (a или b) задающий, который исходный файл, которому принадлежит последовательность чтения. Это поле применяется только, чтобы считать последовательности, которые соединяются в выравнивании.
LengthСкаляр, задающий длину последовательности чтения.
Strand+ или направление определения − (вперед или реверс) ссылочной последовательности, к которой выравнивается последовательность чтения.
ReferenceNameНазовите или числовой ID ссылочной последовательности, к которой выравнивается последовательность чтения.
PositionПоложение (смещение на основе одно) последовательности ссылки вперед, где крайняя левая основа выравнивания последовательности чтения запускается.
AlignDetailsИнформация о несоответствиях, вставках и удалениях в выравнивании. Для отформатированных SOAP файлов v2.15, это поле включает строки CIGAR.

Примеры

Читайте выравнивание записывает (записи) из файла sample01.soap в массив MATLAB структур и доступа некоторые данные:

% Read the alignment records stored in the file sample01.soap
data = soapread('sample01.soap')
data = 

17x1 struct array with fields:
    QueryName
    Sequence
    Quality
    NumHits
    PairedEndSourceFile
    Length
    Strand
    ReferenceName
    Position
    AlignDetails
% Access the quality score for the 6th entry
data(6).Quality
ans =

<>.>>>8>;:1>>>3>6>
% Determine the strand direction (forward or reverse) of the reference
% sequence to which the 12th entry aligns
data(12).Strand
ans =

-

Читайте блок выравнивания записывает (записи) из файла sample01.soap в массив MATLAB структур:

% Read a block of six entries from a SOAP file
data_5_10 = soapread('sample01.soap','blockread', [5 10])
data_5_10 = 

6x1 struct array with fields:
    QueryName
    Sequence
    Quality
    NumHits
    PairedEndSourceFile
    Length
    Strand
    ReferenceName
    Position
    AlignDetails

Советы

Если ваш отформатированный SOAP файл является слишком большим, чтобы считать использующую доступную память, попробуйте любое из следующего:

  • Используйте аргументы пары "имя-значение" BlockRead, чтобы считать подмножество записей.

  • Создайте объект BioIndexedFile из отформатированного SOAP файла (использующий 'TABLE' для Format), и затем получите доступ к методам использования записей класса BioIndexedFile.

Ссылки

[1] Литий, R., Ю, C., Литий, Y., Бегство, T., Ю, S., Кристиэнсен, K. и Ван, J. (2009). SOAP2: улучшенный сверхбыстрый инструмент для короткого выравнивания чтения. Биоинформатика 25, 15, 1966–1967.

[2] Литий, R., Литий, Y., Кристиэнсен, K. и Ван, J. (2008). SOAP: короткая программа выравнивания олигонуклеотида. Биоинформатика 24 (5), 713–714.

Представленный в R2010b