exponenta event banner

samread

Считывание данных из файла SAM

Синтаксис

SAMStruct = samread(File)
[SAMStruct, HeaderStruct]= samread(File)
... = samread(File,'ParameterName',ParameterValue)

Описание

SAMStruct = samread(File) считывает файл в формате SAM и возвращает данные в массиве структур MATLAB ®.

[SAMStruct, HeaderStruct]= samread(File) возвращает данные выравнивания и заголовка в двух отдельных переменных.

... = samread(File,'ParameterName',ParameterValue) принимает одну или несколько пар имя/значение параметра, разделенных запятыми. Определить ParameterName внутри одиночных кавычек.

Входные аргументы

File

Символьный вектор или строка, указывающая имя файла, путь и имя файла в формате SAM или текст файла в формате SAM. Если указано только имя файла, он должен находиться в пути поиска MATLAB или в текущей папке.

Аргументы пары «имя-значение»

'Tags'

Управляет чтением дополнительных тегов в дополнение к первым 11 полям для каждой трассы в файле в формате SAM. Варианты: true (по умолчанию) или false.

'ReadGroup'

Символьный вектор или строка, указывающая идентификатор считываемой группы, из которой следует считывать записи выравнивания. По умолчанию записи считываются из всех групп.

Совет

Для получения списка считанных групп (при их наличии) верните информацию заголовка в отдельном Header структура и просмотр ReadGroup поле в этой структуре.

'BlockRead'

Скаляр или вектор, который управляет считыванием одной записи последовательности или блока записей последовательности из файла в формате SAM, содержащего несколько последовательностей. Введите скаляр N, чтобы прочитать N-я запись в файле. Введите вектор 1 на 2 [M1, M2], чтобы прочитать блок записей, начиная с M1 вход и окончание в M2 вход. Чтение всех оставшихся записей в файле, начиная с M1 введите положительное значение для M1 и введите Inf для M2.

Выходные аргументы

SAMStruct

Массив N-by-1 структур, содержащий информацию о выравнивании последовательности и отображении из файла в формате SAM, где N - количество записей выравнивания, хранящихся в файле в формате SAM. Каждая структура содержит следующие поля.

ОбластьОписание
QueryName

Имя считанной последовательности (если непарная) или имя пары последовательностей (если парная).

Совет

Эту информацию можно использовать для заполнения Header свойства объекта BioMap.

Flag

Целое число, указывающее битовую информацию, которая указывает состояние каждого из 11 флагов, описанных в спецификации формата SAM.

Совет

Вы можете использовать bitget для определения состояния конкретного флага SAM.

ReferenceNameИмя ссылочной последовательности.
PositionПоложение (смещение по одному) прямой опорной последовательности, где начинается крайняя левая база выравнивания считанной последовательности.
MappingQualityЦелое число, указывающее оценку качества сопоставления для считанной последовательности.
CigarStringСимвольный вектор в формате CIGAR, представляющий то, как последовательность считывания выравнивается с эталонной последовательностью.
MateReferenceNameИмя ссылочной последовательности, связанной с сопряжением. Если это имя совпадает с именем ReferenceName, то это значение равно =. Если нет совмещения, то это значение равно *.
MatePositionПоложение (смещение по одному) прямой опорной последовательности, в котором начинается крайняя левая база совмещения считанной последовательности.
InsertSizeКоличество базовых позиций между последовательностью считывания и ее матом, когда оба отображаются на одну и ту же ссылочную последовательность. В противном случае это значение равно 0.
SequenceСимвольный вектор, содержащий буквенные представления последовательности считывания. Это обратное дополнение, если считанная последовательность выравнивается по обратной цепи ссылочной последовательности.
QualityСимвольный вектор, содержащий ASCII-представление показателя качества на базу для последовательности считывания. Оценка качества изменяется на обратную, если считанная последовательность выравнивается по обратной цепи ссылочной последовательности.
TagsСписок применимых меток SAM и их значений.

HeaderStruct

Структура, содержащая информацию заголовка для файла в формате SAM в следующих полях.

ОбластьОписание
Header*Структура, содержащая версию формата файла, порядок сортировки и порядок групп.
SequenceDictionary*

Структура, содержащая:

  • Имя последовательности

  • Длина последовательности

  • Идентификатор сборки генома

  • MD5 контрольная сумма последовательности

  • URI последовательности

  • Разновидности

ReadGroup*

Структура, содержащая:

  • Прочитать идентификатор группы

  • Образец

  • Библиотека

  • Описание

  • Блок платформы

  • Прогнозируемый средний размер вставки

  • Центр упорядочения

  • Дата

  • Платформа

Program*

Структура, содержащая:

  • Название программы

  • Версия

  • Командная строка

* - Эти структуры и их поля отображаются в структуре вывода только в том случае, если они присутствуют в файле SAM. Информация в этих структурах зависит от информации, содержащейся в файле SAM.

Примеры

Считывание информации заголовка и данных выравнивания из ex1.sam файл, включенный в Toolbox™ биоинформатики, а затем возвращающий информацию в двух отдельных переменных:

[data header] = samread('ex1.sam');

Считывание блока записей, за исключением тегов, из ex1.sam и затем вернуть информацию в массиве структур:

% Read entries 5 through 10 and do not include the tags
data = samread('ex1.sam','blockread', [5 10], 'tags', false);

Совет

  • Используйте saminfo для исследования размера и содержимого файла в формате SAM перед использованием samread для считывания содержимого файла в массив структур MATLAB.

  • Если файл в формате SAM слишком велик для чтения с использованием доступной памяти, попробуйте выполнить одно из следующих действий:

    • Используйте BlockRead с параметром samread для чтения подмножества записей.

    • Создайте объект BioIndexedFile из файла в формате SAM, а затем получите доступ к записям с помощью методов BioIndexedFile класс.

  • Используйте SAMStruct выходной аргумент, samread возвращает для создания BioMap объект, который позволяет исследовать, получать доступ, фильтровать и манипулировать всеми или подмножеством данных перед выполнением последующего анализа или просмотра данных.

Представлен в R2010a