samread

Считайте данные из файла SAM

Синтаксис

SAMStruct = samread(File)
[SAMStruct, HeaderStruct]= samread(File)
... = samread(File,'ParameterName',ParameterValue)

Описание

SAMStruct = samread(File) читает SAM-отформатированный файл и возвращает данные в массиве MATLAB® структур.

[SAMStruct, HeaderStruct]= samread(File) возвращает выравнивание и данные о заголовке в двух отдельных переменных.

... = samread(File,'ParameterName',ParameterValue) принимает один или несколько разделенное от запятой название параметра / пары значения. Задайте ParameterName в одинарных кавычках.

Входные параметры

File

Вектор символов или строка, задающая имя файла, путь и имя файла SAM-отформатированного файла или текст SAM-отформатированного файла. Если вы задаете только имя файла, тот файл должен быть на пути поиска файлов MATLAB или в текущей папке.

Аргументы в виде пар имя-значение

'Tags'

Управляет чтением дополнительных тегов в дополнение к первым 11 полям для каждого выравнивания в SAM-отформатированном файле. Выбором является true (значение по умолчанию) или false.

'ReadGroup'

Вектор символов или строка, задающая ID группы чтения, для которого можно считать выравнивание, записывают от. Значение по умолчанию должно считать записи из всех групп.

Совет

Для списка групп чтения (если есть), возвратите информацию о заголовке в отдельной структуре Header и просмотрите поле ReadGroup в этой структуре.

'BlockRead'

Скаляр или вектор, который управляет чтением одной записи последовательности или блоком записей последовательности из SAM-отформатированного файла, содержащего несколько последовательностей. Введите скалярный N, чтобы считать N th запись в файле. Войдите 1 2 вектор [M1, M2], чтобы считать блок записей, запускающихся при записи M1 и заканчивающихся при записи M2. Чтобы считать все остающиеся записи в файле, запускающемся при записи M1, введите положительное значение для M1 и введите Inf для M2.

Выходные аргументы

SAMStruct

N-by-1 массив структур, содержащих выравнивание последовательности и сопоставляющих информацию из SAM-отформатированного файла, где N является количеством записей выравнивания, сохраненных в SAM-отформатированном файле. Каждая структура содержит следующие поля.

Поле Описание
QueryName

Имя последовательности чтения (если непарный) или имя пары последовательности (если соединено).

Совет

Можно использовать эту информацию, чтобы заполнить свойство Header объекта BioMap.

Flag

Целое число, указывающее на поразрядную информацию, которая задает состояние каждого из 11 флагов, описанных спецификацией формата SAM.

Совет

Можно использовать функцию bitget, чтобы определить состояние определенного флага SAM.

ReferenceNameИмя ссылочной последовательности.
PositionПоложение (смещение на основе одно) последовательности ссылки вперед, где крайняя левая основа выравнивания последовательности чтения запускается.
MappingQualityЦелое число, задающее качество отображения, выигрывает за последовательность чтения.
CigarStringОтформатированное СИГАРОЙ представление вектора символов, как последовательность чтения выравнивается со ссылочной последовательностью.
MateReferenceNameИмя ссылочной последовательности сопоставлено с помощником. Если это имя совпадает с ReferenceName, то этим значением является =. Если нет никакого помощника, то этим значением является *.
MatePositionПоложение (смещение на основе одно) последовательности ссылки вперед, где крайняя левая основа выравнивания помощника последовательности чтения запускается.
InsertSizeКоличество основных положений между последовательностью чтения и ее помощником, когда оба сопоставлены с той же ссылочной последовательностью. В противном случае этим значением является 0.
SequenceВектор символов, содержащий представления буквы последовательности чтения. Это - противоположное дополнение, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
QualityВектор символов, содержащий представление ASCII качества на основу, выигрывает за последовательность чтения. Качественный счет инвертируется, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
TagsСписок применимых тегов SAM и их значений.

HeaderStruct

Структура, содержащая информацию о заголовке для SAM-отформатированного файла в следующих полях.

Поле Описание
Header *Структура, содержащая версию формата файла, порядок сортировки и порядок группы.
SequenceDictionary *

Структура, содержащая:

  • Имя последовательности

  • Длина последовательности

  • Идентификатор блока генома

  • Контрольная сумма MD5 последовательности

  • URI последовательности

  • Разновидности

ReadGroup *

Структура, содержащая:

  • Считайте идентификатор группы

  • Выборка

  • Библиотека

  • Описание

  • Модуль платформы

  • Предсказанный средний размер вставки

  • Упорядочивание центра

  • Дата

  • Платформа

Program *

Структура, содержащая:

  • Название программы

  • Версия

  • Командная строка

* — Эти структуры и их поля появляются в выходной структуре, только если они присутствуют в файле SAM. Информация в этих структурах зависит от информации, существующей в файле SAM.

Примеры

Считайте информации заголовка и данные о выравнивании из файла ex1.sam, включенного с Bioinformatics Toolbox™, и затем возвратите информацию в двух отдельных переменных:

[data header] = samread('ex1.sam');

Считайте блок записей, исключая теги, из файла ex1.sam, и затем возвратите информацию в массиве структур:

% Read entries 5 through 10 and do not include the tags
data = samread('ex1.sam','blockread', [5 10], 'tags', false);

Советы

  • Используйте функцию saminfo, чтобы исследовать размер и содержимое SAM-отформатированного файла перед использованием функции samread, чтобы считать содержимое файла в массив MATLAB структур.

  • Если ваш SAM-отформатированный файл является слишком большим, чтобы считать использующую доступную память, попробуйте одно из следующего:

    • Используйте параметр BlockRead с функцией samread, чтобы считать подмножество записей.

    • Создайте объект BioIndexedFile из SAM-отформатированного файла, затем получите доступ к методам использования записей класса BioIndexedFile.

  • Используйте выходной аргумент SAMStruct, что samread возвращается, чтобы создать объект BioMap, который позволяет вам исследовать, получить доступ, отфильтровать, и управлять всеми или подмножеством данных, прежде, чем сделать последующие исследования или просмотреть данные.

Представленный в R2010a