samread

Чтение данных из файла SAM

Синтаксис

SAMStruct = samread(File)
[SAMStruct, HeaderStruct]= samread(File)
... = samread(File,'ParameterName',ParameterValue)

Описание

SAMStruct = samread(File) считывает файл в формате SAM и возвращает данные в MATLAB® массив структур.

[SAMStruct, HeaderStruct]= samread(File) возвращает данные выравнивания и заголовка в двух отдельных переменных.

... = samread(File,'ParameterName',ParameterValue) принимает одну или несколько пар имя/значение параметра, разделенных запятыми. Задайте ParameterName внутри одинарные кавычки.

Входные параметры

File

Вектор символов или строка, указывающая имя файла, путь и имя файла в формате SAM или текст файла в формате SAM. Если вы задаете только имя файла, этот файл должен быть в пути поиска файлов MATLAB или в текущей папке.

Аргументы в виде пар имя-значение

'Tags'

Управление чтением необязательных марок в дополнение к первым 11 полям для каждого выравнивания в файле с форматированием SAM. Варианты true (по умолчанию) или false.

'ReadGroup'

Вектор символов или строка, указывающая идентификатор считанной группы, из которой будут считываться записи выравнивания. По умолчанию считываются записи из всех групп.

Совет

Список читаемых групп (при наличии) можно узнать в отдельном Header структурировать и просмотреть ReadGroup поле в этой структуре.

'BlockRead'

Скаляр или вектор, который управляет считыванием записи одной последовательности или блока записей последовательности из файла с форматированием SAM, содержащего несколько последовательностей. Введите скалярное N, чтобы прочитать Nвторая запись в файле. Введите вектор 1 на 2 [M1, M2], чтобы считать блок записей, начиная с M1 вход и окончание в M2 запись. Чтобы считать все оставшиеся записи в файле, начиная с M1 введите положительное значение для M1 и вводите Inf для M2.

Выходные аргументы

SAMStruct

Массив N -by-1 структур, содержащий информацию о выравнивании последовательности и отображении из файла с форматированием SAM, где N количество записей выравнивания, хранящихся в файле с форматированием SAM. Каждая структура содержит следующие поля.

ОбластьОписание
QueryName

Имя последовательности чтения (если она не указана) или имя пары последовательности (если она является парной).

Совет

Можно использовать эту информацию для заполнения Header свойство объекта BioMap.

Flag

Целое число, указывающее битовую информацию, которая задает состояние каждого из 11 флагов, описанных спецификацией формата SAM.

Совет

Вы можете использовать bitget функция для определения статуса определенного флага SAM.

ReferenceNameИмя последовательности ссылки.
PositionПоложение (смещение на одной основе) прямой опорной последовательности, где начинается самая левая база выравнивания считанной последовательности.
MappingQualityЦелое число, задающее счет качества отображения для последовательности чтения.
CigarStringФорматированный CIGAR вектор символов, представляющий, как последовательность считывания выравнивается с ссылочной последовательностью.
MateReferenceNameИмя ссылочной последовательности, связанной с совмещением. Если это имя совпадает с именем ReferenceName, тогда это значение =. Если mate нет, то это значение *.
MatePositionПоложение (смещение на одной основе) прямой опорной последовательности, где начинается самая левая база выравнивания сопряжения считанной последовательности.
InsertSizeКоличество базовых позиций между последовательностью чтения и ее сопутствующей последовательностью, когда обе они сопоставлены с одной и той же ссылочной последовательностью. В противном случае это значение 0.
SequenceВектор символов, содержащий буквенные представления последовательности read. Это - обратное дополнение, если последовательность read выравнивается по обратной цепочке ссылки последовательности.
QualityВектор символов, содержащий представление ASCII счета качества в относительных базах для последовательности чтения. Счет качества меняется назад, если последовательность считывания выравнивается по обратной цепи ссылки последовательности.
TagsСписок применимых меток SAM и их значений.

HeaderStruct

Структура, содержащая информацию о заголовках для файла с форматированием SAM в следующих полях.

ОбластьОписание
Header*Структура, содержащая версию формата файла, порядок сортировки и порядок группы.
SequenceDictionary*

Структура, содержащая:

  • Имя последовательности

  • Длина последовательности

  • Идентификатор сборки генома

  • MD5 контрольную сумму последовательности

  • URI последовательности

  • Разновидности

ReadGroup*

Структура, содержащая:

  • Чтение идентификатора группы

  • Выборка

  • Библиотека

  • Описание

  • Система модуля

  • Предсказанный медианный размер вставки

  • Центр секвенирования

  • Дата

  • Платформа

Program*

Структура, содержащая:

  • Имя программы

  • Версия

  • Командная строка

* - Эти структуры и их поля появляются в структуру output только, если они присутствуют в файле SAM. Информация в этих структурах зависит от информации, имеющейся в файле SAM.

Примеры

Считайте информацию о заголовке и данные о выравнивании из ex1.sam файл, включенный в Bioinformatics Toolbox™, а затем возвращает информацию в двух отдельных переменных:

[data header] = samread('ex1.sam');

Считайте блок записей, исключая теги, из ex1.sam файл, а затем возвращает информацию в массиве структур:

% Read entries 5 through 10 and do not include the tags
data = samread('ex1.sam','blockread', [5 10], 'tags', false);

Совет

  • Используйте saminfo функция для исследования размера и содержимого файла с форматированием SAM перед использованием samread функция для чтения содержимого файла в массив структур MATLAB.

  • Если ваш файл в формате SAM слишком велик для чтения с помощью доступной памяти, попробуйте одно из следующего:

    • Используйте BlockRead параметр с параметром samread функция для чтения подмножества записей.

    • Создайте объект BioIndexedFile из файла с форматированием SAM, а затем получите доступ к записям с помощью методов BioIndexedFile класс.

  • Используйте SAMStruct выходной аргумент, samread возвращается, чтобы создать BioMap объект, который позволяет вам исследовать, получать доступ, фильтровать и манипулировать всеми или подмножеством данных, прежде чем выполнять последующие анализы или просматривать данные.

Введенный в R2010a