samread

Считайте данные из файла SAM

Синтаксис

SAMStruct = samread(File)
[SAMStruct, HeaderStruct]= samread(File)
... = samread(File,'ParameterName',ParameterValue)

Описание

SAMStruct = samread(File) читает SAM-отформатированный файл и возвращает данные в MATLAB® массив структур.

[SAMStruct, HeaderStruct]= samread(File) возвращает выравнивание и данные о заголовке в двух отдельных переменных.

... = samread(File,'ParameterName',ParameterValue) принимает один или несколько разделенное от запятой название параметра / пары значения. Задайте ParameterName в одинарных кавычках.

Входные параметры

File

Вектор символов или строка, задающая имя файла, путь и имя файла SAM-отформатированного файла или текст SAM-отформатированного файла. Если вы задаете только имя файла, тот файл должен быть на пути поиска файлов MATLAB или в текущей папке.

Аргументы name-value

Tags

Управляет чтением дополнительных тегов в дополнение к первым 11 полям для каждого выравнивания в SAM-отформатированном файле. Выбором является true (значение по умолчанию) или false.

ReadGroup

Вектор символов или строка, задающая ID группы чтения, для которого можно считать выравнивание, записывают от. Значение по умолчанию должно считать записи из всех групп.

Совет

Для списка групп чтения (если есть), возвратите информацию о заголовке в отдельном Header структура и представление ReadGroup поле в этой структуре.

BlockRead

Скаляр или вектор, который управляет чтением одной записи последовательности или блоком записей последовательности из SAM-отформатированного файла, содержащего несколько последовательностей. Введите скалярный N, считать Nзапись th в файле. Введите вектор 1 на 2 [M1, M2], чтобы считать блок записей, запускающихся в M1 запись и заканчивающийся в M2 запись. Считать все остающиеся записи в файле, запускающемся в M1 запись, введите положительное значение для M1 и введите Inf для M2.

Выходные аргументы

SAMStruct

N-by-1 массив структур, содержащих выравнивание последовательности и сопоставляющих информацию из SAM-отформатированного файла, где N является количеством записей выравнивания, сохраненных в SAM-отформатированном файле. Каждая структура содержит следующие поля.

Поле Описание
QueryName

Имя последовательности чтения (если непарный) или имя пары последовательности (если соединено).

Совет

Можно использовать эту информацию, чтобы заполнить Header свойство объекта BioMap.

Flag

Целое число, указывающее на поразрядную информацию, которая задает состояние каждого из 11 флагов, описанных спецификацией формата SAM.

Совет

Можно использовать bitget функция, чтобы определить состояние определенного флага SAM.

ReferenceNameИмя ссылочной последовательности.
PositionПоложение (смещение на основе одно) последовательности ссылки вперед, где крайняя левая основа выравнивания последовательности чтения запускается.
MappingQualityЦелое число, задающее качество отображения, выигрывает за последовательность чтения.
CigarStringОтформатированное СИГАРОЙ представление вектора символов, как последовательность чтения выравнивается со ссылочной последовательностью.
MateReferenceNameИмя ссылочной последовательности сопоставлено с помощником. Если это имя совпадает с ReferenceName, затем этим значением является =. Если нет никакого помощника, то этим значением является *.
MatePositionПоложение (смещение на основе одно) последовательности ссылки вперед, где крайняя левая основа выравнивания помощника последовательности чтения запускается.
InsertSizeКоличество основных положений между последовательностью чтения и ее помощником, когда оба сопоставлены с той же ссылочной последовательностью. В противном случае этим значением является 0.
SequenceВектор символов, содержащий представления буквы последовательности чтения. Это - противоположное дополнение, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
QualityВектор символов, содержащий представление ASCII качества на основу, выигрывает за последовательность чтения. Качественный счет инвертируется, если последовательность чтения выравнивается к противоположной скрутке ссылочной последовательности.
TagsСписок применимых тегов SAM и их значений.

HeaderStruct

Структура, содержащая информацию о заголовке для SAM-отформатированного файла в следующих полях.

Поле Описание
Header*Структура, содержащая версию формата файла, порядок сортировки и порядок группы.
SequenceDictionary*

Структура, содержащая:

  • Имя последовательности

  • Длина последовательности

  • Идентификатор блока генома

  • Контрольная сумма MD5 последовательности

  • URI последовательности

  • Разновидности

ReadGroup*

Структура, содержащая:

  • Считайте идентификатор группы

  • Выборка

  • Библиотека

  • Описание

  • Модуль платформы

  • Предсказанный средний размер вставки

  • Секвенирование центра

  • Дата

  • Платформа

Program*

Структура, содержащая:

  • Название программы

  • Версия

  • Командная строка

* — Эти структуры и их поля появляются в структуре output, только если они присутствуют в файле SAM. Информация в этих структурах зависит от информации, существующей в файле SAM.

Примеры

Считайте информации заголовка и данные о выравнивании из ex1.sam файл, включенный с Bioinformatics Toolbox™, и затем, возвращает информацию в двух отдельных переменных:

[data header] = samread('ex1.sam');

Считайте блок записей, исключая теги, от ex1.sam файл, и затем возвращает информацию в массиве структур:

% Read entries 5 through 10 and do not include the tags
data = samread('ex1.sam','blockread', [5 10], 'tags', false);

Советы

  • Используйте saminfo функция, чтобы исследовать размер и содержимое SAM-отформатированного файла перед использованием samread функционируйте, чтобы считать содержимое файла в массив MATLAB структур.

  • Если ваш SAM-отформатированный файл является слишком большим, чтобы считать использующую доступную память, попробуйте одно из следующего:

    • Используйте BlockRead параметр с samread функционируйте, чтобы считать подмножество записей.

    • Создайте объект BioIndexedFile из SAM-отформатированного файла, затем получите доступ к методам использования записей BioIndexedFile класс.

  • Используйте SAMStruct выходной аргумент это samread возвращается, чтобы создать BioMap объект, который позволяет вам исследовать, получает доступ, фильтрует и управляет всеми или подмножеством данных, прежде, чем сделать последующие исследования или просмотреть данные.

Введен в R2010a