exponenta event banner

baminfo

Возврат информации о файле BAM

Синтаксис

InfoStruct = baminfo(File)
InfoStruct = baminfo(File,Name,Value)

Описание

InfoStruct = baminfo(File) возвращает структуру MATLAB ®, содержащую сводную информацию о файле в формате BAM.

InfoStruct = baminfo(File,Name,Value) возвращает структуру MATLAB с дополнительными опциями, заданными одним или несколькими Name,Value аргументы пары.

Входные аргументы

File

Символьный вектор или строка, указывающая имя файла или путь и имя файла в формате BAM. Если указано только имя файла, он должен находиться в пути поиска MATLAB или в текущей папке.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

'ScanDictionary'

Логический, который управляет сканированием файла в формате BAM для определения имен ссылок и количества операций чтения, выровненных по каждой ссылке. Если true, ScannedDictionary и ScannedDictionaryCount в полях содержится эта информация.

По умолчанию: false

'NumOfReads'

Логический, который управляет сканированием файла в формате BAM для определения количества записей выравнивания в файле. Если true, NumReads содержит эту информацию.

По умолчанию: false

Выходные аргументы

InfoStruct

Структура MATLAB содержит сводную информацию о файле в формате BAM. Структура содержит эти поля.

ОбластьОписание
FilenameИмя файла в формате BAM.
FilePathПуть к файлу.
FileSizeРазмер файла в байтах.
FileModDateДата изменения файла.
Header**Структура, содержащая версию формата файла, порядок сортировки и порядок групп.
ReadGroup**

Структура, содержащая:

  • Прочитать идентификатор группы

  • Образец

  • Библиотека

  • Описание

  • Блок платформы

  • Прогнозируемый средний размер вставки

  • Центр упорядочения

  • Дата

  • Платформа

SequenceDictionary**

Структура, содержащая:

  • Имя последовательности

  • Длина последовательности

  • Идентификатор сборки генома

  • MD5 контрольная сумма последовательности

  • URI последовательности

  • Разновидности

Program**

Структура, содержащая:

  • Название программы

  • Версия

  • Командная строка

NumReadsКоличество последовательностей ссылок в файле в формате BAM.
ScannedDictionary*Массив ячеек символьных векторов, задающих имена ссылочных последовательностей в файле в формате BAM.
ScannedDictionaryCount*Массив ячеек, указывающий количество операций чтения, выровненных по каждой ссылочной последовательности.

* - ScannedDictionary и ScannedDictionaryCount пустые поля, если не установлен параметр ScanDictionary аргумент пары имя-значение для true.

* * - Эти структуры и их поля отображаются в структуре вывода, только если они находятся в файле BAM. Информация в этих структурах зависит от информации в файле BAM.

Примеры

свернуть все

В этом примере показано, как получить информацию о файле ex1.bam, включенном в Toolbox™ биоинформатики.

info = baminfo('ex1.bam','ScanDictionary',true,'numofreads',true)
info = struct with fields:
                  Filename: 'ex1.bam'
                  FilePath: '/mathworks/devel/bat/BR2021ad/build/matlab/toolbox/bioinfo/bioinfodata'
                  FileSize: 126692
               FileModDate: '07-May-2010 16:12:05'
                    Header: [1x1 struct]
                 ReadGroup: [1x2 struct]
        SequenceDictionary: [1x2 struct]
                  NumReads: 3307
         ScannedDictionary: {2x1 cell}
    ScannedDictionaryCount: [2x1 uint64]

Список ссылок, найденных в файле BAM.

numel(info.ScannedDictionary)
ans = 2

Кроме того, можно использовать доступную информацию заголовка из файла BAM, чтобы узнать количество ссылок, таким образом избегая полного обхода исходного файла.

info = baminfo('ex1.bam'); 
NRefs = numel(info.SequenceDictionary)
NRefs = 2

Совет

Использовать baminfo чтобы исследовать размер и содержимое файла в формате BAM, включая имена последовательностей ссылок, перед использованием bamread для считывания содержимого файла в структуру MATLAB.
Представлен в R2010b