BioMap class

Суперклассы: BioRead

Содержат данные последовательности, качества, выравнивания и отображения

Описание

BioMap класс содержит данные из коротко считанных последовательностей, включая заголовки последовательностей, считанные последовательности, счета качества для последовательностей и данные о том, как каждая последовательность выравнивается к заданной ссылке. Эти данные обычно получают с высокопроизводительного устройства секвенирования.

Создайте a BioMap объект из данных последовательности с коротким чтением. Каждый элемент объекта имеет связанную с ним последовательность, заголовок, счет качества и информацию о выравнивании/отображении. Используйте свойства и методы объекта для исследования, доступа, фильтрации и манипулирования всеми или подмножеством данных перед анализом или просмотром данных.

Конструкция

BioMapobj = BioMap создает BioMapobj, который является пустым BioMap объект.

BioMapobj = BioMap(File) создает BioMapobj, а BioMap объект, из File, САМ- или BAM-форматированный файл, чтения которого упорядочены по начальной позиции в ссылочной последовательности. Данные остаются в исходном файле, и BioMap Объект обращается к нему с помощью одного или двух вспомогательных файлов индекса. Для файла в формате SAM, MATLAB® использует или создает один индексный файл, который должен иметь то же имя, что и исходный файл, но с .idx расширение. Для файла в формате BAM MATLAB использует или создает два файла индекса, которые должны иметь то же имя, что и исходный файл, но с *.bai и *.linearindex расширения. Если файлы индекса не найдены в той же папке, что и исходный файл, BioMap Функция конструктора создает файлы индекса в этой папке.

Когда вы передаете в неупорядоченном BAM-форматированном файле, конструктор автоматически заказывает файл и записывает данные в упорядоченный файл с тем же базовым именем и расширением с добавленным символьным вектором. «упорядоченный» перед расширением. Новый файл индексируется и используется для создания экземпляров нового BioMap объект.

Примечание

Поскольку данные остаются в исходном файле и доступ к ним осуществляется с помощью файлов индекса:

  • Не удаляйте исходный файл (SAM или BAM).

  • Не удаляйте файлы индекса (*. idx, *. bai, или *. linearindex).

  • Вы не можете изменять BioMapobj свойства.

Совет

Чтобы определить количество ссылочных последовательностей, включенных в ваш исходный файл, используйте saminfo или baminfo функция. Используйте SAMtools, чтобы проверить, упорядочены ли чтения в вашем исходном файле по положению в ссылочной последовательности, а также, при необходимости, переупорядочить их.

BioMapobj = BioMap(Struct) создает BioMapobj, а BioMap объект, из Struct, структуру MATLAB, содержащую информацию о последовательности и выравнивании, такую как возвращенная samread или bamread функция. Данные из Struct остается в памяти, что позволяет изменять BioMapobj свойства.

BioMapobj = BioMap(___,'Name',Value) создает BioMap объект использует любой из предыдущих входных параметров и дополнительные опции, заданные в виде аргументов пары "имя-значение" следующим образом.

BioMapobj = BioMap(___,'SelectReference',SelectRefValue) выбирает одну или несколько ссылок, когда исходные данные содержат последовательности, сопоставленные с несколькими ссылками. По умолчанию конструктор включает все ссылки в словарь заголовков исходного файла. Когда словарь заголовков недоступен, конструктор по умолчанию включает все имена ссылок, найденные в исходных данных. SelectRefValue - вектор символов, строка, строковый вектор или массив ячеек из векторов символов. При помощи этой опции можно предотвратить BioMap конструктор от создания вспомогательных файлов индексов для ссылок, которые вы не будете использовать в анализе. Если какие-либо чтения, сопоставленные с выбранными ссылками, являются парными и BioMapobj записывается в файл, ссылочные последовательности сопряженных также включаются в заголовок файла.

BioMapobj = BioMap(File,'InMemory',InMemoryValue) определяет, помещать ли данные в память или оставлять данные в исходном файле. Оставить данные в исходном файле и получить доступ через индекс файл более эффективно с точки зрения памяти, но не позволяет изменять свойства BioMapobj. Варианты true или false (по умолчанию). Если первый входной параметр не является именем файла, то этот аргумент пары "имя-значение" игнорируется, и данные автоматически помещаются в память.

Совет

Установите 'InMemory' аргумент пары "имя-значение" в true если необходимо изменить свойства BioMapobj.

BioMapobj = BioMap(___,'IndexDir',IndexDirValue) задает путь к папке, в которой находятся индексные файлы (*. idx, *. bai, или *. linearindex) существовать или будет создан.

Совет

Используйте 'IndexDir' аргумент пары "имя-значение", если у вас нет доступа на запись к папке, в которой расположен исходный файл.

BioMapobj = BioMap(___,'Sequence',SequenceValue) создает BioMapobj, а BioMap объект, из SequenceValue который содержит букву ему представления нуклеотидных последовательностей. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Header',HeaderValue) создает BioMapobj, а BioMap объект, из HeaderValue который содержит текст заголовка для нуклеотидных последовательностей. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Quality',QualityValue) создает BioMapobj, а BioMap объект, из QualityValue который содержит представление ASCII счетов качества по основаниям для нуклеотидных последовательностей. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Reference',ReferenceValue) создает BioMapobj, а BioMap объект, и устанавливает Reference свойство к ReferenceValue который содержит имена ссылочных последовательностей. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Signature',SignatureValue) создает BioMapobj, а BioMap объект, из SignatureValue который содержит информацию, описывающую выравнивание каждой последовательности чтения с ссылкой последовательностью. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Start',StartValue) создает BioMapobj, а BioMap объект, из StartValueвектор положительных целых чисел, задающий положение в ссылке последовательности, с которого начинается выравнивание каждой считанной последовательности. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'Flag',FlagValue) создает BioMapobj, а BioMap объект, из FlagValueвектор положительных целых чисел, указывающий битовую информацию для состояния 11 флагов, заданных спецификацией формата SAM. Эти флаги описывают различные аспекты секвенирования и выравнивания считанных последовательностей. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'MappingQuality',MappingQualityValue) создает BioMapobj, а BioMap объект, из MappingQualityValueвектор положительных целых чисел, задающий качество отображения для каждой последовательности чтения. Эта пара "имя-значение" работает только, если данные считываются в память.

BioMapobj = BioMap(___,'MatePosition',MatePositionValue) создает BioMapobj, а BioMap объект, из MatePositionValueвектор неотрицательных целых чисел, задающий положение совмещения для каждой считанной последовательности. Эта пара "имя-значение" работает только, если данные считываются в память.

Входные параметры

File

Вектор символов или строка, задающая файл с форматированием САМ- или БАМ, который содержит только одну ссылочную последовательность и чтения которого упорядочены по начальной позиции в ссылочной последовательности.

Struct

Структура MATLAB, содержащая информацию о последовательности и выравнивании, такую как возвращенная samread или bamread функция. Структура должна иметь одно начальное положение.

SelectRefValue

Вектор символов, строка, строковый вектор или массив ячеек из векторов символов, задающих имя ссылочных последовательностей в File или Struct. Использовать saminfo или baminfo чтобы увидеть полный список ссылочных последовательностей в File.

InMemoryValue

Логическое определение, помещать ли данные в память или оставлять данные в исходном файле. Оставить данные в исходном файле и получить к ним доступ через индекс файл более эффективно с точки зрения памяти, но не позволяет изменять свойства BioMap объект. Если первый входной параметр не является именем файла, то этот аргумент пары "имя-значение" игнорируется, и данные автоматически помещаются в память.

По умолчанию: false

IndexDirValue

Вектор символов или строка, указывающая путь к папке, в которой либо существует файл индекса, либо будет создан.

По умолчанию: Папка, где File находится

SequenceValue

Вектор строка или массив ячеек из векторов символов, содержащих буквенные представления нуклеотидных последовательностей. Эта информация заполняет BioMap Sequence объекта свойство. samread и bamread функции возвращают эту информацию в Sequence поле структуры output.

QualityValue

Вектор строка или массив ячеек из векторов символов, содержащий представление ASCII счетов качества по основаниям для нуклеотидных последовательностей. Эта информация заполняет BioMap Quality объекта свойство. samread и bamread функции возвращают эту информацию в Quality поле структуры output.

HeaderValue

Вектор строка или массив ячеек из векторов символов, содержащий текст заголовка для нуклеотидных последовательностей. Эта информация заполняет BioMap Header объекта свойство. samread и bamread функции возвращают эту информацию в QueryName поле структуры возврата.

NameValue

Вектор символов или строка, описывающая BioMap объект. Эта информация заполняет Name объекта свойство.

По умолчанию: ' ', пустой символьный вектор

ReferenceValue

Вектор строка или массив ячеек из векторов символов, содержащих имена ссылочных последовательностей. Эта информация заполняет Reference объекта свойство. samread функция возвращает эту информацию в ReferenceName поле SAMStruct выходной аргумент. bamread функция возвращает эту информацию в Reference поле HeaderStruct структура output.

SignatureValue

Строка вектор или массив ячеек векторов символов, содержащий информацию, описывающую выравнивание каждой последовательности чтения с ссылкой последовательностью. samread и bamread функции возвращают эту информацию в CigarString поле структуры возврата. Эта информация заполняет Signature объекта свойство.

StartValue

Вектор положительных целых чисел, задающий положение в ссылке последовательности, с которого начинается выравнивание каждой последовательности чтения. Эта информация заполняет Start объекта свойство. samread и bamread функции возвращают эту информацию в Position поле структуры output.

FlagValue

Вектор положительных целых чисел, указывающий битовую информацию для состояния 11 флагов, заданных спецификацией формата SAM. Эти флаги описывают различные аспекты секвенирования и выравнивания считанных последовательностей. Эта информация заполняет Flag объекта свойство. samread и bamread функции возвращают эту информацию в Flag поле структуры output.

MappingQualityValue

Вектор положительных целых чисел, задающий качество отображения для каждой последовательности чтения. Эта информация заполняет MappingQuality объекта свойство. samread и bamread функции возвращают эту информацию в MappingQuality поле структуры output.

MatePositionValue

Вектор неотрицательных целых чисел, задающий положение совмещения для каждой последовательности чтения. Эта информация заполняет MatePosition объекта свойство. samread и bamread функции возвращают эту информацию в MatePosition поле структуры output.

Свойства

Flag

Флаги, связанные со всеми последовательностями чтения, представленными в BioMap объект.

Вектор положительных целых чисел, такой что существует целое число для каждой последовательности чтения в объекте. Каждое целое число указывает битовую информацию, которая задает состояние 11 флагов, описанных спецификацией формата SAM. Эти флаги описывают различные аспекты секвенирования и выравнивания последовательности чтения. Отношение «один к одному» существует между количеством и порядком элементов в Flag и Sequence, если только Flag - пустой вектор.

Header

Заголовки, сопоставленные со всеми последовательностями чтения, представленными в BioMap объект.

Массив ячеек из символьных векторов, такой что существует заголовок для каждой последовательности чтения в объекте. Заголовки могут быть пустыми. Отношение «один к одному» существует между количеством и порядком элементов в Header и Sequence, если только Header - пустой массив ячеек.

MatePosition

Положения пар для всех считанных последовательностей, представленных в BioMap объект.

Вектор неотрицательных целых чисел, таких что существует целое число для каждой последовательности чтения в объекте. Каждое целое число указывает положение соответствующей последовательности сопряжения относительно последовательности ссылки. Отношение «один к одному» существует между количеством и порядком элементов в MatePosition и Sequence, если только MatePosition - пустой вектор.

Не все значения в MatePosition вектор представляет допустимые положения совмещения, например, пары, которые сопоставлены с другой ссылочной последовательностью, или пары, которые не сопоставлены. Чтобы определить, является ли позиция совмещения допустимой, используйте filterByFlag метод с 'pairedInMap' флаг.

MappingQuality

Сопоставление счетов качества, сопоставленных со всеми последовательностями чтения, представленными в BioMap объект.

Вектор целых чисел, такой что существует счет качества отображения для каждой последовательности чтения в объекте. Отношение «один к одному» существует между количеством и порядком элементов в MappingQuality и Sequence, если только MappingQuality - пустой вектор.

Name

Описание BioMap объект.

Вектор символов, описывающий BioMap объект.

По умолчанию: ' ', пустой символьный вектор

NSeqs

Количество последовательностей в BioMap объект.

Эта информация доступна только для чтения.

Quality

Счета качества на базу, сопоставленные со всеми последовательностями чтения, представленными в BioMap объект.

Массив ячеек из символьных векторов, такой что существует качество для каждой последовательности чтения в объекте. Каждое качество является ASCII-представлением счетов качества по основаниям для последовательности чтения. Качество может быть пустым символьным вектором. Отношение «один к одному» существует между количеством и порядком элементов в Quality и Sequence, если только Quality - пустой массив ячеек.

Reference

Ссылочные последовательности в BioMap объект.

BioMapobj.NSeqs-by-1 массив ячеек из векторов символов, задающий имена ссылочных последовательностей.

Эталонные последовательности являются последовательностями, относительно которых выровнены считанные последовательности.

Sequence

Считайте последовательности в BioMap объект.

Массив ячеек из символьных векторов, содержащий буквенные представления считанных последовательностей.

SequenceDictionary

Массив ячеек из символьных векторов, который каталогизирует имена ссылок, доступных в BioMap объект.

Эта информация доступна только для чтения.

Signature

Информация о выравнивании, связанная со всеми считанными последовательностями, представленными в BioMap объект.

Массив ячеек из CIGAR-форматированных ячеек из символьных векторов, таким образом, что существует информация о выравнивании для каждой считанной последовательности в объекте. Каждый вектор символов представляет, как последовательность считывания выравнивается по ссылочной последовательности. Сигнатуры могут быть пустыми символьными векторами. Отношение «один к одному» существует между количеством и порядком элементов в Signature и Sequence, если только Signature - пустой массив ячеек.

Start

Начальные положения всех выровненных последовательностей чтения, представленных в BioMap объект.

Вектор целых чисел, такой что существует стартовая позиция для каждой последовательности чтения в объекте. Каждое целое число задает начальное положение выровненной последовательности чтения относительно номеров позиций в ссылочной последовательности. Отношение «один к одному» существует между количеством и порядком элементов в Start и Sequence, если только Start - пустой вектор.

Методы

filterByFlagПоследовательность фильтров считывается флагом SAM
getAlignmentСоздайте выравнивание, представленную в BioMap объект
getBaseCoverageВерните базовый по основаниям охват выравниванием последовательности ссылки в BioMap объект
getCompactAlignmentСоздайте компактное выравнивание, представленную в BioMap объект
getCountsКоличество возвращенных считанных последовательностей, выровненных по ссылочной последовательности в BioMap объект
getFlagИзвлечение флагов последовательности чтения из BioMap объект
getIndexВозвращает индексы считанных последовательностей, выровненных по ссылочной последовательности в BioMap объект
getInfoИзвлечение информации для одного элемента BioMap объект
getMappingQualityИзвлеките счета качества сопоставления последовательностей из BioMap объект
getMatePositionИзвлеките совмещенные положения считанных последовательностей из BioMap объект
getReferenceИзвлечение ссылочной последовательности из BioMap объект
getSignatureИзвлечение подписи (информация о выравнивании) из BioMap объект
getStartИзвлеките начальные положения выровненных последовательностей чтения из BioMap объект
getStopВычислите положения упора выровненных последовательностей чтения из BioMap объект
getSummaryПечать сводных данных по BioMap объект
setFlagУстановите флаги последовательности чтения для BioMap объект
setMappingQualityУстановите счета качества сопоставления последовательностей для BioMap объект
setMatePositionУстановите совмещенные положения считанных последовательностей в BioMap объект
setReferenceУстановите имя ссылочной последовательности для BioMap объект
setSignatureУстановите сигнатуру (информацию о выравнивании) для BioMap объект
setStartУстановите начальные положения выровненных последовательностей чтения в BioMap объект

Унаследованные методы

combineОбъедините два объекта
getСвойство Retrieve объекта
getHeaderИзвлечение заголовков последовательности из объекта
getQualityИзвлечение информации о качестве последовательности из объекта
getSequenceИзвлечение последовательностей из объекта
getSubsequenceИзвлечение частичных последовательностей из объекта
getSubsetИзвлечение подмножества элементов из объекта
setУстановите свойство объекта
setHeaderОбновление информации заголовка чтений
setQualityОбновление информации о качестве
setSequenceОбновите последовательности чтения
setSubsequenceОбновление частичных последовательностей
setSubsetОбновляйте элементы объекта
writeЗапись содержимого объекта BioRead или BioMap в файл

Копировать семантику

Значение. Чтобы узнать, как классы значений влияют на операции копирования, смотрите раздел «Копирование объектов» в документации Основы Программирования MATLAB.

Индексация

BioMap объекты поддерживают точку. индексация для извлечения, назначения и удаления данных.

Примеры

свернуть все

В этом примере показано, как создать объект BioMap из файла SAM и из структуры.

Создайте объект BioMap из файла с форматированием SAM, который предоставляется с Bioinformatics Toolbox™, и установите свойство Name.

BMObj1 = BioMap('ex1.sam', 'Name', 'MyObject')
BMObj1 = 
  BioMap with properties:

    SequenceDictionary: 'seq1'
             Reference: [1501x1 File indexed property]
             Signature: [1501x1 File indexed property]
                 Start: [1501x1 File indexed property]
        MappingQuality: [1501x1 File indexed property]
                  Flag: [1501x1 File indexed property]
          MatePosition: [1501x1 File indexed property]
               Quality: [1501x1 File indexed property]
              Sequence: [1501x1 File indexed property]
                Header: [1501x1 File indexed property]
                 NSeqs: 1501
                  Name: 'MyObject'


Создайте структуру, содержащую информацию из файла SAM.

SAMStruct = samread('ex1.sam');

Создайте объект BioMap из этой структуры.

BMObj2 = BioMap(SAMStruct)
BMObj2 = 
  BioMap with properties:

    SequenceDictionary: {'seq1'}
             Reference: {1501x1 cell}
             Signature: {1501x1 cell}
                 Start: [1501x1 uint32]
        MappingQuality: [1501x1 uint8]
                  Flag: [1501x1 uint16]
          MatePosition: [1501x1 uint32]
               Quality: {1501x1 cell}
              Sequence: {1501x1 cell}
                Header: {1501x1 cell}
                 NSeqs: 1501
                  Name: ''