exponenta event banner

Класс BioMap

Суперклассы: BioRead

Содержат данные о последовательности, качестве, выравнивании и сопоставлении

Описание

BioMap класс содержит данные из коротких считанных последовательностей, включая заголовки последовательностей, считанные последовательности, оценки качества для последовательностей и данные о том, как каждая последовательность выравнивается по заданной ссылке. Эти данные обычно получают из высокопроизводительного прибора секвенирования.

Построить BioMap объект из данных последовательности с коротким чтением. Каждый элемент объекта имеет связанную с ним последовательность, заголовок, оценку качества и информацию выравнивания/сопоставления. Используйте свойства и методы объекта для просмотра, доступа, фильтрации и управления всеми или подмножеством данных перед анализом или просмотром данных.

Строительство

BioMapobj = BioMap конструкции BioMapobj, который является пустым BioMap объект.

BioMapobj = BioMap(File) конструкции BioMapobj, a BioMap объект, из File, файл в формате SAM или BAM, чтение которого упорядочено по начальной позиции в ссылочной последовательности. Данные остаются в исходном файле, и BioMap объект обращается к нему с помощью одного или двух вспомогательных индексных файлов. Для файла в формате SAM MATLAB ® использует или создает один индексный файл, который должен иметь то же имя, что и исходный файл, но с .idx расширение. Для файла в формате BAM MATLAB использует или создает два индексных файла, которые должны иметь то же имя, что и исходный файл, но с *.bai и *.linearindex расширения. Если файлы индекса не находятся в той же папке, что и исходный файл, BioMap функция конструктора создает индексные файлы в этой папке.

При передаче неупорядоченного файла в формате BAM конструктор автоматически упорядочивает файл и записывает данные в упорядоченный файл, используя то же самое базовое имя и расширение с добавленным символьным вектором. «ordered» перед расширением. Новый файл индексируется и используется для создания экземпляра нового BioMap объект.

Примечание

Поскольку данные остаются в исходном файле и доступны с помощью индексных файлов:

  • Не удаляйте исходный файл (SAM или BAM).

  • Не удаляйте файлы индекса (*.idx,*.bai, или *.linearindex).

  • Изменение невозможно BioMapobj свойства.

Совет

Чтобы определить количество последовательностей ссылок, включенных в исходный файл, используйте saminfo или baminfo функция. Используйте SAMtools, чтобы проверить, упорядочены ли чтения в исходном файле по положению в ссылочной последовательности, а также, при необходимости, переупорядочить их.

BioMapobj = BioMap(Struct) конструкции BioMapobj, a BioMap объект, из Struct, структура MATLAB, содержащая информацию о последовательности и выравнивании, такую как возвращенная samread или bamread функция. Данные из Struct остается в памяти, что позволяет изменить BioMapobj свойства.

BioMapobj = BioMap(___,'Name',Value) создает BioMap с использованием любого из предыдущих входных аргументов и дополнительных параметров, указанных в качестве аргументов пары имя-значение следующим образом.

BioMapobj = BioMap(___,'SelectReference',SelectRefValue) выбирает одну или несколько ссылок, когда исходные данные содержат последовательности, сопоставленные с несколькими ссылками. По умолчанию конструктор включает все ссылки в словарь заголовка исходного файла. Если словарь заголовка недоступен, конструктор по умолчанию включает все имена ссылок, найденные в исходных данных. SelectRefValue - символьный вектор, строка, строковый вектор или массив ячеек символьных векторов. С помощью этой опции можно предотвратить BioMap из создания вспомогательных индексных файлов для ссылок, которые не будут использоваться в анализе. Если какие-либо чтения, сопоставленные с выбранными привязками, являются парными и BioMapobj записывается в файл, последовательности ссылок пар также включаются в заголовок файла.

BioMapobj = BioMap(File,'InMemory',InMemoryValue) указывает, следует ли поместить данные в память или оставить данные в исходном файле. Сохранение данных в исходном файле и доступ через индексный файл является более эффективным с точки зрения памяти, но не позволяет изменять свойства BioMapobj. Варианты: true или false (по умолчанию). Если первый входной аргумент не является именем файла, то этот аргумент пары имя-значение игнорируется, и данные автоматически помещаются в память.

Совет

Установите 'InMemory' аргумент пары имя-значение для true если вы хотите изменить свойства BioMapobj.

BioMapobj = BioMap(___,'IndexDir',IndexDirValue) указывает путь к папке, в которой находятся индексные файлы (*.idx,*.bai, или *.linearindex) либо существуют, либо будут созданы.

Совет

Используйте 'IndexDir' аргумент пары имя-значение, если у вас нет доступа на запись к папке, в которой находится исходный файл.

BioMapobj = BioMap(___,'Sequence',SequenceValue) конструкции BioMapobj, a BioMap объект, из SequenceValue который содержит буквенные представления нуклеотидных последовательностей. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Header',HeaderValue) конструкции BioMapobj, a BioMap объект, из HeaderValue который содержит текст заголовка для нуклеотидных последовательностей. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Quality',QualityValue) конструкции BioMapobj, a BioMap объект, из QualityValue который содержит ASCII представление показателей качества по основаниям для нуклеотидных последовательностей. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Reference',ReferenceValue) конструкции BioMapobj, a BioMap и устанавливает Reference свойство для ReferenceValue содержит имена ссылочных последовательностей. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Signature',SignatureValue) конструкции BioMapobj, a BioMap объект, из SignatureValue который содержит информацию, описывающую выравнивание каждой считанной последовательности с ссылочной последовательностью. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Start',StartValue) конструкции BioMapobj, a BioMap объект, из StartValueвектор положительных целых чисел, задающий положение в опорной последовательности, где начинается выравнивание каждой считанной последовательности. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'Flag',FlagValue) конструкции BioMapobj, a BioMap объект, из FlagValueвектор положительных целых чисел, указывающий битовую информацию для состояния 11 флагов, заданных спецификацией формата SAM. Эти флаги описывают различные аспекты последовательности и выравнивания последовательностей считывания. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'MappingQuality',MappingQualityValue) конструкции BioMapobj, a BioMap объект, из MappingQualityValueвектор положительных целых чисел, задающий качество отображения для каждой считанной последовательности. Эта пара имя-значение работает только в том случае, если данные считываются в память.

BioMapobj = BioMap(___,'MatePosition',MatePositionValue) конструкции BioMapobj, a BioMap объект, из MatePositionValueвектор неотрицательных целых чисел, задающий положение совмещения для каждой считываемой последовательности. Эта пара имя-значение работает только в том случае, если данные считываются в память.

Входные аргументы

File

Символьный вектор или строка, задающая файл в формате SAM или BAM, который содержит только одну последовательность ссылок и чтение которого упорядочено по начальной позиции в последовательности ссылок.

Struct

Структура MATLAB, содержащая информацию о последовательности и выравнивании, например, samread или bamread функция. Структура должна иметь единственную начальную позицию.

SelectRefValue

Символьный вектор, строка, строковый вектор или массив ячеек символьных векторов, задающих имя ссылочных последовательностей в File или Struct. Использовать saminfo или baminfo для просмотра полного списка ссылочных последовательностей в File.

InMemoryValue

Логическое указание, следует ли поместить данные в память или оставить данные в исходном файле. Сохранение данных в исходном файле и доступ к ним через индексный файл обеспечивает большую эффективность памяти, но не позволяет изменять свойства BioMap объект. Если первый входной аргумент не является именем файла, то этот аргумент пары имя-значение игнорируется, и данные автоматически помещаются в память.

По умолчанию: false

IndexDirValue

Символьный вектор или строка, указывающая путь к папке, в которой существует или будет создан индексный файл.

По умолчанию: Папка, где File находится

SequenceValue

Строковый вектор или клеточный массив символьных векторов, содержащих буквенные представления нуклеотидных последовательностей. Эта информация заполняет BioMap объект Sequence собственность. samread и bamread функции возвращают эту информацию в Sequence поле структуры вывода.

QualityValue

Строковый вектор или клеточный массив символьных векторов, содержащих ASCII представление показателей качества по основаниям для нуклеотидных последовательностей. Эта информация заполняет BioMap объект Quality собственность. samread и bamread функции возвращают эту информацию в Quality поле структуры вывода.

HeaderValue

Строковый вектор или клеточный массив символьных векторов, содержащих текст заголовка для нуклеотидных последовательностей. Эта информация заполняет BioMap объект Header собственность. samread и bamread функции возвращают эту информацию в QueryName поле структуры возврата.

NameValue

Символьный вектор или строка, описывающая BioMap объект. Эта информация заполняет объект Name собственность.

По умолчанию: ' ', пустой символьный вектор

ReferenceValue

Строковый вектор или массив ячеек символьных векторов, содержащих имена ссылочных последовательностей. Эта информация заполняет объект Reference собственность. samread функция возвращает эту информацию в ReferenceName области SAMStruct выходной аргумент. bamread функция возвращает эту информацию в Reference области HeaderStruct структура вывода.

SignatureValue

Строковый вектор или массив ячеек символьных векторов, содержащих информацию, описывающую выравнивание каждой считанной последовательности с эталонной последовательностью. samread и bamread функции возвращают эту информацию в CigarString поле структуры возврата. Эта информация заполняет объект Signature собственность.

StartValue

Вектор положительных целых чисел, указывающий положение в ссылочной последовательности, где начинается выравнивание каждой считываемой последовательности. Эта информация заполняет объект Start собственность. samread и bamread функции возвращают эту информацию в Position поле структуры вывода.

FlagValue

Вектор положительных целых чисел, указывающий битовую информацию о состоянии 11 флагов, указанных в спецификации формата SAM. Эти флаги описывают различные аспекты последовательности и выравнивания последовательностей считывания. Эта информация заполняет объект Flag собственность. samread и bamread функции возвращают эту информацию в Flag поле структуры вывода.

MappingQualityValue

Вектор положительных целых чисел, задающий качество отображения для каждой считанной последовательности. Эта информация заполняет объект MappingQuality собственность. samread и bamread функции возвращают эту информацию в MappingQuality поле структуры вывода.

MatePositionValue

Вектор неотрицательных целых чисел, задающий положение совмещения для каждой считываемой последовательности. Эта информация заполняет объект MatePosition собственность. samread и bamread функции возвращают эту информацию в MatePosition поле структуры вывода.

Свойства

Flag

Флаги, связанные со всеми последовательностями чтения, представленными в BioMap объект.

Вектор положительных целых чисел, так что существует целое число для каждой считанной последовательности в объекте. Каждое целое число указывает битовую информацию, которая указывает состояние 11 флагов, описанных в спецификации формата SAM. Эти флаги описывают различные аспекты последовательности и выравнивания последовательности считывания. Существует взаимосвязь «один к одному» между числом и порядком элементов в Flag и Sequence, если только Flag является пустым вектором.

Header

Заголовки, связанные со всеми последовательностями чтения, представленными в BioMap объект.

Массив ячеек символьных векторов, так что имеется заголовок для каждой считываемой последовательности в объекте. Заголовки могут быть пустыми. Существует взаимосвязь «один к одному» между числом и порядком элементов в Header и Sequence, если только Header является пустым массивом ячеек.

MatePosition

Положения пар для всех последовательностей считывания, представленных в BioMap объект.

Вектор неотрицательных целых чисел, так что существует целое число для каждой считанной последовательности в объекте. Каждое целое число указывает положение соответствующей последовательности совмещения относительно эталонной последовательности. Существует взаимосвязь «один к одному» между числом и порядком элементов в MatePosition и Sequence, если только MatePosition является пустым вектором.

Не все значения в MatePosition вектор представляет допустимые положения совмещения, например, совмещения, которые сопоставляются с другой ссылочной последовательностью, или совмещения, которые не сопоставляются. Чтобы определить, является ли положение совмещения действительным, используйте filterByFlag с помощью 'pairedInMap' флаг.

MappingQuality

Отображение показателей качества, связанных со всеми последовательностями чтения, представленными в BioMap объект.

Вектор целых чисел, так что существует оценка качества отображения для каждой считанной последовательности в объекте. Существует взаимосвязь «один к одному» между числом и порядком элементов в MappingQuality и Sequence, если только MappingQuality является пустым вектором.

Name

Описание BioMap объект.

Символьный вектор, описывающий BioMap объект.

По умолчанию: ' ', пустой символьный вектор

NSeqs

Количество последовательностей в BioMap объект.

Эта информация доступна только для чтения.

Quality

Оценки качества на базу, связанные со всеми последовательностями чтения, представленными в BioMap объект.

Массив ячеек символьных векторов, так что существует качество для каждой считываемой последовательности в объекте. Каждое качество представляет собой ASCII-представление показателей качества на базу для последовательности считывания. Качество может быть пустым символьным вектором. Существует взаимосвязь «один к одному» между числом и порядком элементов в Quality и Sequence, если только Quality является пустым массивом ячеек.

Reference

Ссылочные последовательности в BioMap объект.

BioMapobj.NSeqs-by-1 - массив ячеек символьных векторов, задающих имена опорных последовательностей.

Эталонные последовательности представляют собой последовательности, по которым выровнены считанные последовательности.

Sequence

Считывание последовательностей в BioMap объект.

Массив ячеек символьных векторов, содержащих буквенные представления считанных последовательностей.

SequenceDictionary

Массив ячеек векторов символов, который каталогизирует имена ссылок, доступных в BioMap объект.

Эта информация доступна только для чтения.

Signature

Информация о выравнивании, связанная со всеми последовательностями чтения, представленными в BioMap объект.

Массив ячеек векторов символов в формате CIGAR, так что имеется информация выравнивания для каждой считанной последовательности в объекте. Каждый символьный вектор представляет, как последовательность считывания выравнивается по ссылочной последовательности. Подписи могут быть пустыми векторами символов. Существует взаимосвязь «один к одному» между числом и порядком элементов в Signature и Sequence, если только Signature является пустым массивом ячеек.

Start

Начальные позиции всех выровненных последовательностей чтения, представленных в BioMap объект.

Вектор целых чисел, так что имеется начальная позиция для каждой считанной последовательности в объекте. Каждое целое число определяет начальную позицию выровненной последовательности считывания относительно номеров позиций в ссылочной последовательности. Существует взаимосвязь «один к одному» между числом и порядком элементов в Start и Sequence, если только Start является пустым вектором.

Методы

filterByFlagПоследовательность фильтров, считываемая флагом SAM
getAlignmentПостроение трассы, представленной в BioMap объект
getBaseCoverageВозврат покрытия базовой выставки ссылочной последовательности в BioMap объект
getCompactAlignmentПостроение компактной трассы, представленной в BioMap объект
getCountsВозвращаемое число считанных последовательностей, выровненных по ссылочной последовательности в BioMap объект
getFlagИзвлечь флаги последовательности чтения из BioMap объект
getIndexВозвращаемые индексы последовательностей считывания, выровненных по ссылочной последовательности в BioMap объект
getInfoПолучение информации для одного элемента BioMap объект
getMappingQualityПолучение показателей качества отображения последовательности из BioMap объект
getMatePositionИзвлекать положения совмещения последовательностей чтения из BioMap объект
getReferenceПолучение ссылочной последовательности из BioMap объект
getSignatureПолучение подписи (информации о выравнивании) из BioMap объект
getStartПолучение начальных позиций выровненных последовательностей чтения из BioMap объект
getStopВычислить стоп-позиции выровненных последовательностей чтения из BioMap объект
getSummaryПечать сводки BioMap объект
setFlagУстановка флагов последовательности чтения для BioMap объект
setMappingQualityУстановка показателей качества отображения последовательности для BioMap объект
setMatePositionЗадать положения совмещения последовательностей чтения в BioMap объект
setReferenceЗадать имя ссылочной последовательности для BioMap объект
setSignatureУстановить сигнатуру (информацию об трассе) для BioMap объект
setStartУстановка начальных позиций выровненных последовательностей чтения в BioMap объект

Унаследованные методы

объединитьсяОбъединение двух объектов
добратьсяПолучить свойство объекта
getHeaderИзвлечение заголовков последовательности из объекта
getQualityПолучение информации о качестве последовательности из объекта
getSequenceИзвлечение последовательностей из объекта
getSubsequenceИзвлечение частичных последовательностей из объекта
getSubsetИзвлечение подмножества элементов из объекта
наборЗадать свойство объекта
setHeaderОбновить информацию заголовка для операций чтения
setQualityОбновление информации о качестве
setSequenceОбновить последовательности чтения
setSubsequenceОбновить частичные последовательности
setSubsetОбновить элементы объекта
написатьЗапись содержимого объекта BioRead или BioMap в файл

Копирование семантики

Значение. Сведения о том, как классы значений влияют на операции копирования, см. в разделе Копирование объектов в документации по основам программирования MATLAB.

Индексация

BioMap объекты поддерживают точку. индексирование для извлечения, назначения и удаления данных.

Примеры

свернуть все

В этом примере показано, как построить объект BioMap из файла SAM и из структуры.

Создайте объект BioMap из файла в формате SAM с Toolbox™ биоинформатики и задайте свойство Name.

BMObj1 = BioMap('ex1.sam', 'Name', 'MyObject')
BMObj1 = 
  BioMap with properties:

    SequenceDictionary: 'seq1'
             Reference: [1501x1 File indexed property]
             Signature: [1501x1 File indexed property]
                 Start: [1501x1 File indexed property]
        MappingQuality: [1501x1 File indexed property]
                  Flag: [1501x1 File indexed property]
          MatePosition: [1501x1 File indexed property]
               Quality: [1501x1 File indexed property]
              Sequence: [1501x1 File indexed property]
                Header: [1501x1 File indexed property]
                 NSeqs: 1501
                  Name: 'MyObject'


Создайте структуру, содержащую информацию из SAM-файла.

SAMStruct = samread('ex1.sam');

Создайте объект BioMap из этой структуры.

BMObj2 = BioMap(SAMStruct)
BMObj2 = 
  BioMap with properties:

    SequenceDictionary: {'seq1'}
             Reference: {1501x1 cell}
             Signature: {1501x1 cell}
                 Start: [1501x1 uint32]
        MappingQuality: [1501x1 uint8]
                  Flag: [1501x1 uint16]
          MatePosition: [1501x1 uint32]
               Quality: {1501x1 cell}
              Sequence: {1501x1 cell}
                Header: {1501x1 cell}
                 NSeqs: 1501
                  Name: ''