getCounts

Класс: BioMap

Количество возвращенных считанных последовательностей, выровненных по ссылочной последовательности в BioMap объект

Синтаксис

Count = getCounts(BioObj, StartPos, EndPos)
GroupCount = getCounts(BioObj, StartPos, EndPos, Groups)
GroupCount = getCounts(BioObj, StartPos, EndPos, Groups, R)
___ = getCounts(___, Name,Value)

Описание

Count = getCounts(BioObj, StartPos, EndPos) возвращает Countнеотрицательное целое число, задающее количество считанных последовательностей в BioObj, а BioMap объект, который выравнивается к определенной области значений или набору областей значений в ссылочной последовательности. Области значений или набор областей значений определяются StartPos и EndPos. StartPos и EndPos могут быть двумя неотрицательными целыми числами, такими что StartPos меньше EndPosи оба целых чисел меньше длины ссылки последовательности. StartPos и EndPos могут также быть два векторов-столбцов, представляющими набор областями значений (перекрывающихся или сегментированных).

По умолчанию, getCounts отсчитывает каждое чтение только один раз. Поэтому, если чтение охватывает несколько области значений, этот образец считывания отсчитывается только один раз. Когда StartPos и EndPos задайте области значений перекрытия, области значений перекрытия рассматриваются как одна область значений.

GroupCount = getCounts(BioObj, StartPos, EndPos, Groups) задает Groups, вектор из целых чисел или массив ячеек из векторов символов или строкового вектора, указывающий группы, к которым относятся сегментированные области значений. Сегментированные области значений обрабатываются независимо.

GroupCount = getCounts(BioObj, StartPos, EndPos, Groups, R) задает ссылку для каждого из сегментированных областей значений, заданных как StartPos, EndPos, и Groups.

___ = getCounts(___, Name,Value) использует дополнительные опции, заданные одним или несколькими Name,Value аргументы в виде пар.

Входные параметры

BioObj

Объект BioMap класс.

StartPos

Одно из следующих:

  • Неотрицательное целое число, которое задает начало области значений в ссылочной последовательности. StartPos должно быть меньше EndPosи меньше, чем общая длина последовательности ссылки.

  • Вектор-столбец неотрицательных целых чисел, каждый из которых определяет начало области значений в ссылку последовательности.

EndPos

Одно из следующих:

  • Неотрицательное целое число, которое задает конец области значений в ссылочной последовательности. EndPos должно быть больше StartPosи меньше, чем общая длина последовательности ссылки.

  • Вектор-столбец неотрицательных целых чисел, каждый из которых определяет конец области значений в ссылку последовательности.

Groups

Вектор-строка из целых чисел, массив ячеек из векторов символов или строковый вектор того же размера, что и StartPos и EndPos. Этот вектор указывает группу, к которой принадлежит каждая область значений.

R

Вектор положительных целых чисел, индексирующий SequenceDictionary свойство BioObj, или массив ячеек из векторов символов или строкового вектора ссылочных имен. R должен быть скалярным или должен иметь то же количество элементов, что и Groups.

Для заданного значения Groups, все соответствующие элементы в R должно быть то же самое.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

'Independent'

Логический, который определяет, обрабатывать ли области значений, заданные StartPos и EndPos независимо. Если true, Count - вектор-столбец, содержащая то же количество элементов, что и StartPos и EndPos. В этом случае чтение, которое охватывает несколько области значений, отсчитывается один раз в каждой области значений.

Примечание

Этот аргумент пары "имя-значение" игнорируется при использовании Groups входной параметр, потому что getCounts принимает, что каждая группа областей значений является независимой.

По умолчанию: false

'Overlap'

Задает минимальное количество базовых положений, которые должны перекрываться при считывании в области значений или наборе областей значений, подлежащих подсчету. Это значение может быть любым из следующих:

  • Положительное целое число

  • 'full' - Чтение должно быть полностью заключено в область значений или набор областей значений, которые будут подсчитаны.

  • 'start' - Начальное положение чтения должно находиться в области значений или наборе областей значений, которые будут подсчитаны.

По умолчанию: 1

'Spliced'

Логическое определение того, сращиваются ли короткие чтения во время отображения (как при отображении мРНК к геному). N символов в Signature свойство объекта не учитывается.

По умолчанию: false

'Method'

Вектор символов или строка, задающая метод для измерения изобилия показаний. Варианты:

  • 'raw' - Необработанные счетчики

  • 'rpkm' - Количество чтений на килобазные пары на миллион выровненных чтений

  • 'mean' - Средняя глубина покрытия, рассчитанная по основаниям

  • 'max' - Максимальная глубина покрытия вычисляется по основаниям

  • 'min' - Минимальная глубина покрытия вычисляется по основаниям

  • 'sum' - Сумма всех выровненных основ во всех чтениях

По умолчанию: 'raw'

Выходные аргументы

Count

Одно из следующих:

  • Когда Independent является false, это значение является неотрицательным целым числом. Целое число задает количество чтений, которые совпадают с областью значений или набором областей значений (перекрывающихся или сегментированных) ссылочной последовательности в BioObj, а BioMap объект. Каждое чтение учитывается только один раз, даже если чтение охватывает несколько области значений.

  • Когда Independent является true, это значение является вектором неотрицательных целых чисел. Этот вектор указывает количество чтений, которые выравниваются к независимым областям значений, заданным StartPos и EndPos. Этот вектор содержит то же количество элементов, что и StartPos и EndPos.

GroupCount

Одно из следующих:

  • Если ссылка или одна ссылка не задана, это значение является вектором, содержащим количество чтений для каждой уникальной группы в Groups. Порядок элементов в GroupsCount соответствует порядку возрастания уникальных элементов в Groups.

  • Если задано несколько ссылок, GroupCount - массив ячеек, где i-й элемент содержит количество чтений для каждой уникальной группы в i-й ссылке. Порядок элементов в GroupsCount соответствует порядку возрастания уникальных элементов в R.

Примеры

расширить все

Создайте объект BioMap.

obj = BioMap('ex1.sam');

Верните количество показаний, которые охватывают по крайней мере одну основу сегментированной области значений 1:50 и 71:100. По умолчанию области значений не обрабатываются независимо, то есть чтение отсчитывается один раз, даже если оно соответствует обеим сегментированным областям значений.

counts_1 = getCounts(obj,[1;71],[50;100])
counts_1 = 37

Вычислите количество показаний, обрабатывая сегментированные области значений [1:50] и [71:100] независимо. Наблюдайте за этим sum(counts_2) больше counts_1 потому что существует четыре чтения, которые охватывают два сегмента и учитываются дважды во втором случае.

counts_2 = getCounts(obj,[1;71],[50;100], 'Independent', true)
counts_2 = 2×1

    20
    21

Вычислите количество чтений, которые совпадают с сегментированной областью значений 30:60 (сопоставленным с группой 1) и сегментированной областью значений [1:10 50:60] (сопоставленным с группой 2).

counts_3 = getCounts(obj,[1;30;50],[10;60;60],[2 1 2])
counts_3 = 2×1

    25
    22

Возвращает общее количество чтений, выровненных по ссылочной последовательности.

getCounts(obj, min(getStart(obj)), max(getStop(obj)))
ans = 1482