exponenta event banner

getSegments

Класс: GTFAnnotation

Таблица возврата неперекрывающихся сегментов из GTFAnnotation объект

Описание

segments = getSegments(AnnotObj) прибыль segmentsтаблица неперекрывающихся сегментов нуклеотидных последовательностей, построенная путем уплощения транскриптов в AnnotObj. Если граница экзона не одинакова в двух или более транскриптах гена, то функция создает два или более неперекрывающихся сегмента, которые охватывают все экзоны в транскрипте.

[segments,transcriptIDs] = getSegments(AnnotObj) прибыль transcriptIDs, клеточный массив символьных векторов, содержащий все уникальные идентификаторы транскриптов в AnnotObj.

[___] = getSegments(AnnotObj,'Reference',R) возвращает сегменты, принадлежащие ссылкам, указанным R.

[___] = getSegments(AnnotObj,'Gene',G) возвращает сегменты, принадлежащие гену (генам), указанному G.

[___] = getSegments(AnnotObj,'Transcript',T) возвращает сегменты, принадлежащие транскрипту (-ям), указанному T.

Входные аргументы

развернуть все

Аннотация GTF, указанная как GTFAnnotation объект.

Имена ссылочных последовательностей, указанных как символьный вектор, строка, строковый вектор, массив ячеек символьных векторов или категориальный массив.

Имена должны происходить от Reference поле AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует его.

Имена генов, указанных как символьный вектор, строка, строковый вектор, клеточный массив символьных векторов или категориальный массив.

Имена должны происходить от Gene поле AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует его.

Имена транскриптов, указанных как символьный вектор, строка, строковый вектор, клеточный массив символьных векторов или категориальный массив.

Имена должны происходить от Transcript поле AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует его.

Выходные аргументы

развернуть все

Неперекрывающиеся сегменты, возвращаемые в виде таблицы. Таблица содержит следующие переменные для каждого сегмента.

Имя переменнойОписание
StartНачальное расположение каждого сегмента.
StopОстановка расположения каждого сегмента.
ReferenceКатегориальный массив, представляющий имена ссылочных последовательностей, к которым принадлежат сегменты, полученные из Reference поле AnnotObj.
ExonIndicatorЛогическая разреженная матрица сегмента в сравнении с экзоном. Строки представляют сегменты. Столбцы являются экзонами. Если i-й сегмент является частью j-го экзона, элемент в положении (i, j) равен 1. В противном случае значение равно 0.
TranscriptIndicatorЛогическая разреженная матрица сегмента в сравнении с транскриптом. Строки представляют сегменты, а столбцы представляют собой транскрипты. Элемент в положении (i, j) равен 1, если i-й сегмент является частью j-го транскрипта, и 0 в противном случае.

Уникальные идентификаторы транскриптов, возвращаемые в виде клеточного массива символьных векторов. Идентификаторы транскрипта соответствуют столбцам TranscriptIndicator переменная segments. Например, первый элемент transcriptIDs - идентификатор первого столбца TranscriptIndicator матрица.

Примеры

развернуть все

Создайте объект GTFAnnotation из файла в формате GTF.

obj = GTFAnnotation('hum37_2_1M.gtf');

Получить уникальные имена ссылок. В этом случае существует только одна эталонная последовательность, которая является хромосомой 2 (chr2).

ref = getReferenceNames(obj)
ref = 1x1 cell array
    {'chr2'}

Получить таблицу всех неперекрывающихся сегментов нуклеотидных последовательностей, которые принадлежат chr2.

segments = getSegments(obj,'Reference',ref);