getSegments

Класс: GTFAnnotation

Возвратите таблицу неперекрывающихся сегментов от GTFAnnotation объект

Описание

segments = getSegments(AnnotObj) возвращает segments, таблица неперекрывающихся сегментов последовательностей нуклеотида, созданных путем выравнивания расшифровок стенограммы в AnnotObj. Если контур экзона различный в двух или больше расшифровках стенограммы гена, то функция создает два или больше неперекрывающихся сегмента, которые покрывают все экзоны в расшифровке стенограммы.

[segments,transcriptIDs] = getSegments(AnnotObj) возвращает transcriptIDs, массив ячеек из символьных векторов, содержащий все уникальные идентификаторы расшифровки стенограммы в AnnotObj.

[___] = getSegments(AnnotObj,'Reference',R) возвращает сегменты, которые принадлежат ссылке (ссылкам), заданной R.

[___] = getSegments(AnnotObj,'Gene',G) возвращает сегменты, которые принадлежат гену (генам), заданному G.

[___] = getSegments(AnnotObj,'Transcript',T) возвращает сегменты, которые принадлежат расшифровке (расшифровкам) стенограммы, заданной T.

Входные параметры

развернуть все

Аннотация GTF в виде GTFAnnotation объект.

Имена ссылочных последовательностей в виде вектора символов, строки, представляют в виде строки вектор, массив ячеек из символьных векторов или категориальный массив.

Названия должны произойти от Reference поле AnnotObj. Если имя не существует, функция обеспечивает предупреждение и игнорирует его.

Имена генов в виде вектора символов, строки, представляют в виде строки вектор, массив ячеек из символьных векторов или категориальный массив.

Названия должны произойти от Gene поле AnnotObj. Если имя не существует, функция обеспечивает предупреждение и игнорирует имя.

Имена расшифровок стенограммы в виде вектора символов, строки, представляют в виде строки вектор, массив ячеек из символьных векторов или категориальный массив.

Названия должны произойти от Transcript поле AnnotObj. Если имя не существует, функция дает предупреждение и игнорирует имя.

Выходные аргументы

развернуть все

Неперекрывающиеся сегменты, возвращенные как таблица. Таблица содержит следующие переменные для каждого, сегментируется.

Имя переменнойОписание
StartЗапустите местоположение каждого сегмента.
StopОстановите местоположение каждого сегмента.
ReferenceКатегориальный массив, представляющий имена ссылочных последовательностей, которым сегменты принадлежат, полученные из Reference поле AnnotObj.
ExonIndicatorЛогическая разреженная матрица сегмента по сравнению с экзоном. Строки представляют сегменты. Столбцы являются экзонами. Если i th сегмент является частью j th экзон, элемент в положении (i, j) равняется 1. В противном случае это 0.
TranscriptIndicatorЛогическая разреженная матрица сегмента по сравнению с расшифровкой стенограммы. Строки представляют сегменты, и столбцы являются расшифровками стенограммы. Элемент в положении (i, j) равняется 1, если i th сегмент является частью j th расшифровка стенограммы, и 0 в противном случае.

Уникальные идентификаторы расшифровки стенограммы, возвращенные как массив ячеек из символьных векторов. Идентификаторы расшифровки стенограммы соответствуют столбцам TranscriptIndicator переменная segments. Например, первый элемент transcriptIDs ID первого столбца TranscriptIndicator матрица.

Примеры

развернуть все

Создайте объект GTFAnnotation из отформатированного GTF файла.

obj = GTFAnnotation('hum37_2_1M.gtf');

Получите уникальные ссылочные имена. В этом случае существует только одна ссылочная последовательность, которая является хромосомой 2 (chr2).

ref = getReferenceNames(obj)
ref = 1x1 cell array
    {'chr2'}

Получите таблицу всех неперекрывающихся сегментов последовательностей нуклеотида, которые принадлежат chr2.

segments = getSegments(obj,'Reference',ref);