getSegments

Класс: GTFAnotation

Возвращает таблицу непересекающихся сегментов из GTFAnnotation объект

Описание

segments = getSegments(AnnotObj) возвращает segments, таблица непересекающихся сегментов нуклеотидных последовательностей, созданная путем уплощения транскриптов в AnnotObj. Если контур экзона не совпадает в двух или более транскриптах гена, то функция создает два или более неперекрывающихся сегментов, которые покрывают все экзоны в транскрипте.

[segments,transcriptIDs] = getSegments(AnnotObj) возвращает transcriptIDs, массив ячеек из векторов символов, содержащий все уникальные идентификаторы транскриптов в AnnotObj.

[___] = getSegments(AnnotObj,'Reference',R) возвращает сегменты, которые относятся к ссылкам (ссылкам ), заданным в R.

[___] = getSegments(AnnotObj,'Gene',G) возвращает сегменты, которые относятся к гену (генам), заданным как G.

[___] = getSegments(AnnotObj,'Transcript',T) возвращает сегменты, которые относятся к транскрипту (-ам), заданному в T.

Входные параметры

расширить все

Аннотация GTF, заданная как GTFAnnotation объект.

Имена ссылочных последовательностей, заданные как вектор символов, строка, строковый вектор, массив ячеек из векторов символов или категориальный массив.

Имена должны происходить от Reference область AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует его.

Имена генов, заданные как вектор символов, строка, строковый вектор, массив клеток векторов символов или категориальный массив.

Имена должны происходить от Gene область AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует имя.

Имена транскриптов, заданные как вектор символов, строка, строковый вектор, массив ячеек из векторов символов или категориальный массив.

Имена должны происходить от Transcript область AnnotObj. Если имя не существует, функция выдает предупреждение и игнорирует имя.

Выходные аргументы

расширить все

Неперекрывающиеся сегменты, возвращенные как таблица. Таблица содержит следующие переменные для каждого сегмента.

Имя переменнойОписание
StartНачальное расположение каждого сегмента.
StopОстановите местоположение каждого сегмента.
ReferenceКатегориальный массив, представляющий имена ссылочных последовательностей, к которым относятся сегменты, полученный из Reference область AnnotObj.
ExonIndicatorЛогическая разреженная матрица сегмента от экзона. Строки представляют сегменты. Столбцы являются экзонами. Если i-й сегмент является частью j-го экзона, элемент в положении (i, j) 1. В противном случае это 0.
TranscriptIndicatorЛогическая разреженная матрица сегмента от транскрипта. Строки представляют сегменты, а столбцы являются транскриптами. Элемент в положении (i, j) 1, если i-й сегмент является частью j-го транскрипта и 0 в противном случае.

Уникальные идентификаторы транскриптов, возвращенные как массив ячеек из векторов символов. Идентификаторы транскриптов соответствуют столбцам TranscriptIndicator переменная segments. Например, первый элемент transcriptIDs - идентификатор первого столбца TranscriptIndicator матрица.

Примеры

расширить все

Создайте объект GTFAnotation из GTF-форматированного файла.

obj = GTFAnnotation('hum37_2_1M.gtf');

Получение уникальных имен ссылок. В этом случае существует только одна эталонная последовательность, которая является хромосомой 2 (chr2).

ref = getReferenceNames(obj)
ref = 1x1 cell array
    {'chr2'}

Получите таблицу всех неперекрывающихся сегментов нуклеотидных последовательностей, которые относятся к chr2.

segments = getSegments(obj,'Reference',ref);