featurecount

Вычислите количество чтений, сопоставленных с геномными функциями

Синтаксис

T = featurecount(GTFfile,Inputfile)
[T,S] = featurecount(___)
[___] = featurecount(___,Name,Value)

Описание

пример

T = featurecount(GTFfile,Inputfile) считает количество чтений в отформатированном BAM или SAM-отформатированном файле Inputfile, которые сопоставляют на геномные функции, как задано в отформатированном GTF файле GTFfile. GTFfile задает файл аннотации. Inputfile задает имена BAM или файлов SAM, чтобы рассмотреть. Вывод T является таблицей, где строки соответствуют функциям, и столбцы соответствуют входным файлам. Элементы таблицы состоят из количества отображения чтений с каждой функцией данного входного файла.

пример

[T,S] = featurecount(___) возвращает таблицу S со сводными данными присвоенных и неприсвоенных записей выравнивания. Если несколько входных файлов обеспечиваются, каждый файл сопоставлен со столбцом.

пример

[___] = featurecount(___,Name,Value) дополнительные опции использования заданы одним или несколькими аргументами пары Name,Value.

Примеры

свернуть все

Считайте чтения из демонстрационного файла SAM, которые сопоставляют с функциями, включенными в файл GTF. По умолчанию featurecount сопоставляет чтения с экзонами и обобщает общее количество чтений на генном уровне.

[t,s] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam');
Processing GTF file Dmel_BDGP5_nohc.gtf ...
Processing SAM file rnaseq_sample1.sam ...
Processing reference chr2L ...
Processing reference chr2R ...
Processing reference chr3L ...
Processing reference chr3R ...
Processing reference chr4 ...
Processing reference chrX ...
Done.

Отобразите первые 10 строк данных о количестве.

t(1:10,:)
ans=10×3 table
         ID          Reference    rnaseq_sample1
    _____________    _________    ______________

    'FBgn0002121'     'chr2L'            9      
    'FBgn0067779'     'chr2L'            2      
    'FBgn0005278'     'chr2L'            4      
    'FBgn0031220'     'chr2L'            4      
    'FBgn0025683'     'chr2L'           13      
    'FBgn0053635'     'chr2L'            2      
    'FBgn0016977'     'chr2L'           22      
    'FBgn0086902'     'chr2L'           27      
    'FBgn0031245'     'chr2L'            2      
    'FBgn0024352'     'chr2L'            2      

Столбец ID содержит имена функций (гены в этом примере). Списки столбцов Reference имена ссылочных последовательностей для функций. Третий столбец содержит общее количество чтений, сопоставленных с каждой функцией данного файла SAM, то есть, rnaseq_sample1.sam. По умолчанию таблица показывает только те функции (строки) и файлы SAM (столбцы) с ненулевыми количествами чтения. Установите 'ShowZeroCounts' на истину включать те строки и столбцы со всеми нулевыми количествами в выходной таблице.

s содержит итоговую статистику присвоенных и неприсвоенных чтений из каждого файла SAM. Например, строка TotalEntries указывает на общее количество записей выравнивания из данного файла SAM, и строка Assigned включает количество чтений, которые присвоены функциям в файле GTF. Для получения дополнительной информации о каждой строке, обратитесь к разделу Output Arguments страницы с описанием.

s
s=9×1 table
                                    rnaseq_sample1
                                    ______________

    TotalEntries                        33354     
    Assigned                            16399     
    Unassigned_ambiguous                  167     
    Unassigned_filtered                     0     
    Unassigned_lowMappingQuality            0     
    Unassigned_multiMapped                  0     
    Unassigned_noFeature                16788     
    Unassigned_supplementary                0     
    Unassigned_unmapped                     0     

Считайте чтения без любого резюмирования и отключите отображение сообщений о ходе выполнения.

[t2,s2] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ...
                        'Summarization',false,'Verbose',false);

Заметьте, что столбец ID выходной таблицы теперь сообщает об атрибуте функции, сопровождаемом запуском, и остановите положения каждой функции, разделенной символами нижнего подчеркивания.

t2(1:10,:)
ans=10×3 table
                ID                 Reference    rnaseq_sample1
    ___________________________    _________    ______________

    'FBgn0002121_12286_12928'       'chr2L'           3       
    'FBgn0002121_13683_14874'       'chr2L'           1       
    'FBgn0002121_14933_15711'       'chr2L'           3       
    'FBgn0067779_67044_67507'       'chr2L'           2       
    'FBgn0005278_108588_108809'     'chr2L'           1       
    'FBgn0005278_110755_110877'     'chr2L'           1       
    'FBgn0005278_112690_113369'     'chr2L'           1       
    'FBgn0031220_117079_117759'     'chr2L'           2       
    'FBgn0031220_118361_118874'     'chr2L'           1       
    'FBgn0031220_118931_119076'     'chr2L'           1       

Можно выбрать, как присвоить чтение конкретной функции, когда чтение накладывается с несколькими функциями путем установки опции 'OverlapMethod'. Например, если вы хотите считать только для чтения, если это полностью перекрывает функцию, используйте 'полную' опцию.

[tFull, sFull] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ...
                              'OverlapMethod','full','Verbose',false);

Если у вас есть данные парного конца, можно считать чтения как фрагменты.

[tFrag,sFrag] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ...
                             'CountFragments',true,'Verbose',false);

Можно также считать фрагменты из нескольких файлов SAM.

[t2,s2] = featurecount('Dmel_BDGP5_nohc.gtf',...
          {'rnaseq_sample1.sam','rnaseq_sample2.sam'},'CountFragments',true, ...
          'Verbose',false);

Используйте следующие опции, чтобы считать чтения парного конца, где по крайней мере один из помощников чтения выше определенного качественного порога отображения.

[t3,s3] = featurecount('Dmel_BDGP5_nohc.gtf',...
          'rnaseq_sample1.sam','CountFragments',true,'MinMappingQuality',20, ...
          'Verbose',false);

Если чтения прибывают из какого-либо специфичного для скрутки испытания, можно задать такую специфику скрутки во время подсчета. Например, если протокол скручивается, скрутка функции по сравнению со скруткой чтения. Затем только те чтения, которые имеют ту же скрутку как перекрытая функция, считаются.

[t4,s4] = featurecount('Dmel_BDGP5_nohc.gtf',...
          'rnaseq_sample1.sam','StrandSpecificity','stranded','Verbose',false);

Входные параметры

свернуть все

Отформатированное GTF имя файла, заданное как вектор символов или строка.

Пример: 'Dmel_BDGP5_nohc.gtf'

Отформатированное BAM или SAM-отформатированное имя файла, заданное как вектор символов, строка, представляет в виде строки вектор или массив ячеек из символьных векторов.

Пример: 'rnaseq_sample1.sam'

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'CountFragments',true задает, чтобы считать чтения как пары помощников.

Покажите тип, заданный как вектор символов или строка. Это используется, чтобы решить что функцию рассмотреть из файла GTF. Значением по умолчанию является 'exon'.

Припишите тип, заданный как вектор символов или строка. Это используется, чтобы решить, какой атрибут рассмотреть из файла GTF для группировки функций в метафункции и суммирование чтения считают.

Логическая переменная, указывающая, подвести ли итог на уровне метафункции, заданном как true или false.

Значение по умолчанию является true, означая функциональные функции групп в метафункции и сообщает, что чтение значит метафункции.

Имя файла, содержащего псевдонимы ссылочных имен, заданных как вектор символов или строка. Файл должен быть файлом с разделением табуляцией, где первый столбец соответствует ссылочным именам, используемым в файле GTF, и второй столбец соответствует ссылочным именам, используемым во входном файле (файлах). Имена являются чувствительными к регистру. Необходимо включать только ссылочные имена, которые отличаются в файле GTF и входном файле. Файл должен содержать только один термин псевдонима для любой ссылки, перечисленной во входном файле. По умолчанию ссылочные имена в файле GTF и те во входных файлах приняты, чтобы быть тем же самым.

Логическая переменная, указывающая, считать ли чтения как фрагменты, заданные как true или false. Чтения парного конца должны иметь тот же ID для поля QNAME во входном файле, и взаимный порядок помощников выведен соответствующим битом в поле FLAG во входном файле. Чтения, которые не имеют никакого допустимого помощника или потому что помощник не сопоставлен или отфильтрован входными критериями, все еще считаются, если они удовлетворяют перекрывающиеся критерии.

Значением по умолчанию является false, то есть, чтения считаются, когда одно конец читает, и их информация о соединении проигнорирована.

Скрутите специфику протокола упорядочивания, заданного как 'unstranded' (значение по умолчанию), 'stranded' или 'reverse'.

  • Если 'unstranded', скрутка чтений (или фрагменты) проигнорирована.

  • Если 'stranded', скрутка чтений (или фрагменты) рассматривается, и только те, которые имеют ту же скрутку как функция, которую они перекрывают, считаются.

  • Если 'reverse', противоположное направление скрутки чтений (или фрагменты) рассматривается, и только те, которые имеют противоположную скрутку как функция, которую они перекрывают, считаются.

При подсчете фрагментов (чтения парного конца), скрутка первого помощника рассматривается как скрутку целого фрагмента. Взаимный порядок помощников (первый или второй) выведен из соответствующего бита в поле FLAG входного файла.

Минимальное количество перекрытых основ, требуемых присваивать чтение функции, заданной как положительное целое число. При подсчете фрагментов сумма перекрытий от каждого конца используется в качестве минимального количества перекрытых основ.

Минимальное качество отображения для данного чтения, которое будет рассмотрено для подсчета, заданное как неотрицательное целое число. Это соответствует полю MAPQ во входном файле. При подсчете фрагментов по крайней мере один из помощников чтения должен удовлетворить этот критерий в порядке, который будет рассмотрен для подсчета.

Логическая переменная, указывающая, считать ли чтения, перекрывающие несколько функций, заданных как true или false (значение по умолчанию).

Если true, чтение (или фрагмент) перекрывающий несколько функций считается многократно. Во время резюмирования на уровне метафункции чтение (или фрагмент) считается только однажды, если это накладывается с несколькими функциями, принадлежащими той же метафункции, пока это не накладывается с другим metafeaures.

Подсчет опции для чтений, имеющих несколько местоположений отображения во входном файле, заданном как 'primary' (значение по умолчанию), 'none' или 'all'.

  • Если 'primary', только первичное выравнивание мультисопоставленного чтения рассматривается. Соответствующий бит во входном файле используется, чтобы идентифицировать первичные выравнивания.

  • Если 'none', все выравнивания мультисопоставленного чтения проигнорированы. Тег NH используется, чтобы идентифицировать мультисопоставленные чтения.

  • Если 'all', все выравнивания мультисопоставленного чтения рассматриваются и считаются многократно.

Логическая переменная, указывающая, должен ли фрагмент иметь обоих помощников, сопоставленных, заданных как true или false. Помощник, сопоставляющий информацию, получен из поля FLAG во входном файле. Значением по умолчанию является false.

Логическая переменная, указывающая, должен ли фрагмент быть правильно соединен, задала как true или false. Помощник, соединяющий информацию, получен из поля FLAG во входном файле. Значением по умолчанию является false.

Логическая переменная, указывающая, сообщить ли о функциях или метафункциях с нулем, значит каждый входной файл в выходной таблице, заданной как true или false.

Значением по умолчанию является false, то есть, только строки с ненулевыми количествами и столбцы с ненулевыми количествами включены в выходную таблицу.

Метод, чтобы использовать при присвоении данного чтения, чтобы метапоказать, заданный как 'partial', 'full', 'max' или 'hits'. Если 'Summarization' установлен в false, то чтения присвоены функциям, вместо метафункций, на основе заданного метода.

В следующей таблице R относится к чтению или фрагменту, и M относится к метафункции.

МетодОписание
'partial'R присвоен M, если R накладывается (даже частично) только с M. В противном случае R рассматривается неоднозначным.
'full' R присвоен M, если R полностью сопоставлен только в M, то есть, полностью перекрывающийся только M. В противном случае R рассматривается неоднозначным
'max'R присвоен M, если R удовлетворяет перекрывающиеся критерии только M, или если R удовлетворяет перекрывающиеся критерии несколькими метафункциями, но накладывается полностью только с M.
'hits'R присвоен M, если R перекрывает даже частично только M, или если M является единственной метафункцией с самым большим количеством функций, пораженных R; в противном случае R рассматривается неоднозначным.

Следующая принципиальная схема и таблица иллюстрируют результат этих методов в сочетании с аргументом пары "имя-значение" 'CountMultiOverlap'. В фигуре чтение относится к последовательности короткого чтения из входного файла, и функция A и функция B относятся к функциям, перечисленным в файле GTF.

Каждые списки столбцов метода функция, что чтение присвоено на основе соответствующего метода. Столбец 'CountMultiOverlap' указывает, установлена ли эта пара "имя-значение" в true или false и если это имеет любой эффект в результате каждого метода.

 'CountMultiOverlap' 'partial''full''max''hits'
Случай 1Никакой эффект начиная с чтения не сопоставляет только с одной функцией (покажите A).покажите Aпокажите Aпокажите Aпокажите A
Случай 2Никакой эффект начиная с чтения не сопоставляет только с одной функцией (покажите A).покажите Aникакая функцияпокажите Aпокажите A
Случай 3Никакой эффект начиная с чтения не сопоставляет только с одной функцией (покажите A).покажите Aникакая функцияпокажите Aпокажите A
Случай 4Никакой эффект начиная с чтения не сопоставляет только с одной функцией (покажите A).покажите Aпокажите Aпокажите Aпокажите A
Случай 5falseнеоднозначныйпокажите Aпокажите Aнеоднозначный
trueпокажите A, покажите Bпокажите Aпокажите Aпокажите A, покажите B
Случай 6falseнеоднозначныйнеоднозначныйнеоднозначныйнеоднозначный
trueпокажите A, покажите Bпокажите A, покажите Bпокажите A, покажите Bпокажите A, покажите B
Случай 7falseНеоднозначныйпокажите Aпокажите Aпокажите A
trueпокажите A, покажите Bпокажите Aпокажите Aпокажите A

никакая функция не означает, что чтение не присвоено никакой функции. Если вы задали вторую выходную таблицу S, ее строка Unassigned_noFeature постепенно увеличивается одной для такого вхождения. неоднозначный означает, что чтение не присвоено никакой функции, поскольку это удовлетворяет перекрывающиеся критерии нескольких функций, и строка Unassigned_ambiguous постепенно увеличивается одной для такого вхождения.

Логическая переменная, указывающая, вычислить ли параллельно, заданный как true или false.

В порядке выполнить вычисление параллельно, у вас должен быть Parallel Computing Toolbox™. Если пул параллели MATLAB® не существует, каждый автоматически создается, когда опция автосоздания включена в ваших параллельных настройках. В противном случае вычисление запускается в последовательном режиме.

Значением по умолчанию является false, то есть, последовательный режим.

Логическая переменная, указывающая, отобразить ли прогресс вычисления, заданного как true или false.

Выходные аргументы

свернуть все

Результаты, содержащие чтения последовательности, сопоставленные с геномными функциями, возвращенными как таблица. Строки соответствуют функциям, и столбцы соответствуют входным файлам. Элементы таблицы состоят из количества чтений, сопоставленных с каждой функцией данного входного файла. Таблица также сообщает о ID каждой функции и ссылочной последовательности для функции.

Когда 'Summarization' установлен в ложь, столбец ID таблицы сообщает об атрибуте метафункции, сопровождаемом запуском и положениями остановки каждой функции, разделенной символами нижнего подчеркивания.

Сводные данные присвоенных и неприсвоенных записей выравнивания, возвращенных как таблица. Каждый столбец таблицы соответствует каждому входному обеспеченному файлу. Таблица имеет следующие строки:

'RowNames' Описание
TotalEntriesКоличество записей (или выравнивания) во входном файле
AssignedКоличество чтений или фрагментов, которые были присвоены функциям
Unassigned_ambiguousКоличество неприсвоенных чтений или фрагментов, перекрывающих несколько функций или метафункций
Unassigned_filteredКоличество записей выравнивания отфильтровано входными критериями
Unassigned_lowMappingQualityКоличество записей выравнивания отфильтровало из-за низкого качества отображения
Unassigned_multiMappedКоличество записей выравнивания, не присвоенных из-за соответствующих чтений, сопоставленных с несколькими местоположениями
Unassigned_noFeatureКоличество чтений или фрагментов, не присвоенных любым функциям
Unassigned_supplementaryКоличество записей выравнивания не присвоило, потому что они отмечаются как дополнительные записи для фантастических выравниваний
Unassigned_unmappedКоличество записей выравнивания не присвоило, потому что соответствующие чтения не сопоставлены

Расширенные возможности

Введенный в R2016a