Вычислить количество операций чтения, сопоставленных с геномными элементами
подсчитывает количество операций чтения в файле в формате BAM или SAM T = featurecount(GTFfile,Inputfile)Inputfile которые сопоставляются с геномными элементами, как указано в файле в формате GTF GTFfile. GTFfile указывает файл аннотаций. Inputfile указывает имена файлов BAM или SAM, которые необходимо рассмотреть. Продукция T - таблица, в которой строки соответствуют функциям, а столбцы - входным файлам. Элементы таблицы состоят из числа чтений, сопоставляемых каждому элементу для данного входного файла.
[___] = featurecount(___, использует дополнительные параметры, указанные одним или несколькими Name,Value)Name,Value аргументы пары.
Считывание из примера SAM-файла, который сопоставляется с элементами, включенными в GTF-файл. По умолчанию featurecount сопоставляет чтения с экзонами и суммирует общее количество чтений на уровне генов.
[t,s] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam');
Processing GTF file Dmel_BDGP5_nohc.gtf ... Processing SAM file rnaseq_sample1.sam ... Processing reference chr2L ... Processing reference chr2R ... Processing reference chr3L ... Processing reference chr3R ... Processing reference chr4 ... Processing reference chrX ... Done.
Просмотрите первые 10 строк данных подсчета.
t(1:10,:)
ans=10×3 table
ID Reference rnaseq_sample1
_______________ _________ ______________
{'FBgn0002121'} {'chr2L'} 9
{'FBgn0067779'} {'chr2L'} 2
{'FBgn0005278'} {'chr2L'} 4
{'FBgn0031220'} {'chr2L'} 4
{'FBgn0025683'} {'chr2L'} 13
{'FBgn0053635'} {'chr2L'} 2
{'FBgn0016977'} {'chr2L'} 22
{'FBgn0086902'} {'chr2L'} 27
{'FBgn0031245'} {'chr2L'} 2
{'FBgn0024352'} {'chr2L'} 2
ID содержит названия признаков (генов в этом примере). Reference в столбце перечислены имена последовательностей привязок для элементов. Третий столбец содержит общее количество операций чтения, сопоставленных каждой функции для данного файла SAM, то есть rnaseq_sample1.sam. По умолчанию в таблице отображаются только те элементы (строки) и SAM-файлы (столбцы) с ненулевыми счетчиками чтения. Чтобы включить в выходную таблицу строки и столбцы со всеми нулевыми счетчиками, установите значение true.
s содержит сводную статистику назначенных и неназначенных операций чтения из каждого файла SAM. Например, TotalEntries строка указывает общее количество записей выравнивания из данного файла SAM, и Assigned строка содержит количество операций чтения, назначенных элементам в файле GTF. Дополнительные сведения о каждой строке см. в разделе «Аргументы вывода» справочной страницы.
s
s=9×1 table
rnaseq_sample1
______________
TotalEntries 33354
Assigned 16399
Unassigned_ambiguous 167
Unassigned_filtered 0
Unassigned_lowMappingQuality 0
Unassigned_multiMapped 0
Unassigned_noFeature 16788
Unassigned_supplementary 0
Unassigned_unmapped 0
Считывание без суммирования и отключение отображения сообщений о ходе выполнения.
[t2,s2] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ... 'Summarization',false,'Verbose',false);
Обратите внимание, что в столбце ID выходной таблицы теперь отображается атрибут элемента, за которым следуют начальное и конечное положения каждого элемента, разделенные подчеркиванием.
t2(1:10,:)
ans=10×3 table
ID Reference rnaseq_sample1
_____________________________ _________ ______________
{'FBgn0002121_12286_12928' } {'chr2L'} 3
{'FBgn0002121_13683_14874' } {'chr2L'} 1
{'FBgn0002121_14933_15711' } {'chr2L'} 3
{'FBgn0067779_67044_67507' } {'chr2L'} 2
{'FBgn0005278_108588_108809'} {'chr2L'} 1
{'FBgn0005278_110755_110877'} {'chr2L'} 1
{'FBgn0005278_112690_113369'} {'chr2L'} 1
{'FBgn0031220_117079_117759'} {'chr2L'} 2
{'FBgn0031220_118361_118874'} {'chr2L'} 1
{'FBgn0031220_118931_119076'} {'chr2L'} 1
Вы можете выбрать, как назначить чтение определенной функции, когда чтение перекрывается с несколькими функциями, установив параметр «Метод чтения». Например, если вы хотите считать только чтение, если он полностью перекрывает функцию, используйте параметр «full».
[tFull, sFull] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ... 'OverlapMethod','full','Verbose',false);
При наличии парных данных можно считать чтения как фрагменты.
[tFrag,sFrag] = featurecount('Dmel_BDGP5_nohc.gtf','rnaseq_sample1.sam', ... 'CountFragments',true,'Verbose',false);
Также можно подсчитать фрагменты из нескольких файлов SAM.
[t2,s2] = featurecount('Dmel_BDGP5_nohc.gtf',... {'rnaseq_sample1.sam','rnaseq_sample2.sam'},'CountFragments',true, ... 'Verbose',false);
Используйте следующие опции для подсчета парных считываний, когда, по крайней мере, одна из пар считывания превышает определенный порог качества отображения.
[t3,s3] = featurecount('Dmel_BDGP5_nohc.gtf',... 'rnaseq_sample1.sam','CountFragments',true,'MinMappingQuality',20, ... 'Verbose',false);
Если считывание происходит из какого-либо специфичного для цепи анализа, вы можете указать такую специфичность цепи во время подсчета. Например, если протокол является многоженным, то цепь признака сравнивается с цепью считывания. Затем подсчитываются только те чтения, которые имеют ту же самую цепь, что и перекрывающийся элемент.
[t4,s4] = featurecount('Dmel_BDGP5_nohc.gtf',... 'rnaseq_sample1.sam','StrandSpecificity','stranded','Verbose',false);
GTFfile - имя файла в формате GTFИмя файла в формате GTF, указанное как символьный вектор или строка.
Пример: 'Dmel_BDGP5_nohc.gtf'
Inputfile - имя файла в формате BAM или SAMИмя файла в формате BAM или SAM, указанное как символьный вектор, строка, строковый вектор или массив ячеек символьных векторов.
Пример: 'rnaseq_sample1.sam'
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
'CountFragments',true указывает считать чтения как пары пар.'Feature' - Тип функции'exon' (по умолчанию) | символьный вектор | строкаТип элемента, заданный как символьный вектор или строка. Этот параметр используется для выбора функции из файла GTF. По умолчанию: 'exon'.
'Metafeature' - Тип атрибута'gene_id' (по умолчанию) | символьный вектор | строкаТип атрибута, указанный как символьный вектор или строка. Используется для определения того, какой атрибут следует учитывать из GTF-файла для группирования элементов в метафайты и суммирования числа считанных данных.
'Summarization' - Логическая переменная, указывающая, следует ли суммировать на уровне метафеатурыtrue (по умолчанию) | falseЛогическая переменная, указывающая, следует ли суммировать на уровне метафеатуры, указанная как true или false.
По умолчанию: true, что означает, что функция группирует элементы в метафеатуры и сообщает о количестве считанных элементов для метафеатур.
'Alias' - Имя файла, содержащего псевдонимы имен ссылокИмя файла, содержащего псевдонимы имен ссылок, указанные как символьный вектор или строка. Файл должен быть файлом с разделителями табуляции, где первый столбец соответствует ссылочным именам, используемым в файле GTF, а второй столбец соответствует ссылочным именам, используемым во входных файлах. Имена чувствительны к регистру. Необходимо включить только имена ссылок, которые различаются в файле GTF и входном файле. Файл должен содержать только один псевдоним для любой ссылки, указанной во входном файле. По умолчанию имена ссылок в файле GTF и во входных файлах считаются одинаковыми.
'CountFragments' - Логическая переменная, указывающая, считать ли считывание как пары парfalse (по умолчанию) | trueЛогическая переменная, указывающая, считать ли чтение как фрагменты, указанная как true или false. Парные операции чтения должны иметь одинаковый идентификатор для поля QNAME во входном файле, и взаимный порядок пар определяется соответствующим битом в FLAG в входном файле. Считыватели, которые не имеют допустимой пары, так как она не сопоставлена или отфильтрована по входным критериям, по-прежнему учитываются, если они удовлетворяют перекрывающимся критериям.
По умолчанию: falseто есть считывание считается одинарным считыванием, и их информация о спаривании игнорируется.
'StrandSpecificity' - Специфичность цепи протокола секвенирования'unstranded' (по умолчанию) | 'stranded' | 'reverse'Специфичность цепи протокола секвенирования, указанная как 'unstranded' (по умолчанию), 'stranded', или 'reverse'.
Если 'unstranded', строка считываний (или фрагментов) игнорируется.
Если 'stranded'рассматривается цепочка считываний (или фрагментов), и подсчитываются только те, у которых та же цепочка, что и у элемента, который они перекрывают.
Если 'reverse'рассматривается противоположное направление цепи считываний (или фрагментов), и учитываются только те, которые имеют противоположную цепь в качестве признака, который они перекрывают.
При подсчете фрагментов (парно-концевых считываний) прядь первого спаривателя рассматривается как прядь всего фрагмента. Взаимный порядок пар (первый или второй) выводится из соответствующего бита в FLAG поле входного файла.
'MinOverlap' - Требуется минимальное количество перекрывающихся баз1 (по умолчанию) | положительное целое числоМинимальное количество перекрывающихся баз, необходимых для назначения функции чтения, указанное как положительное целое число. При подсчете фрагментов сумма перекрытий с каждого конца используется как минимальное количество перекрывающихся оснований.
'MinMappingQuality' - Минимальное качество отображения для данного чтения0 (по умолчанию) | неотрицательное целое числоМинимальное качество отображения для данного чтения, которое должно учитываться при подсчете, указанное как неотрицательное целое число. Это соответствует MAPQ во входном файле. При подсчете фрагментов, по крайней мере, один из считанных пар должен удовлетворять этому критерию, чтобы быть рассмотренным для подсчета.
'CountMultiOverlap' - Логическая переменная, указывающая, следует ли считать, считывает перекрывающиеся несколько элементовfalse (по умолчанию) | trueЛогическая переменная, указывающая, следует ли считать, считывает перекрывающиеся несколько элементов, указанные как true или false (по умолчанию).
Если trueсчитывание (или фрагмент), перекрывающее несколько признаков, подсчитывается несколько раз. Во время суммирования на уровне метафеатуры считывание (или фрагмент) подсчитывается только один раз, если оно перекрывается с несколькими элементами, принадлежащими одной и той же метафеатуре, если оно не перекрывается с другими метафааурами.
'CountMultiMapped' - Параметр подсчета для чтения с несколькими местоположениями сопоставления во входном файле'primary' (по умолчанию) | 'none' | 'all'Параметр подсчета для чтения, имеющий несколько расположений сопоставления во входном файле, указанный как 'primary' (по умолчанию), 'none', или 'all'.
Если 'primary'рассматривается только первичное выравнивание многопараметрического чтения. Соответствующий бит во входном файле используется для идентификации первичных трасс.
Если 'none'все трассы многопараметрического чтения игнорируются. Тег NH используется для идентификации многопараметрических операций чтения.
Если 'all'все трассы многопараметрического считывания рассматриваются и подсчитываются несколько раз.
'BothEndsMapped' - логическая переменная, указывающая, должен ли фрагмент иметь сопоставленные пары;false (по умолчанию) | trueЛогическая переменная, указывающая, должен ли фрагмент иметь обе совмещения, указанная как true или false. Сведения о сопоставлении получаются из FLAG во входном файле. По умолчанию: false.
'ProperlyPaired' - логическая переменная, указывающая, должен ли фрагмент быть правильно спаренfalse (по умолчанию) | trueЛогическая переменная, указывающая, должен ли фрагмент быть правильно спарен, указанная как true или false. Информация о спаривании пар извлекается из FLAG во входном файле. По умолчанию: false.
'ShowZeroCounts' - Логическая переменная, указывающая, следует ли сообщать элементы или метафайты с нулевым числомfalse (по умолчанию) | trueЛогическая переменная, указывающая, следует ли сообщать элементы или метафайты с нулевым числом для каждого входного файла в выходной таблице, указанная как true или false.
По умолчанию: falseто есть в выходную таблицу включаются только строки с ненулевыми счетчиками и столбцы с ненулевыми счетчиками.
'OverlapMethod' - Метод, используемый при назначении данного считывания метафеатуре'partial' (по умолчанию) | 'full' | 'max' | 'hits'Метод, используемый при назначении данного чтения метафеатуре, указанный как 'partial', 'full', 'max', или 'hits'. Если 'Summarization' имеет значение false, то чтения назначаются элементам, вместо метафеатур, на основе указанного метода.
В следующей таблице R относится к считыванию или фрагменту, а M относится к метафеатуре.
| Метод | Описание |
|---|---|
'partial' | R присваивается M, если R перекрывается (даже частично) только с M. Иначе R считается неоднозначным. |
'full' | R назначается M, если R полностью отображается только в пределах M, то есть полностью перекрывает только M. В противном случае R считается неоднозначным |
'max' | R присваивается M, если R удовлетворяет критериям перекрытия только с М, или если R удовлетворяет критериям перекрытия с несколькими метафеатурами, но полностью перекрывается только с М. |
'hits' | R присваивается M, если R перекрывает даже частично только M, или если M является единственной метафеатурой с наибольшим количеством признаков, пораженных R; в противном случае R считается неоднозначным. |
Следующая принципиальная схема и таблица иллюстрируют результаты этих методов в сочетании с 'CountMultiOverlap' аргумент пары имя-значение. На рисунке считывание относится к короткой последовательности считывания из входного файла, а элемент A и элемент B относятся к элементам, перечисленным в файле GTF.

В каждом столбце метода перечисляется функция, которой назначено считывание на основе соответствующего метода. 'CountMultiOverlap' столбец указывает, имеет ли эта пара имя-значение значение true или false и если это оказывает какое-либо влияние на результат каждого метода.
'CountMultiOverlap' | 'partial' | 'full' | 'max' | 'hits' | |
|---|---|---|---|---|---|
| Случай 1 | Эффект отсутствует, так как чтение сопоставляется только с одной функцией (функция A). | Функция A | Функция A | Функция A | Функция A |
| Дело 2 | Эффект отсутствует, так как чтение сопоставляется только с одной функцией (функция A). | Функция A | нет функции | Функция A | Функция A |
| Дело 3 | Эффект отсутствует, так как чтение сопоставляется только с одной функцией (функция A). | Функция A | нет функции | Функция A | Функция A |
| Дело 4 | Эффект отсутствует, так как чтение сопоставляется только с одной функцией (функция A). | Функция A | Функция A | Функция A | Функция A |
| Дело 5 | false | неоднозначный | Функция A | Функция A | неоднозначный |
true | элемент A, элемент B | Функция A | Функция A | элемент A, элемент B | |
| Дело 6 | false | неоднозначный | неоднозначный | неоднозначный | неоднозначный |
true | элемент A, элемент B | элемент A, элемент B | элемент A, элемент B | элемент A, элемент B | |
| Дело 7 | false | Неоднозначный | Функция A | Функция A | Функция A |
true | элемент A, элемент B | Функция A | Функция A | Функция A |
no feature означает, что считывание не назначено ни одному элементу. Если указана вторая выходная таблица Sего Unassigned_noFeature для такого вхождения строка увеличивается на единицу. неоднозначно означает, что считывание не назначено ни одному элементу, поскольку оно удовлетворяет критериям перекрытия для нескольких элементов, и Unassigned_ambiguous для такого вхождения строка увеличивается на единицу.
'UseParallel' - логическая переменная, указывающая, следует ли вычислять параллельно;false (по умолчанию) | trueЛогическая переменная, указывающая, следует ли вычислять параллельно, указанная как true или false.
Для параллельного выполнения вычислений необходимо наличие Toolbox™ параллельных вычислений. Если параллельный пул MATLAB ® не существует, он автоматически создается, если в настройках параллельного создания включена опция автоматического создания. В противном случае вычисления выполняются в последовательном режиме.
По умолчанию: false, то есть последовательный режим.
'Verbose' - Логическая переменная, указывающая, отображать ли ход вычисленийtrue (по умолчанию) | falseЛогическая переменная, указывающая, отображать ли ход вычислений, указанная как true или false.
T - Результаты, содержащие считывание последовательности, сопоставленные с геномными особенностямиРезультаты, содержащие считывание последовательности, сопоставленные с геномными признаками, возвращены в виде таблицы. Строки соответствуют функциям, а столбцы - входным файлам. Элементы таблицы состоят из количества операций чтения, сопоставленных каждому элементу для данного входного файла. В таблице также отображается идентификатор каждого элемента и ссылочная последовательность для элемента.
Когда 'Summarization' имеет значение false, в столбце ID таблицы отображается атрибут metafeature, за которым следуют начальное и конечное положения каждого элемента, разделенные подчеркиванием.
S - Сводка присвоенных и неназначенных записей выставкиСводка назначенных и неназначенных записей выравнивания, возвращаемых в виде таблицы. Каждый столбец таблицы соответствует каждому предоставленному входному файлу. Таблица содержит следующие строки:
| Имена строк | Описание |
|---|---|
TotalEntries | Количество записей (или трасс) во входном файле |
Assigned | Количество операций чтения или фрагментов, назначенных элементам |
Unassigned_ambiguous | Число неназначенных операций чтения или фрагментов, перекрывающих несколько элементов или метафеатур |
Unassigned_filtered | Количество записей выравнивания, отфильтрованных по критериям ввода |
Unassigned_lowMappingQuality | Количество записей выравнивания, отфильтрованных из-за низкого качества отображения |
Unassigned_multiMapped | Количество записей выравнивания, не назначенных из-за соответствующих операций чтения, сопоставленных нескольким местоположениям |
Unassigned_noFeature | Количество операций чтения или фрагментов, не назначенных ни одному элементу |
Unassigned_supplementary | Количество записей трассы, не назначенных, поскольку они помечены как дополнительные записи для химерных трасс |
Unassigned_unmapped | Количество записей выравнивания не назначено, так как соответствующие чтения не сопоставлены |
Параллельный запуск, установка 'UseParallel' кому true.
Дополнительные сведения см. в разделе 'UseParallel' аргумент пары имя-значение.
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.