rnaseqde

Выполните дифференциальный анализ выражения данных о количестве RNA-seq

Описание

пример

diffTable = rnaseqde(countTable,conditionVariables1,conditionVariables2) использует данные о количестве RNA-seq в countTable и выполняет дифференциальный анализ выражения между условиями (или выборки) в conditionVariables1 и conditionVariables2. Строки countTable представляйте гены (или функции), и столбцы представляют условия. Функция сначала делит каждое условие на фактор размера библиотеки, чтобы нормировать количество до выполнения теста гипотезы. Этот фактор размера равен среднему отношению каждой функции по геометрическому среднему значению функции во всех условиях. Функция использует точный тест, чтобы определить различия между двумя группами количеств, которые каждый приняты, чтобы следовать за отрицательным биномиальным распределением [1].

пример

diffTable = rnaseqde(___,Name=Value) задает дополнительные опции с помощью одних или нескольких аргументов name-value.

Примеры

свернуть все

Используйте данные о количестве RNA-seq, которые состоят из двух биологических, реплицирует управления, которое (необработанные) выборки и два биологических реплицируют (обработанных) выборок сокрушительного удара [6]. Загрузка таблица с чтением значит гены.

load("pasilla_count_noMM.mat","geneCountTable")

Отобразите первые несколько строк таблицы.

head(geneCountTable,10)
ans =

  10x6 table

          ID           Reference    untreated3    untreated4    treated2    treated3
    _______________    _________    __________    __________    ________    ________

    {'FBgn0000003'}     {'3R'}            0             1            1           2  
    {'FBgn0000008'}     {'2R'}          142           117          138         132  
    {'FBgn0000014'}     {'3R'}           20            12           10          19  
    {'FBgn0000015'}     {'3R'}            2             4            0           1  
    {'FBgn0000017'}     {'3L'}         6591          5127         4809        6027  
    {'FBgn0000018'}     {'2L'}          469           530          492         574  
    {'FBgn0000024'}     {'3R'}            5             6           10           8  
    {'FBgn0000028'}     {'X' }            0             0            2           1  
    {'FBgn0000032'}     {'3R'}         1160          1143         1138        1415  
    {'FBgn0000036'}     {'3R'}            0             0            0           1  

Выполните дифференциальный анализ управления и обработанных выборок с помощью данных о количестве чтения для генов. Укажите, что оба реплицируют для каждого условия. Вход geneCountTable имеет ID столбец. Опционально, можно добавить этот столбец к выходной таблице при помощи IDColumns .

diffTable = rnaseqde(geneCountTable,["untreated3", "untreated4"],...
                     ["treated2", "treated3"],IDColumns="ID");
head(diffTable,5)
ans =

  5x6 table

          ID            Mean1      Mean2     Log2FoldChange     PValue      AdjustedPValue
    _______________    _______    _______    ______________    _________    ______________

    {'FBgn0000003'}    0.51415     1.3808         1.4253               1              1   
    {'FBgn0000008'}      135.9     129.48      -0.069799         0.74585        0.93123   
    {'FBgn0000014'}     16.838     13.384       -0.33119          0.5874         0.8423   
    {'FBgn0000015'}     3.1234    0.42413        -2.8806         0.23542        0.58422   
    {'FBgn0000017'}     6151.8     5117.4       -0.26559       0.0013225       0.013374   

Посмотрите на различие в экспрессии гена между двумя условиями путем отображения изменения сгиба log2 для каждого гена.

figure
scatter(log2(mean([diffTable.Mean1,diffTable.Mean2], 2)),diffTable.Log2FoldChange,3,diffTable.AdjustedPValue,'o')
colormap(flipud(cool(256)))
colorbar;
ylabel("log2(Fold change)")
xlabel("log2(Mean of normalized counts)")
title("Fold change by FDR")

Можно также аннотировать значения в графике с соответствующими названиями генов, в интерактивном режиме избранными генами, и экспортировать списки генов в рабочую область.

warnSettings = warning('off','bioinfo:mairplot:ZeroValues');
mairplot(diffTable.Mean2,diffTable.Mean1,Labels=geneCountTable.ID,Type="MA");
set(get(gca,"Xlabel"),"String","mean of normalized counts")
set(get(gca,"Ylabel"),"String","log2(fold change)")

warning(warnSettings);

Входные параметры

свернуть все

Данные о количестве RNA-seq в виде таблицы. Это содержит количества геномных функций всех, реплицирует каждого условия.

Типы данных: table

Табличные переменные для первого условия в виде массива ячеек из символьных векторов, представьте в виде строки вектор или числовой вектор. Можно задать список имен табличной переменной соответствующих столбцов в countTable или числовой вектор, содержащий индексы столбцов.

Типы данных: cell | double | string

Табличные переменные для второго условия в виде массива ячеек из символьных векторов, представьте в виде строки вектор или числовой вектор. Можно задать список имен табличной переменной соответствующих столбцов в countTable или числовой вектор, содержащий индексы столбцов.

Типы данных: cell | double | string

Аргументы name-value

Задайте дополнительные пары аргументов как Name1=Value1,...,NameN=ValueN, где Name имя аргумента и Value соответствующее значение. Аргументы name-value должны появиться после других аргументов, но порядок пар не имеет значения.

Пример: dt = rnaseqde(ct,[1 3],[4 6],FDRMethod="storey") задает, чтобы использовать процедуру Яруса в качестве ложного метода уровня открытия.

Тип рычажного устройства между отклонением и средним значением в виде вектора символов или строки. Эта таблица суммирует доступные опции рычажного устройства.

Опция рычажного устройстваОписаниеКогда использовать
"local"Отклонение является суммой шумовой части выстрела (среднее значение), и локально регрессировал непараметрическая сглаженная функция среднего значения как описано в [1]. Эта опция является значением по умолчанию. Используйте эту опцию, если ваши данные сверхрассеиваются и имеют больше чем 1 000 строк (гены).
"constant"Отклонение является суммой шумовой части выстрела (среднее значение) и константа, умноженная на среднее значение в квадрате как описано в [2]. Этот метод использует все строки в данных, чтобы оценить константу. Используйте эту опцию, если ваши данные сверхрассеиваются и имеют меньше чем 1 000 строк.
"identity"Отклонение равно среднему значению как описано в [3]. Количества поэтому моделируются распределением Пуассона индивидуально для каждой строки условий. Используйте эту опцию, если ваши данные имеют немного генов и регрессию между отклонением, и среднее значение не возможно из-за очень маленького количества отсчетов или реплицирует. Эта опция не рекомендуется для сверхрассеянных данных.

Ложный метод уровня открытия, чтобы настроить p-значения в виде "bh" или "storey". По умолчанию функция использует "bh", который является линейной процедурой повышения, введенной Benjamini и Hochberg [4]. "storey" метод настраивает p-значения с помощью процедуры, введенной Ярусом [5].

Столбцы от входа countTable добавлять к выходу diffTableВ виде вектора символов, строки, вектора строки, массива ячеек из символьных векторов или числового вектора. Можно задать имена столбцов или числовой вектор, содержащий индексы столбцов в countTable. Функция добавляет столбцы к левой стороне выходной таблицы.

Типы данных: double | char | string | cell

Выходные аргументы

свернуть все

Дифференциальные результаты анализа выражения, возвращенные как таблица с этими столбцами:

  • Mean1 — Среднее значение нормировало счета для выборок, заданных в conditionVariables1

  • Mean2 — Среднее значение нормировало счета для выборок, заданных в conditionVariables2

  • Log2FoldChange — Отношение Log2 Mean2 по Mean1

  • PValue — P-значение выводится от теста гипотезы

  • AdjustedPValue — Настроенное p-значение, вычисленное использование метода задано в 'FDRMethod'

Ссылки

[1] Андерс, Саймон и Вольфганг Хубер. “Дифференциальный Анализ Выражения для Последовательности считает Данные”. Биология генома 11, № 10 (октябрь 2010): R106. https://doi.org/10.1186/gb-2010-11-10-r106.

[2] Робинсон, Марк Д. и Гордон К. Смит. “Оценка небольшой выборки Отрицательной Биномиальной Дисперсии, с Приложениями к Данным SAGE”. Биостатистика 9, № 2 (11 июля 2007): 321–32.

[3] Мариони, J. C. К. Э. Мэйсон, С. М. Мэйн, М. Стивенс и И. Гилад. “RNA-Seq: Оценка Технической Воспроизводимости и Сравнения с Массивами Экспрессии гена”. Исследование генома 18, № 9 (30 июля 2008): 1509–17.

[4] Benjamini, Y. и Hochberg, Y. 1995. Управление ложным уровнем открытия: практический и мощный подход к нескольким тестирование. Закон Ж. Руаяля Soc. 57:289–300.

[5] Ярус, Джон Д. “Прямой Подход к Ложным Уровням Открытия”. Журнал Королевского Статистического Общества: Серии B (Статистическая Методология) 64, № 3 (август 2002): 479–98.

[6] Ручьи, A. N. Л. Янг, М. О. Дафф, К. Д. Хансен, J. W. Припаркуйтесь, С. Дудойт, С. Э. Бреннер и Б. Р. Грэвели. “Сохранение RNA Регулирующая Карта между Дрозофилой и Млекопитающими”. Исследование генома 21, № 2 (1 февраля 2011): 193–202.

Введенный в R2021b