metafeatures

Метагенный алгоритм аттрактора для разработки функции использование взаимного информационно-основанного изучения

Описание

пример

M = metafeatures(X) возвращает взвешенные суммы функций M в X использование метагенного алгоритма аттрактора описано в [1].

M является r-by-n матрица. r является количеством метафункций, идентифицированных во время каждого повторения алгоритма. Количество по умолчанию повторений равняется 1. По умолчанию только уникальные метафункции возвращены в M. Если несколько результатов повторений в той же метафункции, то всего одна копия возвращена в M. n является количеством отсчетов (пациенты или моменты времени).

X p-by-n числовая матрица. p является количеством переменных, функций или генов. Другими словами, строки X соответствуйте переменным, таким как измерения экспрессии гена для различных генов. Столбцы соответствуют различным выборкам, таким как пациенты или моменты времени.

[M,W] = metafeatures(X) возвращает p-by-r матричный W содержа веса метафункций. M = W'*X. p является количеством переменных. r является количеством уникальных метафункций или числа раз, алгоритм повторяется (значение по умолчанию равняется 1).

[M,W,GSorted] = metafeatures(X,G) использует p-by-1 массив ячеек из символьных векторов или вектор строки G содержание имен переменных и возвращает p-by-r массив ячеек имен переменных GSorted отсортированный по уменьшающемуся весу.

i th столбец GSorted перечисляет функцию (переменные) имена в порядке их вкладов в i th метафункция.

[M,W,GSorted,GSortedInd] = metafeatures(___) возвращает индексы GSortedInd таким образом, что GSorted = G(GSortedInd).

[___] = metafeatures(___,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы.

[___] = metafeatures(T) использует p-by-n таблица T. Названия генов являются именами строки таблицы. M = W'*T{:,:}.

[___] = metafeatures(T,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы.

Примечание

Возможно что количество метафункций (r), возвращенный в M могут быть меньше, чем количество реплицирует (повторения). Даже при том, что вы, возможно, определили номер, реплицирует в положительное целое число, больше, чем 1, если каждое повторение возвращает ту же метафункцию, то r равняется 1 и M 1 n. Это вызвано тем, что, по умолчанию, функция возвращает только уникальные метафункции. Если вы предпочитаете получать все метафункции, установите 'ReturnUnique' к false. Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение (значением по умолчанию является 0.98).

Примеры

свернуть все

Загрузите данные об экспрессии гена рака молочной железы. Данные были получены из атласа генома рака (TCGA) 20 мая 2014 и содержат данные об экспрессии гена 17 814 генов для 590 различных пациентов. Данные о выражении хранятся в переменной geneExpression. Названия генов хранятся в переменной geneNames.

load TCGA_Breast_Gene_Expression

Данные имеют несколько значений NaN.

sum(sum(isnan(geneExpression)))
ans =

        1695

Используйте k - самый близкий соседний метод обвинения, чтобы заменить недостающие данные на соответствующее значение из в среднем столбцов k, которые являются самыми близкими.

geneExpression = knnimpute(geneExpression,3);

Существует три общих драйвера рака молочной железы: ERBB2, эстроген и прогестерон. metafeatures позволяет вам отбирать стартовые веса, чтобы фокусироваться на генах интереса. В этом случае установите вес для каждого из этих генов к каждой третьей различной строке startValues. Каждая строка соответствует начальным значениям для различного, реплицируют (повторение).

erbb         = find(strcmp('ERBB2',geneNames));
estrogen     = find(strcmp('ESR1',geneNames));
progestrone  = find(strcmp('PGR',geneNames));

startValues = zeros(size(geneExpression,1),3);
startValues(erbb,1)        = 1;
startValues(estrogen,2)    = 1;
startValues(progestrone,3) = 1;

Примените метагенный алгоритм аттрактора к оценочным данным.

[meta, weights, genes_sorted] = metafeatures(geneExpression,geneNames,'start',startValues);

Переменная meta имеет значение трех метагенов, обнаруженных для каждой выборки. Постройте эти три метагена, чтобы получить сведения о природе регуляции генов через различные фенотипы рака молочной железы.

plot3(meta(1,:),meta(2,:),meta(3,:),'o')
xlabel('ERBB2 metagene')
ylabel('Estrogen metagene')
zlabel('Progestrone metagene')

На основе графика наблюдайте следующее.

  • Существует группа точек, кластеризируемых вместе с низкими значениями для всех трех метагенов. На основе mRNA уровней они могли быть тройным отрицательным или основным раком молочной железы типа.

  • Существует группа точек, которые имеют высокую метаэкспрессию гена приемника эстрогена и промежуток и через высокую и через низкую метаэкспрессию гена прогестерона. Нет никаких точек с высокой метаэкспрессией гена прогестерона и низкой метаэкспрессией гена эстрогена. Это сопоставимо с наблюдением, что ER-/PR + рак молочной железы чрезвычайно редки [3].

  • Остающиеся точки являются положительными раковыми образованиями ERBB2. Они имеют меньше представления в этом наборе данных, чем управляемый гормоном и утраивают отрицательные раковые образования.

Входные параметры

свернуть все

Данные в виде числовой матрицы. Строки X соответствуют переменным, таким как измерения экспрессии гена. Столбцы соответствуют различным выборкам, таким как пациенты или моменты времени.

Имена переменных в виде массива ячеек из символьных векторов или вектора строки.

Данные в виде таблицы. Имена строки таблицы соответствуют именам функций или генов, и столбцы представляют различные выборки, такие как пациенты или моменты времени.

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Replicates',5 задает, чтобы повторить алгоритм пять раз.

Настройка параметра для количества метафункций в виде разделенной запятой пары, состоящей из 'Alpha' и положительное число. Этот параметр управляет нелинейностью функции, которая вычисляет веса как описано в Метагенном Алгоритме Аттрактора. Когда альфа увеличивается, количество метафункций имеет тенденцию увеличиваться. Этот параметр часто является самым важным параметром, чтобы настроить в анализе набора данных.

Пример: 'Alpha',3

Опция для выбора начальных весов в виде разделенной запятой пары, состоящей из 'Start' и вектор символов, строка или матрица. Эта таблица суммирует доступные параметры.

ОпцияОписание
'random'Инициализируйте веса к вектору из положительных весов, выбранных однородно наугад и масштабируемых таким образом, что они суммируют к 1. Выберите различный начальный вектор веса для каждого реплицируют. Эта опция является значением по умолчанию.
'robust'Если X или T имеет столбцы n, запустите алгоритм времена n. На i th оценка алгоритма, веса инициализируются ко всем нулям за исключением i th вес, который установлен в 1. Эта опция полезна, когда вы пытаетесь найти все метафункции набора данных.
матрицаn-by-r матрица начальных весов. Алгоритм запускает времена r. Веса в i th запуск алгоритма инициализируются к i th столбец матрицы.

Пример: 'Start','robust'

Число раз, чтобы повторить алгоритм в виде разделенной запятой пары, состоящей из 'Replicates' и положительное целое число. Эта опция допустима только с 'random' запустите опцию. Значение по умолчанию равняется 1.

Пример: 'Replicates',2

Уникальные метафункции отмечают в виде разделенной запятой пары, состоящей из 'ReturnUnique' и true или false. Если это правда, затем только уникальные метафункции возвращены. Значением по умолчанию является true.

Эта опция полезна, когда алгоритм повторяется многократно. Путем установки этой опции на true, вы принимаете решение посмотреть на только уникальные метафункции, поскольку тот же набор метафункций может быть обнаружен для различных инициализаций.

Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение (значением по умолчанию является 0.98).

Чтобы запустить алгоритм многократно, установите 'Replicates' аргумент пары "имя-значение" или 'Start' опция к 'robust' или матрица больше чем с 1 строкой.

Пример: 'ReturnUnique',false

Допуск к уникальности метафункции в виде разделенной запятой пары, состоящей из 'UniqueTolerance' и вещественное число между 0 и 1.

Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение.

Пример: 'UniqueTolerance',0.90

Опции для управления алгоритмом в виде разделенной запятой пары, состоящей из 'Options' и структура. Эта таблица суммирует эти опции.

ОпцияОписание
DisplayУровень выходного отображения. Выбором является 'off' или 'iter'. Значением по умолчанию является 'off'.
MaxIterМаксимальное количество итераций позволено. Значение по умолчанию равняется 100.
ToleranceЕсли M изменения меньше, чем допуск в итерации, затем остановки алгоритма. Значением по умолчанию является 1e-6.
StreamsRandStream объект. Если вы не задаете потоков, метафункции использует случайный поток по умолчанию.
UseParallelЛогическое значение, указывающее, выполнить ли вычисления параллельно, если параллельный пул и Parallel Computing Toolbox™ доступны. Для проблем с большими наборами данных относительно доступной системной памяти, запускаясь параллельно может ухудшить эффективность. Значением по умолчанию является false.

Пример: 'Options',struct('Display','iter')

Выходные аргументы

свернуть все

Метафункции, возвращенные как числовая матрица. Это - r-by-n матрица, содержащая взвешенные суммы функций в X. r является количеством, реплицирует выполняемый алгоритмом. n является количеством различных выборок, таких как моменты времени или пациенты.

Примечание

Возможно что количество метафункций (r), возвращенный в M могут быть меньше, чем количество реплицирует (повторения). Даже при том, что вы, возможно, определили номер, реплицирует в положительное целое число, больше, чем 1, если каждое повторение возвращает ту же метафункцию, то r равняется 1 и M 1 n. Это вызвано тем, что, по умолчанию, функция возвращает только уникальные метафункции. Если вы предпочитаете получать все метафункции, установите 'ReturnUnique' к false. Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение (значением по умолчанию является 0.98).

Веса метафункций, возвращенные как числовая матрица. Это - p-by-r матрица. p является количеством переменных. r является количеством, реплицирует выполняемый алгоритмом.

Отсортированные имена переменных, возвращенные как массив ячеек из символьных векторов. Это - p-by-r массив ячеек. Имена сортируются путем уменьшения веса. i th столбец GSorted перечисляет имена переменных в порядке их вкладов в i th метафункция.

Если GSorted требуется без G или если T.Properties.RowNames пусто, затем алгоритм называет каждую переменную (функция) как Vari, который соответствует i th строка X.

Индексируйте к GSorted, возвращенный как матрица индексов. Это - p-by-r матрица. Индексы удовлетворяют GSorted = G(GSortedInd) или GSorted = T.Properties.RowNames(GSortedInd).

Больше о

свернуть все

Метагенный алгоритм аттрактора

Метагенный алгоритм аттрактора [1] является итеративным алгоритмом, который сходится к метагенам с важными функциями. Метаген задан как любая взвешенная сумма экспрессии гена с помощью нелинейной метрики расстояния. Метрика расстояния является нелинейным вариантом взаимной информации с помощью раскладывания и сплайнов как описано в [2]. На самом деле использование взаимной информации как метрика расстояния является одним из главных преимуществ этого алгоритма, поскольку взаимной информацией является устойчивая информация теоретический подход, чтобы определить статистическую зависимость между переменными. Поэтому это полезно для анализа отношений среди экспрессии гена. Другое преимущество состоит в том, что результаты алгоритма имеют тенденцию быть более ясно соединенными с фенотипом, заданным экспрессией гена.

Алгоритм инициализируется или случайными или заданными пользователями весами и доходами на этих шагах.

  1. Оценка метагена во время i th итерация алгоритма Mi=Wi*G, где Wi является вектором из весов размера 1 p (количество генов), и G является матрицей экспрессии гена размера p-by-n (количество отсчетов).

  2. Обновите веса Wj,i+1=J(Mi,Gj), где Wj,i+1 является j th элемент Wi+1, Gj является j th строка G, и J является метрикой подобия, которая определяется следующим образом.

    • Если корреляция Пирсона между Mi и Gj больше 0, то J(Mi,Gj)=I(Mi,Gj)α, где I(Mi,Gj) мера взаимной информации между двумя генами с минимальным значением 0 и максимальным значением 1, и α является любым неотрицательным номером.

    • Если корреляция меньше чем или равна 0, то J(Mi,Gj)=0.

Алгоритм выполняет итерации, пока изменение в Wi между итерациями не меньше заданного допуска, то есть, WiWi1<tolerance или максимальное количество итераций достигнуто.

Роль α

В метрике подобия алгоритма параметр α управляет степенью нелинейности. Как α увеличения, количество метагенов имеет тенденцию увеличиваться. Если α является достаточно большим, то каждый ген приблизительно становится метагеном аттрактора. Если α является нулем, то все веса остаются равными друг другу. Поэтому существует только один метаген аттрактора, представляющий среднее значение всех генов.

Поэтому корректировка α для набора данных на рассмотрении является ключевым шагом в точной настройке алгоритма. В случае [1], с помощью данных TCGA из нескольких типов рака, чтобы идентифицировать метагены аттрактора, α значение 5 произошел промежуточные 50 и 150 метагенов аттрактора, обнаруженных от данных.

Ссылки

[1] Ченг, W-Y., Оу Ян, T-H., и Anastassiou, D. (2013). Биомолекулярные события при раке показаны метагенами аттрактора. PLoS Вычислительная Биология 9 (2): e1002920.

[2] Размажьте, C., Steuer, R., Selbig, J. и Kloska, S. (2004). Оценка взаимной информации с помощью функций B-сплайна – улучшенная мера по подобию для анализа данных об экспрессии гена. Биоинформатика BMC 5, 118.

[3] Hefti, M.M., Ху, R., Knoblauch, N.W., Коллинз, L.C., Haibe-Kains, B., Tamimi, R.M., и Приветствие, A.H. (2013). Приемник эстрогена отрицательный приемник / приемник прогестерона положительный рак молочной железы не является восстанавливаемым подтипом. Исследование Рака молочной железы. 15:R68.

Расширенные возможности

Введенный в R2014b