metafeatures

Метагенный алгоритм аттрактора для разработки функции использование взаимного информационно-основанного изучения

Синтаксис

M = metafeatures(X)

[M,W] =
metafeatures(X)

[M,W,GSorted]
= metafeatures(X,G)

[M,W,GSorted,GSortedInd]
= metafeatures(___)

[___] = metafeatures(___,Name,Value)

[___] = metafeatures(T)

[___] = metafeatures(T,Name,Value)

Описание

пример

M = metafeatures(X) возвращает взвешенные суммы функций M в X использование метагенного алгоритма аттрактора описано в [1].

M является r-by-n матрица. r является количеством метафункций, идентифицированных во время каждого повторения алгоритма. Количество по умолчанию повторений равняется 1. По умолчанию только уникальные метафункции возвращены в M. Если несколько результатов повторений в той же метафункции, то всего одна копия возвращена в M. n является количеством выборок (пациенты или моменты времени).

X p-by-n числовая матрица. p является количеством переменных, функций или генов. Другими словами, строки X соответствуйте переменным, таким как измерения экспрессии гена для различных генов. Столбцы соответствуют различным выборкам, таким как пациенты или моменты времени.

[M,W] = metafeatures(X) возвращает p-by-r матричный W содержа веса метафункций. M = W'*X. p является количеством переменных. r является количеством уникальных метафункций или числа раз, алгоритм повторяется (значение по умолчанию равняется 1).

[M,W,GSorted] = metafeatures(X,G) использует p-by-1 массив ячеек из символьных векторов или вектор строки G содержание имен переменных и возвращает p-by-r массив ячеек имен переменных GSorted отсортированный по уменьшающемуся весу.

i th столбец GSorted перечисляет функцию (переменные) имена в порядке их вкладов в i th метафункция.

[M,W,GSorted,GSortedInd] = metafeatures(___) возвращает индексы GSortedInd таким образом, что GSorted = G(GSortedInd).

[___] = metafeatures(___,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы.

[___] = metafeatures(T) использует p-by-n таблица T. Названия генов являются именами строки таблицы. M = W'*T{:,:}.

[___] = metafeatures(T,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы.

Примечание

Возможно что количество метафункций (r), возвращенный в M могут быть меньше, чем количество реплицирует (повторения). Даже при том, что вы, возможно, определили номер, реплицирует в положительное целое число, больше, чем 1, если каждое повторение возвращает ту же метафункцию, то r равняется 1 и M 1 n. Это вызвано тем, что, по умолчанию, функция возвращает только уникальные метафункции. Если вы предпочитаете получать все метафункции, установите 'ReturnUnique' к false. Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение (значением по умолчанию является 0.98).

Примеры

свернуть все

Примените метагенный алгоритм аттрактора к данным об экспрессии гена

Загрузите данные об экспрессии гена рака молочной железы. Данные были получены из атласа генома рака (TCGA) 20 мая 2014 и содержат данные об экспрессии гена 17 814 генов для 590 различных пациентов. Данные о выражении хранятся в переменной geneExpression. Названия генов хранятся в переменной geneNames.

load TCGA_Breast_Gene_Expression

Данные имеют несколько значений NaN.

sum(sum(isnan(geneExpression)))

ans =

        1695

Используйте k - самый близкий соседний метод обвинения, чтобы заменить недостающие данные на соответствующее значение из в среднем столбцов k, которые являются самыми близкими.

geneExpression = knnimpute(geneExpression,3);

Существует три общих драйвера рака молочной железы: ERBB2, эстроген и прогестерон. metafeatures позволяет вам отбирать стартовые веса, чтобы фокусироваться на генах интереса. В этом случае установите вес для каждого из этих генов к каждой третьей различной строке startValues. Каждая строка соответствует начальным значениям для различного, реплицируют (повторение).

erbb         = find(strcmp('ERBB2',geneNames));
estrogen     = find(strcmp('ESR1',geneNames));
progestrone  = find(strcmp('PGR',geneNames));

startValues = zeros(size(geneExpression,1),3);
startValues(erbb,1)        = 1;
startValues(estrogen,2)    = 1;
startValues(progestrone,3) = 1;

Примените метагенный алгоритм аттрактора к оценочным данным.

[meta, weights, genes_sorted] = metafeatures(geneExpression,geneNames,'start',startValues);

Переменная meta имеет значение трех метагенов, обнаруженных для каждой выборки. Постройте эти три метагена, чтобы получить сведения о природе регуляции генов через различные фенотипы рака молочной железы.

plot3(meta(1,:),meta(2,:),meta(3,:),'o')
xlabel('ERBB2 metagene')
ylabel('Estrogen metagene')
zlabel('Progestrone metagene')

На основе графика наблюдайте следующее.

Существует группа точек, кластеризируемых вместе с низкими значениями для всех трех метагенов. На основе mRNA уровней они могли быть тройным отрицательным или основным раком молочной железы типа.
Существует группа точек, которые имеют высокую метаэкспрессию гена приемника эстрогена и промежуток и через высокую и через низкую метаэкспрессию гена прогестерона. Нет никаких точек с высокой метаэкспрессией гена прогестерона и низкой метаэкспрессией гена эстрогена. Это сопоставимо с наблюдением, что ER-/PR + рак молочной железы чрезвычайно редки [3].
Остающиеся точки являются положительными раковыми образованиями ERBB2. Они имеют меньше представления в этом наборе данных, чем управляемый гормоном и утраивают отрицательные раковые образования.

Входные параметры

свернуть все

`X` данные
числовая матрица

Данные в виде числовой матрицы. Строки X соответствуют переменным, таким как измерения экспрессии гена. Столбцы соответствуют различным выборкам, таким как пациенты или моменты времени.

`G` Имена переменных
массив ячеек из символьных векторов | представляет вектор в виде строки

Имена переменных в виде массива ячеек из символьных векторов или вектора строки.

`T` данные
таблица

Данные в виде таблицы. Имена строки таблицы соответствуют именам функций или генов, и столбцы представляют различные выборки, такие как пациенты или моменты времени.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Replicates',5 задает, чтобы повторить алгоритм пять раз.

`'Alpha'` — Настройка параметра для количества метафункций
5 (значений по умолчанию) | положительная скалярная величина

Настройка параметра для количества метафункций в виде разделенной запятой пары, состоящей из 'Alpha' и положительное число. Этот параметр управляет нелинейностью функции, которая вычисляет веса как описано в Метагенном Алгоритме Аттрактора. Когда альфа увеличивается, количество метафункций имеет тенденцию увеличиваться. Этот параметр часто является самым важным параметром, чтобы настроить в анализе набора данных.

Пример: 'Alpha',3

`'Start'` — Опция для выбора начальных весов
`'random'` (значение по умолчанию) | `'robust'` | матрица

Опция для выбора начальных весов в виде разделенной запятой пары, состоящей из 'Start' и вектор символов, строка или матрица. Эта таблица суммирует доступные параметры.

Опция	Описание
`'random'`	Инициализируйте веса к вектору из положительных весов, выбранных однородно наугад и масштабируемых таким образом, что они суммируют к 1. Выберите различный начальный вектор веса для каждого реплицируют. Эта опция является значением по умолчанию.
`'robust'`	Если `X` или `T` имеет столбцы n, запустите алгоритм времена n. На i th оценка алгоритма, веса инициализируются ко всем нулям за исключением i th вес, который установлен в 1. Эта опция полезна, когда вы пытаетесь найти все метафункции набора данных.
матрица	n-by-r матрица начальных весов. Алгоритм запускает времена r. Веса в i th запуск алгоритма инициализируются к i th столбец матрицы.

Пример: 'Start','robust'

`'Replicates'` — Число раз, чтобы повторить алгоритм
1 (значение по умолчанию) | положительное целое число

Число раз, чтобы повторить алгоритм в виде разделенной запятой пары, состоящей из 'Replicates' и положительное целое число. Эта опция допустима только с 'random' запустите опцию. Значение по умолчанию равняется 1.

Пример: 'Replicates',2

`'ReturnUnique'` — Уникальный флаг метафункций
`true` (значение по умолчанию) | `false`

Уникальные метафункции отмечают в виде разделенной запятой пары, состоящей из 'ReturnUnique' и true или false. Если это правда, затем только уникальные метафункции возвращены. Значением по умолчанию является true.

Эта опция полезна, когда алгоритм повторяется многократно. Путем установки этой опции на true, вы принимаете решение посмотреть на только уникальные метафункции, поскольку тот же набор метафункций может быть обнаружен для различных инициализаций.

Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение (значением по умолчанию является 0.98).

Чтобы запустить алгоритм многократно, установите 'Replicates' аргумент пары "имя-значение" или 'Start' опция к 'robust' или матрица больше чем с 1 строкой.

Пример: 'ReturnUnique',false

`'UniqueTolerance'` — Допуск к уникальности метафункции
0,98 (значения по умолчанию) | вещественное число между 0 и 1

Допуск к уникальности метафункции в виде разделенной запятой пары, состоящей из 'UniqueTolerance' и вещественное число между 0 и 1.

Метафункция рассматривается уникальной, если корреляция Пирсона между нею и всеми ранее найденными метафункциями меньше 'UniqueTolerance' значение.

Пример: 'UniqueTolerance',0.90

`'Options'` — Опции для управления алгоритмом
`[]` (значение по умолчанию) | структура

Опции для управления алгоритмом в виде разделенной запятой пары, состоящей из 'Options' и структура. Эта таблица суммирует эти опции.

Опция	Описание
`Display`	Уровень выходного отображения. Выбором является `'off'` или `'iter'`. Значением по умолчанию является `'off'`.
`MaxIter`	Максимальное количество итераций позволено. Значение по умолчанию равняется 100.
`Tolerance`	Если `M` изменения меньше, чем допуск в итерации, затем остановки алгоритма. Значением по умолчанию является `1e-6`.
`Streams`	`RandStream` объект. Если вы не задаете потоков, метафункции использует случайный поток по умолчанию.
`UseParallel`	Логическое значение, указывающее, выполнить ли вычисления параллельно, если параллельный пул и Parallel Computing Toolbox™ доступны. Для проблем с большими наборами данных относительно доступной системной памяти, запускаясь параллельно может ухудшить эффективность. Значением по умолчанию является `false`.

Пример: 'Options',struct('Display','iter')

Выходные аргументы

свернуть все

`M` — Метафункции
числовая матрица

Метафункции, возвращенные как числовая матрица. Это - r-by-n матрица, содержащая взвешенные суммы функций в X. r является количеством, реплицирует выполняемый алгоритмом. n является количеством различных выборок, таких как моменты времени или пациенты.

Примечание

`W` — Веса метафункций
числовая матрица

Веса метафункций, возвращенные как числовая матрица. Это - p-by-r матрица. p является количеством переменных. r является количеством, реплицирует выполняемый алгоритмом.

`GSorted` — Отсортированные имена переменных
массив ячеек из символьных векторов

Отсортированные имена переменных, возвращенные как массив ячеек из символьных векторов. Это - p-by-r массив ячеек. Имена сортируются путем уменьшения веса. i th столбец GSorted перечисляет имена переменных в порядке их вкладов в i th метафункция.

Если GSorted требуется без G или если T.Properties.RowNames пусто, затем алгоритм называет каждую переменную (функция) как Vari, который соответствует i th строка X.

`GSortedInd` — Индексируйте к GSorted
матрица

Индексируйте к GSorted, возвращенный как матрица индексов. Это - p-by-r матрица. Индексы удовлетворяют GSorted = G(GSortedInd) или GSorted = T.Properties.RowNames(GSortedInd).

Больше о

свернуть все

Метагенный алгоритм аттрактора

Метагенный алгоритм аттрактора [1] является итеративным алгоритмом, который сходится к метагенам с важными функциями. Метаген задан как любая взвешенная сумма экспрессии гена с помощью нелинейной метрики расстояния. Метрика расстояния является нелинейным вариантом взаимной информации с помощью раскладывания и сплайнов как описано в [2]. На самом деле использование взаимной информации как метрика расстояния является одним из главных преимуществ этого алгоритма, поскольку взаимной информацией является устойчивая информация теоретический подход, чтобы определить статистическую зависимость между переменными. Поэтому это полезно для анализа отношений среди экспрессии гена. Другое преимущество состоит в том, что результаты алгоритма имеют тенденцию быть более ясно соединенными с фенотипом, заданным экспрессией гена.

Алгоритм инициализируется или случайными или заданными пользователями весами и доходами на этих шагах.

Оценка метагена во время i th итерация алгоритма $M_{i} = W_{i} * G$ , где _Wi является вектором из весов размера 1 p (количество генов), и G является матрицей экспрессии гена размера p-by-n (количество выборок).
Обновите веса $W_{j, i + 1} = J (M_{i}, G_{j})$ , где _Wj,i+1 является j th элемент _Wi+1, _Gj является j th строка G, и J является метрикой подобия, которая определяется следующим образом.
- Если корреляция Пирсона между _Mi и _Gj больше 0, то $J (M_{i}, G_{j}) = I {(M_{i}, G_{j})}^{α}$ , где $I (M_{i}, G_{j})$ мера взаимной информации между двумя генами с минимальным значением 0 и максимальным значением 1, и α является любым неотрицательным номером.
- Если корреляция меньше чем или равна 0, то $J (M_{i}, G_{j}) = 0$ .

Алгоритм выполняет итерации, пока изменение в _Wi между итерациями не меньше заданного допуска, то есть, $‖ W_{i} - W_{i - 1} ‖ < t o l e r a n c e$ или максимальное количество итераций достигнуто.

Роль α

В метрике подобия алгоритма параметр α управляет степенью нелинейности. Как α увеличения, количество метагенов имеет тенденцию увеличиваться. Если α является достаточно большим, то каждый ген приблизительно становится метагеном аттрактора. Если α является нулем, то все веса остаются равными друг другу. Поэтому существует только один метаген аттрактора, представляющий среднее значение всех генов.

Поэтому корректировка α для набора данных на рассмотрении является ключевым шагом в точной настройке алгоритма. В случае [1], с помощью данных TCGA из нескольких типов рака, чтобы идентифицировать метагены аттрактора, α значение 5 произошел промежуточные 50 и 150 метагенов аттрактора, обнаруженных от данных.

Ссылки

[1] Ченг, W-Y., Оу Ян, T-H., и Anastassiou, D. (2013). Биомолекулярные события при раке показаны метагенами аттрактора. PLoS Вычислительная Биология 9 (2): e1002920.

[2] Размажьте, C., Steuer, R., Selbig, J. и Kloska, S. (2004). Оценка взаимной информации с помощью функций B-сплайна – улучшенная мера по подобию для анализа данных об экспрессии гена. Биоинформатика BMC 5, 118.

[3] Hefti, M.M., Ху, R., Knoblauch, N.W., Коллинз, L.C., Haibe-Kains, B., Tamimi, R.M., и Приветствие, A.H. (2013). Приемник эстрогена отрицательный приемник / приемник прогестерона положительный рак молочной железы не является восстанавливаемым подтипом. Исследование Рака молочной железы. 15:R68.

Расширенные возможности

Автоматическая параллельная поддержка
Ускорьте код автоматически рабочим расчетом в параллели с помощью Parallel Computing Toolbox™.

Чтобы запуститься параллельно, установите 'UseParallel' опция к true.

Установите 'UseParallel' поле структуры опций к true и задайте 'Options' аргумент пары "имя-значение" в вызове этой функции.

Например: 'Options',struct('UseParallel',true)

Для получения дополнительной информации смотрите 'Options' аргумент пары "имя-значение".

Темы

Идентификация биомолекулярных подгрупп Используя метагены аттрактора

Введенный в R2014b

Документация Bioinformatics Toolbox

Поддержка

Сообщество Экспонента

Документация

metafeatures

Синтаксис

Описание

Примеры

Примените метагенный алгоритм аттрактора к данным об экспрессии гена

Входные параметры

X данные числовая матрица

G Имена переменных массив ячеек из символьных векторов | представляет вектор в виде строки

T данные таблица

Аргументы в виде пар имя-значение

'Alpha' — Настройка параметра для количества метафункций 5 (значений по умолчанию) | положительная скалярная величина

'Start' — Опция для выбора начальных весов 'random' (значение по умолчанию) | 'robust' | матрица

'Replicates' — Число раз, чтобы повторить алгоритм 1 (значение по умолчанию) | положительное целое число

'ReturnUnique' — Уникальный флаг метафункций true (значение по умолчанию) | false

'UniqueTolerance' — Допуск к уникальности метафункции 0,98 (значения по умолчанию) | вещественное число между 0 и 1

'Options' — Опции для управления алгоритмом [] (значение по умолчанию) | структура

Выходные аргументы

M — Метафункции числовая матрица

W — Веса метафункций числовая матрица

GSorted — Отсортированные имена переменных массив ячеек из символьных векторов

GSortedInd — Индексируйте к GSorted матрица

Больше о

Метагенный алгоритм аттрактора

Ссылки

Расширенные возможности

Автоматическая параллельная поддержка Ускорьте код автоматически рабочим расчетом в параллели с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Bioinformatics Toolbox

Поддержка

`X` данные
числовая матрица

`G` Имена переменных
массив ячеек из символьных векторов | представляет вектор в виде строки

`T` данные
таблица

`'Alpha'` — Настройка параметра для количества метафункций
5 (значений по умолчанию) | положительная скалярная величина

`'Start'` — Опция для выбора начальных весов
`'random'` (значение по умолчанию) | `'robust'` | матрица

`'Replicates'` — Число раз, чтобы повторить алгоритм
1 (значение по умолчанию) | положительное целое число

`'ReturnUnique'` — Уникальный флаг метафункций
`true` (значение по умолчанию) | `false`

`'UniqueTolerance'` — Допуск к уникальности метафункции
0,98 (значения по умолчанию) | вещественное число между 0 и 1

`'Options'` — Опции для управления алгоритмом
`[]` (значение по умолчанию) | структура

`M` — Метафункции
числовая матрица

`W` — Веса метафункций
числовая матрица

`GSorted` — Отсортированные имена переменных
массив ячеек из символьных векторов

`GSortedInd` — Индексируйте к GSorted
матрица

Автоматическая параллельная поддержка
Ускорьте код автоматически рабочим расчетом в параллели с помощью Parallel Computing Toolbox™.