exponenta event banner

метаособенности

Алгоритм метагена аттрактора для проектирования функций с использованием взаимного информационного обучения

Описание

пример

M = metafeatures(X) возвращает взвешенные суммы элементов M в X используя алгоритм метагена аттрактора, описанный в [1].

M является матрицей r-by-n. r - количество метафеатур, идентифицированных во время каждого повторения алгоритма. Число повторений по умолчанию равно 1. По умолчанию в M возвращаются только уникальные метафеатуры. Если несколько повторений приводят к одной и той же метафеатуре, то возвращается только одна копия в M. n - количество образцов (пациентов или временных точек).

X является цифровой матрицей p-by-n. p - количество переменных, признаков или генов. Другими словами, строки X соответствуют переменным, таким как измерения экспрессии генов для различных генов. Столбцы соответствуют различным образцам, таким как пациенты или моменты времени.

[M,W] = metafeatures(X) возвращает матрицу p-by-r W содержащие метафеатуры массы. M = W'*X. p - число переменных. r - количество уникальных метафеатур или число повторений алгоритма (по умолчанию - 1).

[M,W,GSorted] = metafeatures(X,G) использует массив ячеек p-by-1 из символьных векторов или строковых векторов G содержит имена переменных и возвращает массив ячеек p-by-r имен переменных GSorted отсортировано по уменьшающемуся весу.

i-й столбец GSorted перечисляет имена элементов (переменных) в порядке их вклада в i-ю метафеатуру.

[M,W,GSorted,GSortedInd] = metafeatures(___) возвращает индексы GSortedInd такой, что GSorted = G(GSortedInd).

[___] = metafeatures(___,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары.

[___] = metafeatures(T) использует таблицу p-by-n T. Имена генов - это имена строк таблицы. M = W'*T{:,:}.

[___] = metafeatures(T,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары.

Примечание

Возможно, что количество метафеатур (r), возвращенных в M может быть меньше числа повторений (повторов). Несмотря на то, что число повторений может быть положительным целым числом больше 1, если каждое повторение возвращает одну и ту же метафеатуру, то r равно 1, и M 1 на n. Это связано с тем, что по умолчанию функция возвращает только уникальные метафеатуры. Если вы предпочитаете получать все метафеатуры, установите 'ReturnUnique' кому false. Метафеатура считается уникальной, если корреляция Пирсона между ней и всеми ранее найденными метафеатурами меньше, чем 'UniqueTolerance' значение (значение по умолчанию: 0.98).

Примеры

свернуть все

Загрузить данные по экспрессии генов рака молочной железы. Данные были получены из атласа генома рака (TCGA) 20 мая 2014 года и содержат данные экспрессии генов 17814 генов для 590 различных пациентов. Данные выражения хранятся в переменной geneExpression. Имена генов хранятся в переменной geneNames.

load TCGA_Breast_Gene_Expression

Данные имеют несколько значений NaN.

sum(sum(isnan(geneExpression)))
ans =

        1695

Используйте метод k-ближайшего вменения соседа, чтобы заменить отсутствующие данные соответствующим значением из среднего значения k столбцов, которые являются ближайшими.

geneExpression = knnimpute(geneExpression,3);

Существует три распространенных фактора рака молочной железы: ERBB2, эстроген и прогестрон. metafeatures позволяет затравить начальные веса, чтобы сосредоточиться на интересующих генах. В этом случае установите вес для каждого из этих генов равным 1 в трех различных строках startValues. Каждая строка соответствует начальным значениям для различных копий (повторов).

erbb         = find(strcmp('ERBB2',geneNames));
estrogen     = find(strcmp('ESR1',geneNames));
progestrone  = find(strcmp('PGR',geneNames));

startValues = zeros(size(geneExpression,1),3);
startValues(erbb,1)        = 1;
startValues(estrogen,2)    = 1;
startValues(progestrone,3) = 1;

Примените алгоритм метагена аттрактора к вмененным данным.

[meta, weights, genes_sorted] = metafeatures(geneExpression,geneNames,'start',startValues);

Переменная meta имеет значение трех метагенов, обнаруженных для каждого образца. Постройте график этих трех метагенов, чтобы получить представление о природе регуляции генов в различных фенотипах рака молочной железы.

plot3(meta(1,:),meta(2,:),meta(3,:),'o')
xlabel('ERBB2 metagene')
ylabel('Estrogen metagene')
zlabel('Progestrone metagene')

Исходя из графика, наблюдайте следующее.

  • Существует группа точек, сгруппированных вместе с низкими значениями для всех трех метагенов. Исходя из уровней мРНК, это может быть тройной отрицательный или базальный тип рака молочной железы.

  • Существует группа точек, которые имеют высокую экспрессию метагена рецептора эстрогена и охватывают как высокую, так и низкую экспрессию метагена прогестрона. Нет точек с высокой экспрессией метагена прогестрона и низкой экспрессией метагена эстрогена. Это согласуется с наблюдением, что рак молочной железы ER-/PR + встречается крайне редко [3].

  • Остальные моменты - это ERBB2 положительные виды рака. Они имеют меньшее представление в этом наборе данных, чем гормональный и тройной негативный рак.

Входные аргументы

свернуть все

Данные, указанные как числовая матрица. Строки X соответствуют переменным, таким как измерения экспрессии генов. Столбцы соответствуют различным образцам, таким как пациенты или моменты времени.

Имена переменных, определяемые как массив ячеек символьных векторов или строковых векторов.

Данные, указанные как таблица. Имена строк таблицы соответствуют названиям признаков или генов, а столбцы представляют различные образцы, такие как пациенты или моменты времени.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'Replicates',5 задает повторение алгоритма пять раз.

Параметр настройки для количества метафеатур, указанный как пара, разделенная запятыми, состоящая из 'Alpha' и положительное число. Этот параметр управляет нелинейностью функции, которая вычисляет веса, как описано в алгоритме метагены аттрактора. По мере увеличения альфа количество метафеатур имеет тенденцию увеличиваться. Этот параметр часто является наиболее важным параметром для корректировки при анализе набора данных.

Пример: 'Alpha',3

Опция для выбора начальных весов, заданная как разделенная запятыми пара, состоящая из 'Start' и символьный вектор, строку или матрицу. В этой таблице представлены доступные параметры.

ВыборОписание
'random'Инициализируйте веса в вектор положительных весов, выбранных равномерно случайным образом и масштабированных так, чтобы они были равны 1. Выберите другой начальный весовой вектор для каждой копии. Этот параметр используется по умолчанию.
'robust'Если X или T имеет n столбцов, выполните алгоритм n раз. При i-й оценке алгоритма веса инициализируются на все нули за исключением i-го веса, который установлен в 1. Этот параметр полезен при попытке найти все метафайты набора данных.
матрицаn-на-r матрица исходных весов. Алгоритм работает r раз. Веса в i-ом прогоне алгоритма инициализируются в i-й столбец матрицы.

Пример: 'Start','robust'

Количество повторений алгоритма, указанного как разделенная запятыми пара, состоящая из 'Replicates' и положительное целое число. Этот параметр действителен только для 'random' опция запуска. Значение по умолчанию - 1.

Пример: 'Replicates',2

Флаг уникальных метафеатур, заданный как разделенная запятыми пара, состоящая из 'ReturnUnique' и true или false. Если true, то возвращаются только уникальные метафеатуры. Значение по умолчанию: true.

Эта опция полезна, когда алгоритм повторяется несколько раз. Задав для этой опции значение true, вы выбираете для просмотра только уникальные метафеатуры, так как один и тот же набор метафеатур может быть обнаружен для различных инициализаций.

Метафеатура считается уникальной, если корреляция Пирсона между ней и всеми ранее найденными метафеатурами меньше, чем 'UniqueTolerance' значение (значение по умолчанию: 0.98).

Чтобы запустить алгоритм несколько раз, установите 'Replicates' аргумент пары имя-значение или 'Start' опция для 'robust' или матрицу, содержащую более 1 строки.

Пример: 'ReturnUnique',false

Допуск на уникальность метафеатуры, указанный как разделенная запятыми пара, состоящая из 'UniqueTolerance' и вещественное число от 0 до 1.

Метафеатура считается уникальной, если корреляция Пирсона между ней и всеми ранее найденными метафеатурами меньше, чем 'UniqueTolerance' значение.

Пример: 'UniqueTolerance',0.90

Опции управления алгоритмом, указанные как разделенная запятыми пара, состоящая из 'Options' и структура. В этой таблице представлены эти параметры.

ВыборОписание
DisplayУровень выходного дисплея. Варианты: 'off' или 'iter'. Значение по умолчанию: 'off'.
MaxIterМаксимально допустимое число итераций. Значение по умолчанию - 100.
ToleranceЕсли M изменяется меньше, чем допуск в итерации, то алгоритм останавливается. Значение по умолчанию: 1e-6.
StreamsA RandStream объект. Если потоки не указаны, метафайты используют случайный поток по умолчанию.
UseParallelЛогическое значение, указывающее, выполнять ли вычисления параллельно, если доступны параллельный пул и параллельные вычислительные Toolbox™. При проблемах с большими наборами данных по сравнению с доступной системной памятью параллельное выполнение может снизить производительность. Значение по умолчанию: false.

Пример: 'Options',struct('Display','iter')

Выходные аргументы

свернуть все

Метафеатуры, возвращаемые в виде числовой матрицы. Это матрица r-by-n, содержащая взвешенные суммы признаков в X. r - число повторов, выполненных алгоритмом. n - количество различных образцов, таких как временные точки или пациенты.

Примечание

Возможно, что количество метафеатур (r), возвращенных в M может быть меньше числа повторений (повторов). Несмотря на то, что число повторений может быть положительным целым числом больше 1, если каждое повторение возвращает одну и ту же метафеатуру, то r равно 1, и M 1 на n. Это связано с тем, что по умолчанию функция возвращает только уникальные метафеатуры. Если вы предпочитаете получать все метафеатуры, установите 'ReturnUnique' кому false. Метафеатура считается уникальной, если корреляция Пирсона между ней и всеми ранее найденными метафеатурами меньше, чем 'UniqueTolerance' значение (значение по умолчанию: 0.98).

Веса метафеатур, возвращаемые в виде числовой матрицы. Это матрица p-by-r. p - число переменных. r - число повторов, выполненных алгоритмом.

Отсортированные имена переменных, возвращаемые в виде массива ячеек символьных векторов. Это массив ячеек p-by-r. Имена сортируются по уменьшению веса. I-я колонна GSorted перечисляет имена переменных в порядке их вклада в метафеатуру ith.

Если GSorted запрашивается без G или если T.Properties.RowNames пуст, затем алгоритм называет каждую переменную (функцию) как Vari, что соответствует i-ой строке X.

Индекс в GSorted, возвращается в виде матрицы индексов. Это матрица p-by-r. Индексы удовлетворяют GSorted = G(GSortedInd) или GSorted = T.Properties.RowNames(GSortedInd).

Подробнее

свернуть все

Алгоритм метагены аттрактора

Алгоритм метагена аттрактора [1] - итеративный алгоритм, сходящийся к метагенам с важными особенностями. Метаген определяется как любая взвешенная сумма экспрессии гена с использованием нелинейной метрики расстояния. Метрика расстояния является нелинейным вариантом взаимной информации с использованием гибки и сплайнов, как описано в [2]. Фактически, использование взаимной информации в качестве метрики расстояния является одним из основных преимуществ этого алгоритма, поскольку взаимная информация является надежным информационным теоретическим подходом для определения статистической зависимости между переменными. Поэтому он полезен для анализа взаимосвязей между экспрессией генов. Другим преимуществом является то, что результаты алгоритма, как правило, более четко связаны с фенотипом, определяемым экспрессией генов.

Алгоритм инициализируется либо случайными, либо пользовательскими весами и переходит к этим шагам.

  1. Оценка метагена при i-й итерации алгоритма - Mi = Wi * G, где Wi - вектор весов размера 1-за-p (число генов), а G - матрица экспрессии генов размера p-за-n (число образцов).

  2. Обновите веса по Wj, i + 1 = J (Mi, Gj), где Wj, i + 1 - j-й элемент Wi + 1, Gj - j-й ряд G, а J - метрика подобия, которая определяется следующим образом.

    • Если корреляция Пирсона между Mi и Gj больше 0, то J (Mi, Gj) = I (Mi, Gj) α, где I (Mi, Gj) - мера взаимной информации между двумя генами с минимальным значением 0 и максимальным значением 1, а α - любое неотрицательное число.

    • Если корреляция меньше или равна 0, то J (Mi, Gj) = 0.

Алгоритм повторяет, пока изменение в Wi между повторениями не меньше, чем определенная терпимость, то есть, ‖Wi−Wi−1 <терпимость или максимальное количество повторений достигнуты.

Роль α

В метрике подобия алгоритма параметр α управляет степенью нелинейности. По мере увеличения α количество метагенов имеет тенденцию увеличиваться. Если α достаточно велик, то каждый ген приблизительно становится метагеном-аттрактором. Если α равно нулю, то все веса остаются равными друг другу. Поэтому существует только одна метагена-аттрактор, представляющая среднее значение всех генов.

Поэтому корректировка α для рассматриваемого набора данных является ключевым шагом в точной настройке алгоритма. В случае [1], используя данные TCGA из нескольких типов рака для идентификации метагенов-аттракторов, значение α 5 привело к обнаружению от 50 до 150 метагенов-аттракторов.

Ссылки

[1] Чэн, W-Y., Ou Yang, T-H. и Anastassiou, D. (2013). Биомолекулярные события при раке, выявленные метагенами-аттракторами. Вычислительная биология PLoS 9 (2): e1002920.

[2] Дауб, К., Стайер, Р., Селбиг, Дж., и Клоска, С. (2004). Оценка взаимной информации с использованием функций B-сплайна - улучшенная мера подобия для анализа данных экспрессии генов. BMC Биоинформатика 5, 118.

[3] Хефти, М.М., Ху, Р., Кноблаух, Н.У., Коллинз, Л.С., Хайбе-Кейнс, Б., Тамими, Р.М. и Бек, А.Х. (2013). Рецептор эстрогена отрицательный/рецептор прогестерона положительный рак молочной железы не является воспроизводимым подтипом. Исследование рака молочной железы. 15:R68.

Расширенные возможности

Представлен в R2014b