mainvarsetnorm

Выполните ранговую инвариантную нормализацию набора по значениям экспрессии генов из двух экспериментальных условий или фенотипов

Синтаксис

NormDataY = mainvarsetnorm(DataX, DataY)
NormDataY = mainvarsetnorm(..., 'Thresholds', ThresholdsValue, ...)
NormDataY = mainvarsetnorm(..., 'Exclude', ExcludeValue, ...)
NormDataY = mainvarsetnorm(..., 'Percentile', PercentileValue, ...)
NormDataY = mainvarsetnorm(..., 'Iterate', IterateValue, ...)
NormDataY = mainvarsetnorm(..., 'Method', MethodValue, ...)
NormDataY = mainvarsetnorm(..., 'Span', SpanValue, ...)
NormDataY = mainvarsetnorm(..., 'Showplot', ShowplotValue, ...)

Аргументы

DataX

Вектор значений экспрессии генов из одного экспериментального условия или фенотипа, где каждая строка соответствует гену. Эти точки данных используются в качестве базовой линии.

DataY

Вектор значений экспрессии генов из одного экспериментального условия или фенотипа, где каждая строка соответствует гену. Эти точки данных будут нормированы с помощью базовой линии.

ThresholdsValue

Вектор, который устанавливает пороги для самого низкого среднего ранга и самого высокого среднего ранга между этими двумя наборами данных. Средний ранг для каждой точки данных определяется путем первого преобразования значений в DataX и DataY в ранги, затем среднее значение двух рангов для каждой точки данных. Затем порог для каждой точки данных определяется путем интерполяции между порогом для самого низкого среднего ранга и порогом для самого высокого среднего ранга.

Примечание

Эти отдельные пороги используются для определения рангового инвариантного набора, который является набором точек данных, каждый из которых имеет пропорциональное различие рангов (prd), меньшую, чем его предопределенный порог. Для получения дополнительной информации о наборе инвариантов ранга смотрите Описание.

ThresholdsValue вектор 1 на 2 [LT, HT], где LT - порог наименьшего среднего ранга и HT - порог для наивысшего среднего ранга. Выберите эти два порога эмпирически, чтобы ограничить распространение инвариантного множества, но разрешить достаточное количество точек данных, чтобы определить отношения нормализации. Значения должны быть между 0 и 1. По умолчанию это [0.03, 0.07].

ExcludeValue

Свойство для фильтрации инвариантного набора точек данных, путем исключения точек данных, средний ранг которых (между DataX и DataY) находится в самом высоком N ранжированные средние или самые низкие N ранжированные средние значения.

PercentileValue

Свойство, чтобы остановить процесс итерации, когда количество точек данных в инвариантном наборе достигает N процент от общего количества входных точек данных. По умолчанию это 1.

Примечание

Если вы не используете это свойство, процесс итерации продолжается, пока больше не будут удалены точки данных.

IterateValue

Свойство для управления процессом итерации для определения инвариантного набора точек данных. Введите true повторить процесс до тех пор, пока больше не будут удалены точки данных или заданный процент точек данных (PercentileValue) достигается. Введите false для выполнения только одной итерации процесса. По умолчанию это true.

Совет

Выберите false для небольших наборов данных, обычно менее 200 точек данных.

MethodValue

Свойство для выбора метода сглаживания, используемого для нормализации данных. Введите 'lowess' или 'runmedian'. По умолчанию это 'lowess'.

SpanValue

Свойство для задания размера окна для метода сглаживания. Если SpanValue меньше 1, размер окна - это процент от количества точек данных. Если SpanValue равен или больше 1, размер окна имеет размер SpanValue. По умолчанию это 0.05, что соответствует размеру окна, равному 5% от общего количества точек данных в инвариантном наборе.

ShowplotValue

Свойство для управления графического изображения пары графиков поля точек M-A (до и после нормализации). M - отношение между DataX и DataY. A - среднее значение DataX и DataY. Введите true чтобы создать пару M-A графиков поля точек. По умолчанию это false.

Описание

NormDataY = mainvarsetnorm(DataX, DataY) нормализует значения в DataY, вектор значений экспрессии генов, к вектору- ссылке, DataX, с использованием метода инвариантного набора. NormDataY является вектором нормализованных значений экспрессии генов из DataY.

В частности, mainvarsetnorm:

  • Определяет пропорциональное различие рангов (prd) для каждой пары рангов, RankX и RankY, из двух векторов значений экспрессии генов, DataX и DataY.

    prd = abs (RankX - RankY)

  • Определяет инвариантный набор точек данных путем выбора точек данных, пропорциональные различия рангов которых (prd) ниже threshold, что является предопределенным порогом для заданной точки данных (заданным ThresholdsValue свойство). Он опционально повторяет процесс, пока больше не будут удалены точки данных или не будет достигнут предопределенный процент точек данных.

    Инвариантным множеством являются точки данных с prd < threshold.

  • Использует инвариантный набор точек данных, чтобы вычислить нижнюю или текущую медианную кривую сглаживания, которая используется для нормализации данных в DataY.

Примечание

Если DataX или DataY содержит значения NaN, затем NormDataY будет также содержать значения NaN в соответствующих положениях.

Совет

mainvarsetnorm полезно для коррекции смещения красителя в данных двухцветных микромассивов.

NormDataY = mainvarsetnorm (..., 'PropertyName', PropertyValue, ...) вызывает mainvarsetnorm с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

NormDataY = mainvarsetnorm(..., 'Thresholds', ThresholdsValue, ...) устанавливает пороги для самого низкого среднего ранга и самого высокого среднего ранга между этими двумя наборами данных. Средний ранг для каждой точки данных определяется путем первого преобразования значений в DataX и DataY в ранги, затем среднее значение двух рангов для каждой точки данных. Затем порог для каждой точки данных определяется путем интерполяции между порогом для самого низкого среднего ранга и порогом для самого высокого среднего ранга.

Примечание

Эти отдельные пороги используются для определения рангового инвариантного набора, который является набором точек данных, каждый из которых имеет пропорциональное различие рангов (prd), меньшую, чем его предопределенный порог. Для получения дополнительной информации о наборе инвариантов ранга смотрите Описание.

ThresholdsValue вектор 1 на 2 [LT, HT], где LT - порог наименьшего среднего ранга и HT - порог для наивысшего среднего ранга. Выберите эти два порога эмпирически, чтобы ограничить распространение инвариантного множества, но разрешить достаточное количество точек данных, чтобы определить отношения нормализации. Значения должны быть между 0 и 1. По умолчанию это [0.03, 0.07].

NormDataY = mainvarsetnorm(..., 'Exclude', ExcludeValue, ...) фильтрует инвариантный набор точек данных, исключая точки данных, средний ранг которых (между DataX и DataY) находится в самом высоком N ранжированные средние или самые низкие N ранжированные средние значения.

NormDataY = mainvarsetnorm(..., 'Percentile', PercentileValue, ...) останавливает процесс итерации, когда количество точек данных в инвариантном наборе достигает N процент от общего количества входных точек данных. По умолчанию это 1.

Примечание

Если вы не используете это свойство, процесс итерации продолжается, пока больше не будут удалены точки данных.

NormDataY = mainvarsetnorm(..., 'Iterate', IterateValue, ...) управляет процессом итерации для определения инвариантного набора точек данных. Когда IterateValue является true, mainvarsetnorm повторяет процесс до тех пор, пока больше не будут удалены точки данных или заданный процент точек данных (PercentileValue) достигается. Когда IterateValue является false, выполняет только одну итерацию процесса. По умолчанию это true.

Совет

Выберите false для небольших наборов данных, обычно менее 200 точек данных.

NormDataY = mainvarsetnorm(..., 'Method', MethodValue, ...) выбирает метод сглаживания для нормализации данных. Когда MethodValue является 'lowess', mainvarsetnorm использует метод lowess. Когда MethodValue является 'runmedian', mainvarsetnorm использует текущий медианный метод. По умолчанию это 'lowess'.

NormDataY = mainvarsetnorm(..., 'Span', SpanValue, ...) задает размер окна для метода сглаживания. Если SpanValue меньше 1, размер окна - это процент от количества точек данных. Если SpanValue равен или больше 1, размер окна имеет размер SpanValue. По умолчанию это 0.05, что соответствует размеру окна, равному 5% от общего количества точек данных в инвариантном наборе.

NormDataY = mainvarsetnorm(..., 'Showplot', ShowplotValue, ...) определяет, следует ли построить пару M-A графиков поля точек (до и после нормализации). M - отношение между DataX и DataY. A - среднее значение DataX и DataY. Когда ShowplotValue является true, mainvarsetnorm строит графики для графиков поля точек M-A. По умолчанию это false.

Примеры

свернуть все

Этот пример иллюстрирует, как исправить смещение красителя или различия в сканировании между двумя каналами данных из двухцветного эксперимента с микромассивами.

Считайте данные микромассивов из выборки файла GPR.

maStruct = gprread('mouse_a1wt.gpr');

Извлеките значения экспрессии генов из двух различных экспериментальных условий.

cy5data = magetfield(maStruct, 'F635 Median');
cy3data = magetfield(maStruct, 'F532 Median');

Нормализуйте cy3data использование cy5data как ссылку и график результатов.

Normcy3data = mainvarsetnorm(cy5data, cy3data, 'showplot', true);

Figure contains 2 axes and other objects of type subplottext. Axes 1 with title Before Normalization contains 4 objects of type line. These objects represent Invariant set, Smooth curve. Axes 2 with title After Normalization contains 3 objects of type line. This object represents Invariant set.

В идеальных экспериментальных условиях точки данных с равными значениями экспрессии будут падать вдоль линии M = 0, которая представляет отношение экспрессии генов 1. Однако смещение красителя заставило измеренные значения в одном канале быть выше, чем в другом канале, как видно на графике нормализации Перед. Нормализация исправила отклонение, как видно на графике После нормализации.

Ссылки

[1] Tseng, G.C., Oh, Min-Kyu, Rohlin, L., Liao, J.C., and Wong, W.H. (2001) Проблемы в анализе микромассивов кДНК: фильтрация качества, нормализация канала, модели изменений и оценка генных эффектов. Исследование нуклеиновых кислот. 29, 2549-2557.

[2] Hoffmann, R., Seidl, T. and Dugas, M. (2002) Глубокий эффект нормализации на обнаружение дифференциально экспрессированных генов в анализе олигонуклеотидов микромассива данных. Биология генома. 3 (7): исследование 0033.1-0033.11 .

Введенный в R2006a