affygcrma

Выполните процедуру GC Robust Multi-array Average (GCRMA) на данных уровня зонда микромассива Affymetrix

Синтаксис

Expression = affygcrma(CELFiles, CDFFile, SeqFile)
Expression = affygcrma(ProbeStructure, Seq)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...)
Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...)
Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...)
Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...)
Expression = affygcrma(..., 'Method', MethodValue, ...)
Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...)
Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...)
Expression = affygcrma(..., 'Median', MedianValue, ...)
Expression = affygcrma(..., 'Output', OutputValue, ...)
Expression = affygcrma(..., 'Showplot', ShowplotValue, ...)
Expression = affygcrma(..., 'Verbose', VerboseValue, ...)

Входные параметры

CELFiles

Любое из следующих:

  • Вектор символов или строка, задающая одно имя файла CEL.

  • '*', который считывает все файлы CEL в текущей папке.

  • ' ', который открывает диалоговое окно «Выбор файлов CEL», из которого вы выбираете файлы CEL. В этом диалоговом окне можно нажать и удерживать Ctrl или Shift при щелчке мыши, чтобы выбрать несколько файлов CEL.

  • Массив ячеек из символьных векторов или строкового вектора, содержащего имена файлов CEL.

CDFFile

Одно из следующих:

  • Вектор символов или строка, задающая имя CDF-файла.

  • ' ', который открывает диалоговое окно Выбор CDF-файл, из которого вы выбираете CDF-файл.

SeqFile

Одно из следующих:

  • Вектор символов или строка, задающая имя файла последовательности (разделенный табуляцией или FASTA), который содержит следующую информацию для определенного типа Affymetrix® GeneChip® массив:

    • Идентификаторы набора зондов

    • Зондируйте x-координаты

    • Зондируйте y-координаты

    • Последовательности зондов в каждом наборе зондов

    • Тип массива Affymetrix GeneChip (только файл FASTA)

    Файл последовательности (разделенный табуляцией или FASTA) должен находиться в MATLAB® путь поиска файлов или в текущей папке (если вы не используете SeqPath свойство). В файле, разделенном табуляцией, каждая строка представляет собой зонд; в файле FASTA каждый заголовок представляет зонд.

  • Матрица N -by-25 информации о последовательности, такой как возвращенная affyprobeseqread.

Seq

Матрица N -by-25 информации о последовательности, такой как возвращенная affyprobeseqread.

ProbeStructure

Структура MATLAB, содержащая информацию из файлов CEL, включая интенсивность зондирования, индексы зондов и идентификаторы набора зондов, возвращенные celintensityread функция.

CELPathValue

Вектор символов или строка, указывающая путь и папку, где файлы, указанные в CELFiles хранятся.

CDFPathValue

Вектор символов или строка, указывающая путь и папку, в которой находится файл, указанный в CDFFile сохранен.

SeqPathValue

Вектор символов или строка, задающая папку или путь и папку где SeqFile сохранен.

ChipIndexValue

Положительное целое число, определяющее чип. Информация о последовательности этого чипа и данные о интенсивности зонда несовпадения используются для вычисления сходимости зонда. По умолчанию это 1.

OpticalCorrValue

Управляет использованием оптической коррекции фона на входных значениях интенсивности зонда. Варианты true (по умолчанию) или false.

CorrConstValue

Значение, которое задает константу корреляции, rho, для интенсивности фона журнала для каждой пары зондов PM/MM. Варианты являются любым значением ≥ 0 и ≤ 1. По умолчанию это 0.7.

MethodValue

Вектор символов или строка, которая задает метод для оценки сигнала. Варианты 'MLE', более быстрый, специальный метод оценки максимальных вероятностей или 'EB', более медленный, формальный, эмпирический метод Байеса. По умолчанию это 'MLE'.

TuningParamValue

Значение, которое задает параметр настройки, используемый методом оценки. Эта настройка наборов параметров нижнюю границу значений сигналов с положительной вероятностью. Выбор является положительным значением. По умолчанию это 5 (MLE) или 0.5 (EB).

Совет

Для получения информации об определении настройки для этого параметра см. Wu et al., 2004.

GSBCorrValue

Определяет, выполнять ли коррекцию геноспецифического связывания (GSB) с помощью данных о сродстве зондов. Варианты true (по умолчанию) или false. Если нет информации о сродстве зонда, это свойство игнорируется.

MedianValue

Задает использование медианы ранжированных значений вместо среднего для нормализации. Варианты true или false (по умолчанию).

OutputValue

Задает шкалу возвращенных значений экспрессии генов. Варианты:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • functionname

В последнем случае данные преобразуются как определено функцией functionname. По умолчанию это 'log2'.

ShowplotValue

Управляет отображением графика, показывающего логарифмический параметр 2 значений интенсивности зонда несоответствия (MM) от заданного файла микросхемы (CEL) по сравнению с сродством зонда MM этого чипа. На графике также показан подгонка для вычисления данных NSB указанного чипа. Варианты true, false, или I, целое число, задающее чип. Если установлено значение trueпервый чип нанесен на график. По умолчанию это:

  • false - Когда заданы возвращаемые значения.

  • true - Когда значения возврата не заданы.

VerboseValue

Управляет отображением состояния чтения файлов и обработки GCRMA. Варианты true (по умолчанию) или false.

Выходные аргументы

Expression

Объект DataMatrix, содержащий значения экспрессии гена log2, которые были скорректированы, нормированы и суммированы с использованием процедуры GC Robust Multi-array Average (GCRMA).

Каждая строка в Expression соответствует гену (набору зондов), и каждый столбец соответствует файлу Affymetrix CEL.

Описание

Expression = affygcrma(CELFiles, CDFFile, SeqFile) считывает указанные файлы Affymetrix CEL, связанный файл библиотеки CDF (созданный из массивов Affymetrix GeneChip для анализа экспрессии или генотипирования) и связанный файл последовательности или матрицу. Затем он обрабатывает значения интенсивности зонда с помощью настройки фона GCRMA, нормализации квантиля и срединно-польских процедур суммирования, затем возвращает Expressionобъект DataMatrix, содержащий значения экспрессии генов на основе log2 в матрице, идентификаторы набора зондов в виде имен строк и имена файлов CEL в виде имен столбцов. Обратите внимание, что каждая строка в Expression соответствует гену (набору зондов), и каждый столбец соответствует файлу Affymetrix CEL. (Каждый файл CEL генерируется из отдельного чипа. Все чипы должны быть одного типа.)

CELFiles - вектор символов, строка, строковый вектор или массив ячеек векторов символов, содержащий имена файлов CEL. CDFFile - вектор символов или строка, задающая имя CDF-файла. Если вы задаете CELFiles на '*'затем считываются все файлы CEL в текущей папке. Если вы задаете CELFiles или CDFFile на ' ', затем он открывает диалоговое окно Выборов файлов, из которого вы выбираете файлы CEL или CDF-файл. В этом диалоговом окне можно нажать и удерживать Ctrl или Shift при щелчке мыши, чтобы выбрать несколько файлов CEL. SeqFile - файл или матрица, содержащая информацию о последовательности для зондов для определенного типа массива Affymetrix GeneChip.

Примечание

Для получения дополнительной информации о чтении файлов и обработке GCRMA, смотрите celintensityread, affyprobeseqread, affyprobeaffinities, gcrma, gcrmabackadj, quantilenorm, и rmasummary.

Expression = affygcrma(ProbeStructure, Seq) использует настройку фона GCRMA, нормализацию квантиля и срединно-польские процедуры суммирования, чтобы обработать значения интенсивности зонда в ProbeStructure. ProbeStructure - структура MATLAB, содержащая информацию из файлов CEL, включая интенсивность зондирования, индексы зондов и идентификаторы набора зондов, возвращенные celintensityread функция. Seq - матрица, содержащая информацию о последовательности для зондов на определенном типе массива Affymetrix GeneChip.

Expression = affygcrma (..., 'PropertyName', PropertyValue, ...) вызывает affygcrma с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...) задает путь и папку, в которой заданы файлы CELFiles хранятся.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...) задает путь и папку, в которой находится файл, заданный как CDFFile сохранен.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...) задает путь и папку, в которой находится файл, заданный как SeqFile сохранен.

Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...) вычисляет сходимость зонда из данных интенсивности зонда MM с помощью информации о последовательности и значений интенсивности зонда несоответствия от чипа, заданного ChipIndexValue. Значения по умолчанию ChipIndexValue является 1.

Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...) управляет использованием оптической коррекции фона на входных значениях интенсивности зонда. Варианты true (по умолчанию) или false.

Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...) задает константу корреляции rho для интенсивности фона для каждой пары зондов PM/MM. Варианты являются любым значением ≥ 0 и ≤ 1. По умолчанию это 0.7.

Expression = affygcrma(..., 'Method', MethodValue, ...) задает метод оценки сигнала. Варианты 'MLE', более быстрый, специальный метод оценки максимальных вероятностей или 'EB', более медленный, формальный, эмпирический метод Байеса. По умолчанию это 'MLE'.

Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...) задает параметр настройки, используемый методом оценки. Эта настройка наборов параметров нижнюю границу значений сигналов с положительной вероятностью. Выбор является положительным значением. По умолчанию это 5 (MLE) или 0.5 (EB).

Совет

Для получения информации об определении настройки для этого параметра см. Wu et al., 2004.

Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...) определяет, выполнять ли коррекцию геноспецифического связывания (GSB) с помощью данных о сродстве зонда. Варианты true (по умолчанию) или false. Если нет информации о сродстве зонда, это свойство игнорируется.

Expression = affygcrma(..., 'Median', MedianValue, ...) задает использование медианы ранжированных значений вместо среднего значения для нормализации. Варианты true или false (по умолчанию).

Expression = affygcrma(..., 'Output', OutputValue, ...) задает шкалу возвращенных значений экспрессии генов. OutputValue могут быть:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • functionname

В последнем случае данные преобразуются как определено функцией functionname. По умолчанию это 'log2'.

Expression = affygcrma(..., 'Showplot', ShowplotValue, ...) управляет отображением графика, показывающего log2 значений интенсивности зонда несовпадения (MM) от заданного файла микросхемы (CEL) по сравнению с сродством зонда MM этого чипа. На графике также показан подгонка для вычисления данных NSB указанного чипа. Варианты true, false, или I, целое число, задающее чип. Если установлено значение trueпервый чип нанесен на график. По умолчанию это:

  • false - Когда заданы возвращаемые значения.

  • true - Когда значения возврата не заданы.

Expression = affygcrma(..., 'Verbose', VerboseValue, ...) управляет отображением состояния чтения файлов и обработки GCRMA. Варианты true (по умолчанию) или false.

Примеры

Следующий пример предполагает, что у вас есть HG_U95Av2.CDF файл библиотеки, хранящийся в D:\Affymetrix\LibFiles\HGGenome, и что ваша текущая папка указывает на расположение, содержащее файлы CEL и файл последовательности, сопоставленный с этим файлом библиотеки CDF. В этом примере, affygcrma функция считывает все файлы CEL и файл последовательности в текущей папке и CDF-файл в указанной папке. Он также выполняет настройку фона GCRMA, нормализацию квантиля и процедуры суммирования на значениях интенсивности зонда PM и возвращает объект DataMatrix, содержащий метаданные и обработанные данные.

Expression = affygcrma('*', 'HG_U95Av2.CDF','HG-U95Av2_probe_tab',...
	                    'CDFPath', 'D:\Affymetrix\LibFiles\HGGenome');

Ссылки

[1] Naef, F. and Magnasco, M.O. (2003). Решение загадки ярких несоответствий: маркировка и эффективное связывание в олигонуклеотидных массивах. Физический обзор E 68, 011906.

[2] Wu, Z., Irizarry, R.A., Gentleman, R., Murillo, F.M., and Spencer, F. (2004). Модельная корректировка фона для массивов экспрессии олигонуклеотидов. Журнал Американской статистической ассоциации 99 (468), 909-917.

[3] Wu, Z., and Irizarry, R.A. (2005). Стохастические модели, вдохновленные теорией гибридизации для коротких олигонуклеотидных массивов. Материалы RECOMB 2004. J Comput Biol. 12 (6), 882-93.

[4] Wu, Z., and Irizarry, R.A. (2005). Статистическая среда для анализа данных уровня зонда микромассивов. Университет Джона Хопкинса, рабочие документы по биостатистике 73.

[5] Wu, Z., and Irizarry, R.A. (2003). Модельная корректировка фона для массивов экспрессии олигонуклеотидов. Семинар RSS по экспрессии генов, Уай, Англия, http://biosun01.biostat.jhsph.edu/%7Eririzarr/Talks/gctalk.pdf.

[6] Скорость, Т. (2006). Фоновые модели и GCRMA. Лекция 10, Статистика 246, Калифорнийский университет в Беркли.

[7] Abd Rabbo, N.A., and Barakat, H.M. (1979). Оценочные задачи при двухмерном логнормальном распределении. Индиец J. Pure Appl. Math 10 (7), 815-825.

[8] Best, C.J.M., Gillespie, J.W., Yi, Y., Chandramouli, G.V.R., Perlmutter, M.A., Собери, Я., Эриксон, Х.С., Георгиевич, Л., Тангрея, М.А., Duray, P.H., Gonsalez, S., Velasco, A., Linehan, W.M., Matusik, R.J., Price, D.K., Figg, W.D., Emmert-Buck, M.R., and Chuaqui, R.F. (2005). Молекулярные изменения при первичном раке предстательной железы после андрогенной абляции. Клинические исследования рака 11, 6823-6834.

[9] Irizarry, R.A., Hobbs, B., Collin, F., Beazer-Barclay, Y.D., Antonellis, K.J., Scherf, U., Speed, T.P. (2003). Исследования, нормализация и сводные данные данных уровня зонда олигонуклеотидного массива высокой плотности. Биостатистика. 4, 249–264.

[10] Mosteller, F. and Tukey, J. (1977). Анализ и регрессия данных (Reading, Massachusetts: Addison-Wesley Publishing Company), стр. 165-202.

Введенный в R2008b