exponenta event banner

affygcrma

Выполнение процедуры GC Brustable Multi-array Average (GCRMA) для данных уровня зонда микрочипа Affymetrix

Синтаксис

Expression = affygcrma(CELFiles, CDFFile, SeqFile)
Expression = affygcrma(ProbeStructure, Seq)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...)
Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...)
Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...)
Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...)
Expression = affygcrma(..., 'Method', MethodValue, ...)
Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...)
Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...)
Expression = affygcrma(..., 'Median', MedianValue, ...)
Expression = affygcrma(..., 'Output', OutputValue, ...)
Expression = affygcrma(..., 'Showplot', ShowplotValue, ...)
Expression = affygcrma(..., 'Verbose', VerboseValue, ...)

Входные аргументы

CELFiles

Любое из следующих действий:

  • Символьный вектор или строка, указывающая одно имя файла CEL.

  • '*', которая считывает все файлы CEL в текущей папке.

  • ' ', в котором открывается диалоговое окно «Выбор файлов CEL», в котором выбираются файлы CEL. В этом диалоговом окне можно нажать и удерживать клавишу CTRL или SHIFT, чтобы выбрать несколько файлов CEL.

  • Массив ячеек символьных векторов или строковых векторов, содержащих имена CEL-файлов.

CDFFile

Одно из следующих действий:

  • Символьный вектор или строка, указывающая имя файла CDF.

  • ' ', в котором открывается диалоговое окно «Выбор файла CDF», в котором выбирается файл CDF.

SeqFile

Одно из следующих действий:

  • Символьный вектор или строка, указывающая имя файла последовательности (с разделением табуляцией или FASTA), который содержит следующую информацию для определенного типа массива Affymetrix ® GeneChip ®:

    • Идентификаторы наборов зондов

    • X-координаты зонда

    • Y-координаты зонда

    • Последовательности зондов в каждом наборе зондов

    • Тип массива Affymetrix GeneChip (только файл FASTA)

    Файл последовательности (разделенный табуляцией или FASTA) должен находиться в пути поиска MATLAB ® или в текущей папке (если не используется SeqPath свойство). В файле, разделенном табуляцией, каждая строка представляет зонд; в файле FASTA каждый заголовок представляет пробу.

  • Матрица N-by-25 информации о последовательности, например, возвращенная affyprobeseqread.

Seq

Матрица N-by-25 информации о последовательности, например, возвращенная affyprobeseqread.

ProbeStructure

Структура MATLAB, содержащая информацию из файлов CEL, включая интенсивности зондов, индексы зондов и идентификаторы наборов зондов, возвращаемые celintensityread функция.

CELPathValue

Символьный вектор или строка, указывающая путь и папку, в которых указаны файлы CELFiles хранятся.

CDFPathValue

Символьный вектор или строка, указывающая путь и папку, в которой указан файл CDFFile хранится.

SeqPathValue

Символьный вектор или строка, указывающая папку или путь и папку, где SeqFile хранится.

ChipIndexValue

Положительное целое число, определяющее чип. Информация о последовательности этого чипа и данные об интенсивности зонда рассогласования используются для вычисления аффинностей зонда. По умолчанию: 1.

OpticalCorrValue

Управляет использованием оптической коррекции фона на входных значениях интенсивности зонда. Варианты: true (по умолчанию) или false.

CorrConstValue

Значение, определяющее корреляционную константу rho для логарифмической фоновой интенсивности для каждой пары зондов PM/MM. Варианты - это любое значение ≥ 0 и ≤ 1. По умолчанию: 0.7.

MethodValue

Символьный вектор или строка, определяющая метод оценки сигнала. Варианты: 'MLE', более быстрый, специальный метод оценки максимального правдоподобия или 'EB', более медленный, более формальный, эмпирический метод Байеса. По умолчанию: 'MLE'.

TuningParamValue

Значение, указывающее параметр настройки, используемый методом оценки. Этот параметр настройки устанавливает нижнюю границу значений сигнала с положительной вероятностью. Выбор - это положительное значение. По умолчанию: 5 (MLE) или 0.5 (EB).

Совет

Информацию об определении параметров для этого параметра см. в Wu et al., 2004.

GSBCorrValue

Указывает, следует ли выполнять коррекцию геноспецифического связывания (GSB) с использованием данных о сродстве зондов. Варианты: true (по умолчанию) или false. Если информация о сходстве зонда отсутствует, это свойство игнорируется.

MedianValue

Задает использование медианы ранжированных значений вместо среднего значения для нормализации. Варианты: true или false (по умолчанию).

OutputValue

Указывает масштаб возвращаемых значений экспрессии генов. Возможны следующие варианты:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • @functionname

В последнем случае данные преобразуются, как определено функцией. functionname. По умолчанию: 'log2'.

ShowplotValue

Управляет отображением графика, показывающего log2 значений интенсивности зонда несовпадения (MM) из указанного чипа (CEL-файл), по сравнению с афинностями зонда MM этого чипа. На графике также показана подгонка LOWESS для вычисления данных NSB указанного чипа. Варианты: true, false, или I, целое число, определяющее чип. Если установлено значение true, первая микросхема нанесена на график. Значение по умолчанию:

  • false - Когда указаны возвращаемые значения.

  • true - Когда возвращаемые значения не указаны.

VerboseValue

Управляет отображением состояния чтения файлов и обработки GCRMA. Варианты: true (по умолчанию) или false.

Выходные аргументы

Expression

Объект DataMatrix, содержащий значения экспрессии гена log2, которые были скорректированы в фоновом режиме, нормализованы и суммированы с использованием процедуры GC Frability Multi-array Average (GCRMA).

Каждая строка в Expression соответствует гену (набору зондов), и каждый столбец соответствует файлу Affymetrix CEL.

Описание

Expression = affygcrma(CELFiles, CDFFile, SeqFile) считывает указанные файлы Affymetrix CEL, связанный файл библиотеки CDF (созданный из массивов Affymetrix GeneChip для анализа экспрессии или генотипирования) и связанный файл или матрицу последовательности. Затем он обрабатывает значения интенсивности зонда с помощью процедур корректировки фона GCRMA, нормализации квантилей и суммирования медианы, а затем возвращает Expressionобъект DataMatrix, содержащий значения экспрессии гена на основе log2 в матрице, идентификаторы наборов зондов в качестве имен строк и имена файлов CEL в качестве имен столбцов. Обратите внимание, что каждая строка в Expression соответствует гену (набору зондов), и каждый столбец соответствует файлу Affymetrix CEL. (Каждый файл CEL генерируется из отдельной микросхемы. Все микросхемы должны быть одного типа.)

CELFiles - символьный вектор, строка, строковый вектор или массив ячеек символьных векторов, содержащих имена CEL-файлов. CDFFile - символьный вектор или строка, задающая имя файла CDF. Если установить CELFiles кому '*'затем считывает все файлы CEL в текущей папке. Если установить CELFiles или CDFFile кому ' 'затем открывается диалоговое окно «Выбор файлов», в котором можно выбрать файлы CEL или CDF. В этом диалоговом окне можно нажать и удерживать клавишу CTRL или SHIFT, чтобы выбрать несколько файлов CEL. SeqFile - файл или матрица, содержащая информацию о последовательности для зондов в определенном типе массива Affymetrix GeneChip.

Примечание

Подробные сведения о чтении файлов и обработке GCRMA см. в разделе celintensityread, affyprobeseqread, affyprobeaffinities, gcrma, gcrmabackadj, quantilenorm, и rmasummary.

Expression = affygcrma(ProbeStructure, Seq) использует процедуры корректировки фона GCRMA, нормализации квантилей и суммирования медианы для обработки значений интенсивности зонда в ProbeStructure. ProbeStructure - структура MATLAB, содержащая информацию из файлов CEL, включая интенсивности зондов, индексы зондов и идентификаторы наборов зондов, возвращаемые celintensityread функция. Seq - матрица, содержащая информацию о последовательности для зондов на определенном типе массива Affymetrix GeneChip.

Expression = affygcrma(..., 'PropertyName', PropertyValue, ...) требования affygcrma с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...) указывает путь и папку, в которых файлы указаны CELFiles хранятся.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...) указывает путь и папку, в которой файл указан CDFFile хранится.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...) указывает путь и папку, в которой файл указан SeqFile хранится.

Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...) вычисляет аффинности зонда из данных интенсивности зонда ММ, используя информацию о последовательности и несовпадении значений интенсивности зонда из микросхемы, указанной ChipIndexValue. Дефолт ChipIndexValue является 1.

Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...) управляет использованием оптической коррекции фона на входных значениях интенсивности зонда. Варианты: true (по умолчанию) или false.

Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...) определяет константу корреляции rho для фоновой интенсивности для каждой пары зондов PM/MM. Варианты - это любое значение ≥ 0 и ≤ 1. По умолчанию: 0.7.

Expression = affygcrma(..., 'Method', MethodValue, ...) определяет метод оценки сигнала. Варианты: 'MLE', более быстрый, специальный метод оценки максимального правдоподобия или 'EB', более медленный, более формальный, эмпирический метод Байеса. По умолчанию: 'MLE'.

Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...) задает параметр настройки, используемый методом оценки. Этот параметр настройки устанавливает нижнюю границу значений сигнала с положительной вероятностью. Выбор - это положительное значение. По умолчанию: 5 (MLE) или 0.5 (EB).

Совет

Информацию об определении параметров для этого параметра см. в Wu et al., 2004.

Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...) указывает, следует ли выполнять коррекцию генно-специфического связывания (GSB) с использованием данных о сродстве зондов. Варианты: true (по умолчанию) или false. Если информация о сходстве зонда отсутствует, это свойство игнорируется.

Expression = affygcrma(..., 'Median', MedianValue, ...) задает использование медианы ранжированных значений вместо среднего значения для нормализации. Варианты: true или false (по умолчанию).

Expression = affygcrma(..., 'Output', OutputValue, ...) задает масштаб возвращаемых значений экспрессии генов. OutputValue могут быть:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • @functionname

В последнем случае данные преобразуются, как определено функцией. functionname. По умолчанию: 'log2'.

Expression = affygcrma(..., 'Showplot', ShowplotValue, ...) управляет отображением графика, показывающего log2 значений интенсивности зонда несовпадения (MM) из указанного чипа (CEL-файл), по сравнению со сродствами зонда MM этого чипа. На графике также показана подгонка LOWESS для вычисления данных NSB указанного чипа. Варианты: true, false, или I, целое число, определяющее чип. Если установлено значение true, первая микросхема нанесена на график. Значение по умолчанию:

  • false - Когда указаны возвращаемые значения.

  • true - Когда возвращаемые значения не указаны.

Expression = affygcrma(..., 'Verbose', VerboseValue, ...) управляет отображением состояния чтения файлов и обработки GCRMA. Варианты: true (по умолчанию) или false.

Примеры

В следующем примере предполагается наличие HG_U95Av2.CDF файл библиотеки, хранящийся в D:\Affymetrix\LibFiles\HGGenomeи что текущая папка указывает на расположение, содержащее файлы CEL и файл последовательности, связанный с этим файлом библиотеки CDF. В этом примере affygcrma функция считывает все файлы CEL и файл последовательности в текущей папке и файл CDF в указанной папке. Он также выполняет процедуры корректировки фона GCRMA, нормализации квантования и суммирования значений интенсивности зонда PM и возвращает объект DataMatrix, содержащий метаданные и обработанные данные.

Expression = affygcrma('*', 'HG_U95Av2.CDF','HG-U95Av2_probe_tab',...
	                    'CDFPath', 'D:\Affymetrix\LibFiles\HGGenome');

Ссылки

[1] Наеф, Ф. и Магнаско, М.О. (2003). Решение загадки ярких несоответствий: мечение и эффективное связывание в олигонуклеотидных массивах. Физический обзор E 68, 011906.

[2] Ву, З., Иризарри, Р.А., Джентльмен, Р., Мурильо, Ф.М., и Спенсер, Ф. (2004). Основанная на модели корректировка фона для массивов олигонуклеотидной экспрессии. Журнал Американской статистической ассоциации 99 (468), 909-917.

[3] Ву, З. и Иризарри, Р.А. (2005). Стохастические модели, вдохновленные теорией гибридизации для коротких олигонуклеотидных массивов. Работа РЕКОМБ в 2004 году. J Comput Biol. 12 (6), 882-93.

[4] Ву, З. и Иризарри, Р.А. (2005). Статистическая основа для анализа данных на уровне зондов микрочипов. Университет Джона Хопкинса, рабочие документы по биостатистике 73.

[5] Ву, З. и Иризарри, Р.А. (2003). Основанная на модели корректировка фона для массивов олигонуклеотидной экспрессии. Семинар RSS по экспрессии генов, Уай, Англия, http://biosun01.biostat.jhsph.edu/%7Eririzarr/Talks/gctalk.pdf.

[6] Скорость, Т. (2006). Фоновые модели и GCRMA. Лекция 10, статистика 246, Калифорнийский университет в Беркли.

[7] Абд Раббо, Н. А., и Баракат, Х. М. (1979). Проблемы оценки в двумерном логнормальном распределении. Индиец Дж. Pure Appl. Math 10 (7), 815-825.

[8] Best, C.J.M., Gillespie, J.W., Yi, Y., Chandramouli, G.V.R., Perlmutter, M.A., Собирается, Я., Эриксон, Х. С., Георгевич, Л., Тангреа, М. А., Дюрей, П.Х., Гонсалес, С., Веласко, А., Линехан, В.М., Матусик, Р.Дж., Прайс, Д.К., Фигг, В.Д., Эммерт-Бак, М.Р., и Чуакки, Р.Ф. (2005). Молекулярные изменения при первичном раке предстательной железы после терапии андрогенной абляцией. Клинические исследования рака 11, 6823-6834.

[9] Иризарри, Р.А., Хоббс, Б., Коллин, Ф., Бизер-Барклай, Ю.Д., Антонеллис, К.Ж., Шерф, У., Скорость, Т.П. (2003). Исследование, нормализация и резюме данных уровня зонда олигонуклеотидного массива высокой плотности. Биостатистика. 4, 249–264.

[10] Мостеллер, Ф. и Туки, Дж. (1977). Анализ и регрессия данных (Reading, Massachusetts: Addison-Wesley Publishing Company), стр. 165-202.

Представлен в R2008b