affygcrma

Выполните GC Устойчивое Среднее значение Мультимассивов (GCRMA) процедура на данных тестового уровня Affymetrix микромассивов

Синтаксис

Expression = affygcrma(CELFiles, CDFFile, SeqFile)
Expression = affygcrma(ProbeStructure, Seq)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...)
Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...)
Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...)
Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...)
Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...)
Expression = affygcrma(..., 'Method', MethodValue, ...)
Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...)
Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...)
Expression = affygcrma(..., 'Median', MedianValue, ...)
Expression = affygcrma(..., 'Output', OutputValue, ...)
Expression = affygcrma(..., 'Showplot', ShowplotValue, ...)
Expression = affygcrma(..., 'Verbose', VerboseValue, ...)

Входные параметры

CELFiles

Любое следующее:

  • Вектор символов или строка, задающая одно имя файла CEL.

  • '*', который читает все файлы CEL в текущей папке.

  • ' ', который открывает диалоговое окно Select CEL Files, из которого вы выбираете файлы CEL. От этого диалогового окна можно нажать и содержать Ctrl или Shift при нажатии, чтобы выбрать несколько файлов CEL.

  • Массив ячеек из символьных векторов или вектор строки, содержащий имена файлов CEL.

CDFFile

Любое из следующего:

  • Вектор символов или строка, задающая имя CDF-файла.

  • ' ', который открывает диалоговое окно Select CDF File, из которого вы выбираете CDF-файл.

SeqFile

Любое из следующего:

  • Вектор символов или строка, задающая имя файла файла последовательности (разделенный от вкладки или FASTA), который содержит следующую информацию для определенного типа массива Affymetrix® GeneChip®:

    • Тестовые идентификаторы набора

    • Тестовые x-координаты

    • Тестовые y-координаты

    • Тестовые последовательности в каждом тестовом наборе

    • Тип массива Affymetrix GeneChip (только файл FASTA)

    Файл последовательности (разделенный от вкладки или FASTA) должен быть на пути поиска файлов MATLAB® или в Текущей папке (если вы не используете свойство SeqPath). В разделенном от вкладки файле каждая строка представляет зонд; в файле FASTA каждый заголовок представляет зонд.

  • N-by-25 матрица информации о последовательности, такой, как возвращено affyprobeseqread.

Seq

N-by-25 матрица информации о последовательности, такой, как возвращено affyprobeseqread.

ProbeStructure

Структура MATLAB, содержащая информацию из файлов CEL, включая тестовую интенсивность, зондирует индексы и тестовые идентификаторы набора, возвращенные функцией celintensityread.

CELPathValue

Вектор символов или строка, задающая путь и папку, где файлы, заданные в CELFiles, хранятся.

CDFPathValue

Вектор символов или строка, задающая путь и папку, где файл, заданный в CDFFile, хранится.

SeqPathValue

Вектор символов или строка, задающая папку или путь и папку, где SeqFile хранится.

ChipIndexValue

Положительное целое число, задающее чип. Информация о последовательности этого чипа и данные об интенсивности зонда несоответствия используются, чтобы вычислить тестовое сродство. Значением по умолчанию является 1.

OpticalCorrValue

Управляет использованием оптического фонового исправления на входных значениях интенсивности зонда. Выбором является true (значение по умолчанию) или false.

CorrConstValue

Значение, которое задает постоянную корреляцию, ро, для логарифмической фоновой интенсивности для каждой пары зонда PM/MM. Выбором является любое значение ≥ 0 и ≤ 1. Значением по умолчанию является 0.7.

MethodValue

Вектор символов или строка, которая задает метод, чтобы оценить сигнал. Выбором является 'MLE', более быстрый, оперативный Оценочный метод Наибольшего правдоподобия, или 'EB', более медленный, более формальный, эмпирический метод Бейеса. Значением по умолчанию является 'MLE'.

TuningParamValue

Значение, которое задает настраивающийся параметр, используемый оценочным методом. Этот настраивающий параметр устанавливает нижнюю границу значений сигналов с положительной вероятностью. Выбором является положительное значение. Значением по умолчанию является 5 (MLE) или 0.5 (EB).

Совет

Для получения информации об определении установки для этого параметра смотрите Ву и др., 2004.

GSBCorrValue

Задает, выполнить ли исправление специфичной для гена привязки (GSB) с помощью тестовых данных о сродстве. Выбором является true (значение по умолчанию) или false. Если нет никакой тестовой информации о сродстве, это свойство проигнорировано.

MedianValue

Задает использование медианы оцениваемых значений вместо среднего значения для нормализации. Выбором является true или false (значение по умолчанию).

OutputValue

Задает шкалу возвращенных значений экспрессии гена. Выбор:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • @functionname

В последнем экземпляре данные преобразовываются, как задано функциональным functionname. Значением по умолчанию является 'log2'.

ShowplotValue

Управляет отображением графика, показывающего log2 несоответствия (MM) тестовые значения интенсивности от заданного чипа (файл CEL), по сравнению со сродством зонда MM того чипа. График также показывает пригодное LOWESS для вычисления данных NSB заданного чипа. Выбором является true, false или I, целое число, задающее чип. Если установлено в true, первый чип построен. Значение по умолчанию:

  • ложь Когда возвращаемые значения заданы.

  • tRUE Когда возвращаемые значения не заданы.

VerboseValue

Управляет отображением состояния чтения обработки GCRMA и файлов. Выбором является true (значение по умолчанию) или false.

Выходные аргументы

Expression

Объект DataMatrix, содержащий log2 значения экспрессии гена, которые были настроенным фоном, нормировал, и полученное в итоге использование GC Устойчивое Среднее значение Мультимассивов (GCRMA) процедура.

Каждая строка в Expression соответствует гену (тестовый набор), и каждый столбец соответствует файлу Affymetrix CEL.

Описание

Expression = affygcrma(CELFiles, CDFFile, SeqFile) читает заданные файлы Affymetrix CEL, связанный файл библиотеки CDF (созданный из массивов Affymetrix GeneChip для испытания выражения или генотипирования), и связанный файл последовательности или матрица. Это затем обрабатывает тестовые значения интенсивности с помощью фоновой корректировки GCRMA, нормализации квантиля, и процедур резюмирования средней полировки, затем возвращает Expression, объект DataMatrix, содержащий log2, основывал значения экспрессии гена в матрице, тестовые идентификаторы набора, как строка называет, и имена файлов CEL как имена столбцов. Обратите внимание на то, что каждая строка в Expression соответствует гену (тестовый набор), и каждый столбец соответствует файлу Affymetrix CEL. (Каждый файл CEL сгенерирован от отдельного чипа. Все микросхемы должны иметь тот же тип.)

CELFiles является вектором символов, строкой, вектором строки или массивом ячеек из символьных векторов, содержащим имена файлов CEL. CDFFile является вектором символов или строкой, задающей имя CDF-файла. Если вы устанавливаете CELFiles на '*', то это читает все файлы CEL в текущей папке. Если вы устанавливаете CELFiles или CDFFile к ' ', то это открывает диалоговое окно Select Files, из которого вы выбираете файлы CEL или CDF-файл. От этого диалогового окна можно нажать и содержать Ctrl или Shift при нажатии, чтобы выбрать несколько файлов CEL. SeqFile является файлом или матрицей, содержащей информацию о последовательности для зондов на определенном типе массива Affymetrix GeneChip.

Примечание

Для получения дополнительной информации на чтении файлов и обработке GCRMA, смотрите celintensityread, affyprobeseqread, affyprobeaffinities, gcrma, gcrmabackadj, quantilenorm и rmasummary.

Expression = affygcrma(ProbeStructure, Seq) использование фоновая корректировка GCRMA, нормализация квантиля и процедуры резюмирования средней полировки, чтобы обработать тестовые значения интенсивности в ProbeStructure. ProbeStructure является структурой MATLAB, содержащей информацию из файлов CEL, включая тестовую интенсивность, тестовые индексы и тестовые идентификаторы набора, возвращенные функцией celintensityread. Seq является матрицей, содержащей информацию о последовательности для зондов на определенном типе массива Affymetrix GeneChip.

Expression = affygcrma(..., 'PropertyName', PropertyValue, ...) вызывает affygcrma с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CELPath', CELPathValue, ...) задает путь и папку, где файлы, заданные CELFiles, хранятся.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'CDFPath', CDFPathValue, ...) задает путь и папку, где файл, заданный CDFFile, хранится.

Expression = affygcrma(CELFiles, CDFFile, SeqFile, ...'SeqPath', SeqPathValue, ...) задает путь и папку, где файл, заданный SeqFile, хранится.

Expression = affygcrma(..., 'ChipIndex', ChipIndexValue, ...) вычисляет тестовое сродство из данных об интенсивности зонда MM с помощью информации о последовательности и значений интенсивности зонда несоответствия от чипа, заданного ChipIndexValue. ChipIndexValue по умолчанию является 1.

Expression = affygcrma(..., 'OpticalCorr', OpticalCorrValue, ...) управляет использованием оптического фонового исправления на входных значениях интенсивности зонда. Выбором является true (значение по умолчанию) или false.

Expression = affygcrma(..., 'CorrConst', CorrConstValue, ...) задает постоянную корреляцию, ро, для фоновой интенсивности для каждой пары зонда PM/MM. Выбором является любое значение ≥ 0 и ≤ 1. Значением по умолчанию является 0.7.

Expression = affygcrma(..., 'Method', MethodValue, ...) задает метод, чтобы оценить сигнал. Выбором является 'MLE', более быстрый, оперативный Оценочный метод Наибольшего правдоподобия, или 'EB', более медленный, более формальный, эмпирический метод Бейеса. Значением по умолчанию является 'MLE'.

Expression = affygcrma(..., 'TuningParam', TuningParamValue, ...) задает настраивающийся параметр, используемый оценочным методом. Этот настраивающий параметр устанавливает нижнюю границу значений сигналов с положительной вероятностью. Выбором является положительное значение. Значением по умолчанию является 5 (MLE) или 0.5 (EB).

Совет

Для получения информации об определении установки для этого параметра смотрите Ву и др., 2004.

Expression = affygcrma(..., 'GSBCorr', GSBCorrValue, ...) задает, выполнить ли исправление специфичной для гена привязки (GSB) с помощью тестовых данных о сродстве. Выбором является true (значение по умолчанию) или false. Если нет никакой тестовой информации о сродстве, это свойство проигнорировано.

Expression = affygcrma(..., 'Median', MedianValue, ...) задает использование медианы оцениваемых значений вместо среднего значения для нормализации. Выбором является true или false (значение по умолчанию).

Expression = affygcrma(..., 'Output', OutputValue, ...) задает шкалу возвращенных значений экспрессии гена. OutputValue может быть:

  • 'log'

  • 'log2'

  • 'log10'

  • 'linear'

  • @functionname

В последнем экземпляре данные преобразовываются, как задано функциональным functionname. Значением по умолчанию является 'log2'.

Expression = affygcrma(..., 'Showplot', ShowplotValue, ...) управляет отображением графика, показывающего log2 несоответствия (MM) тестовые значения интенсивности от заданного чипа (файл CEL), по сравнению со сродством зонда MM того чипа. График также показывает пригодное LOWESS для вычисления данных NSB заданного чипа. Выбором является true, false или I, целое число, задающее чип. Если установлено в true, первый чип построен. Значение по умолчанию:

  • ложь Когда возвращаемые значения заданы.

  • tRUE Когда возвращаемые значения не заданы.

Expression = affygcrma(..., 'Verbose', VerboseValue, ...) управляет отображением состояния чтения обработки GCRMA и файлов. Выбором является true (значение по умолчанию) или false.

Примеры

Следующий пример принимает, что у вас есть файл библиотеки HG_U95Av2.CDF, хранивший в D:\Affymetrix\LibFiles\HGGenome, и что ваша текущая папка указывает на местоположение, содержащее файлы CEL и файл последовательности, сопоставленный с этим файлом библиотеки CDF. В этом примере функция affygcrma читает все файлы CEL и файл последовательности в текущей папке и CDF-файл в заданной папке. Это также выполняет фоновую корректировку GCRMA, нормализацию квантиля и процедуры резюмирования на значениях интенсивности зонда премьер-министра, и возвращает объект DataMatrix, содержа метаданные и обработанные данные.

Expression = affygcrma('*', 'HG_U95Av2.CDF','HG-U95Av2_probe_tab',...
	                    'CDFPath', 'D:\Affymetrix\LibFiles\HGGenome');

Ссылки

[1] Naef, F., и Magnasco, M.O. (2003). Решение загадки ярких несоответствий: маркировка и эффективная привязка в массивах олигонуклеотида. Физический E 68 анализа, 011906.

[2] Ву, Z., Irizarry, R.A., джентльмен, Р., Мурильо, F.M., и Спенсер, F. (2004). Основанная на модели фоновая корректировка к массивам выражения олигонуклеотида. Журнал американской статистической ассоциации 99 (468), 909–917.

[3] Ву, Z., и Irizarry, R.A. (2005). Стохастические модели, вдохновленные теорией гибридизации для коротких массивов олигонуклеотида. Продолжения RECOMB 2004. J Comput Biol. 12 (6), 882–93.

[4] Ву, Z., и Irizarry, R.A. (2005). Статистическая среда для анализа данных Тестового Уровня микромассивов. Университет Джонса Хопкинса, рабочие документы биостатистики 73.

[5] Ву, Z., и Irizarry, R.A. (2003). Основанная на модели фоновая корректировка к массивам выражения олигонуклеотида. Семинар RSS по экспрессии гена, Уаю, Англия, http://biosun01.biostat.jhsph.edu/%7Eririzarr/Talks/gctalk.pdf.

[6] Скорость, T. (2006). Фоновые модели и GCRMA. Читайте лекции 10, Статистика 246, Калифорнийский университет Беркли.

[7] Абд Рэббо, N.A., и Barakat, H.M. (1979). Проблемы оценки в двумерном логарифмически нормальном распределении. Индийский J. Чистая прикладная математика 10 (7), 815–825.

[8] Лучше всего, C.J.M., Гиллеспи, J.W., И, Y., Chandramouli, G.V.R., Perlmutter, M.A., Gathright, Y., Эриксон, H.S., Георгевич, L., Tangrea, M.A., Duray, P.H., Гонсалес, S., Веласко, A., Linehan, W.M., Matusik, R.J., Цена, D.K., Figg, W.D., Emmert-маркер, M.R., и Chuaqui, R.F. (2005). Молекулярные изменения при первичном раке простаты после терапии абляции андрогена. Клинические Исследования рака 11, 6823–6834.

[9] Irizarry, R.A., Хоббс, B., Коллин, F., Бизер-Барклай, Y.D., Antonellis, K.J., Scherf, U., скорость, T.P. (2003). Исследование, нормализация и сводные данные данных об уровне зонда олигонуклеотида высокой плотности массивов. Биостатистика. 4, 249–264.

[10] Mosteller, F. и Tukey, J. (1977). Анализ данных и Регрессия (Чтение, Массачусетс: Издательство Аддисона-Уэсли), стр 165–202.

Представленный в R2008b