affyread

Считайте данные микромассива из файла Affymetrix GeneChip

Синтаксис

AffyStruct = affyread(File)
AffyStruct = affyread(File, LibraryPath)

Описание

AffyStruct = affyread(File) читает Аффиметрикс® Файл и создает MATLAB® структура. The affyread функция может считывать файлы Affymetrix EXP, DAT, CEL, CLF, BGP, CDF и GIN, сопоставленные с Affymetrix GeneChip® массивы для экспрессии, генотипирования (SNP) или повторного секвенирования анализов. Он может читать файлы Affymetrix CHP, сопоставленные с массивами Affymetrix GeneChip, только для анализа экспрессии.

AffyStruct = affyread(File, LibraryPath) задает путь и папку файла библиотеки CDF или GIN.

Чтение многих файлов CEL и/или больших файлов CEL может потребовать увеличения объема памяти от операционной системы. Если вы получаете какие-либо ошибки, связанные с памятью или у вас возникли проблемы с чтением файлов CEL, попробуйте следующее:

Входные параметры

File

Вектор символов или строка, указывающая имя файла или путь и имя файла одного из следующих типов файлов Affymetrix, сопоставленных с массивами Affymetrix GeneChip для анализа экспрессии, генотипирования (SNP) или переупорядочивания. Однако, если имя файла предназначено для файла CHP, он должен быть связан с массивом Affymetrix GeneChip для анализа экспрессии.

  • EXP - файл данных, содержащий информацию об экспериментальных условиях и протоколах.

  • DAT - файл данных, содержащий необработанные данные изображения (значения интенсивности пикселей).

  • CEL - файл данных, содержащий информацию о значениях интенсивности отдельных зондов.

  • CHP - файл данных, содержащий сводную информацию о наборах зондов, включая значения интенсивности.

  • CLF - файл размещения камеры, который сопоставляет идентификаторы зондов с местоположением (координаты x и y) в файле CEL.

  • BGP - файл зонда фона, в котором перечислены зонды, используемые для коррекции фона.

  • CDF - Файл библиотеки, содержащий информацию о том, какие зонды относятся к какому набору зондов.

  • GIN - Файл библиотеки, содержащий информацию о наборах зондов, таких как имя гена, сопоставленное с набором зондов.

Если вы задаете только имя файла, поместите этот файл в путь поиска файлов MATLAB или в текущую папку. Если вы задаете только имя файла библиотеки CDF или GIN, можно задать путь и папку в LibraryPath входной параметр.

LibraryPath

Вектор символов или строка, задающая путь и папку a:

  • Файл библиотеки CDF, сопоставленный с File когда File является CHP- файла

  • Файл библиотеки CDF при File является CDF-файлом

  • Файл библиотеки GIN при File является GIN- файла

Примечание

Если вы не задаете LibraryPath при чтении файла CHP, affyread ищет в текущей папке CDF-файл. Если он не находит CDF-файла, он все еще читает файл CHP. Однако он опускает имена и типы наборов зондов из возврата значения AffyStruct.

Выходные аргументы

AffyStruct

Структура MATLAB, содержащая информацию из файла данных или библиотеки Affymetrix, для экспрессии, генотипирования (SNP) или типов анализа повторного эквенирования.

Следующие таблицы описывают поля в AffyStruct для различных типов файлов Affymetrix.

EXP, DAT, CEL, CHP, CLF, BGP, CDF и GIN Файлов

ОбластьОписание
Name

Имя файла.

DataPath

Путь и папка файла.

LibPath

Путь и папка файлов библиотеки CDF и GIN, сопоставленных с файлом, который вы читаете.

FullPathName

Путь и папка файла.

ChipType

Имя массива Affymetrix GeneChip (для примера, DrosGenome1 или HG-Focus).

Date или CreateDate

Дата создания файла.

Файл EXP

ОбластьОписание
ChipLot
Operator
SampleType
SampleDesc
Project
Comments
Reagents
ReagentLot
Protocol
Station
Module
HybridizeDate
ScanPixelSize
ScanFilter
ScanDate
ScannerID
NumberOfScans
ScannerType
NumProtocolSteps
ProtocolSteps

Информация об экспериментальных условиях и протоколах, захваченных программным обеспечением Affymetrix.

Файл DAT

ОбластьОписание
NumPixelsPerRowКоличество пикселей в строке изображения, созданного из массива GeneChip (количество столбцов).
NumRowsКоличество строк в изображении, созданном из массива GeneChip.
MinDataМинимальное значение интенсивности в изображении, созданном из массива GeneChip.
MaxDataМаксимальное значение интенсивности в изображении, созданном из массива GeneChip.
PixelSizeРазмер одного пикселя в изображении, созданном из массива GeneChip.
CellMarginРазмер погрешностей между камерами в изображении, созданном из массива GeneChip.
ScanSpeedСкорость сканера, используемого для создания изображения.
ScanDateДата выполнения скана.
ScannerIDИмя используемого сканирующего устройства.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ServerNameНе используется.
ImageA NumRows-by- NumPixelsPerRow изображение сканированного массива GeneChip.

Файл CEL

ОбластьОписание
FileVersionВерсия формата файла CEL.
AlgorithmАлгоритм, используемый в шаге обработки изображений, который преобразует из формата DAT в формат CEL.
AlgParamsВектор символов, содержащий параметры, используемые алгоритмом на шаге обработки изображений.
NumAlgParamsКоличество параметров в AlgParams.
CellMarginРазмер погрешностей между камерами в изображении, созданном из массива GeneChip, используемого для вычисления значений интенсивности камер.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumMaskedКоличество маскированных зондов, которые не используются в последующей обработке.
NumOutliersКоличество камер, идентифицированных как выбросы (чрезвычайно высокая или чрезвычайно низкая интенсивность) на этапе обработки изображений.
NumProbesКоличество зондов (Rows * Cols) в массиве GeneChip.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ProbeColumnNames

Массив ячеек, содержащий восемь имен столбцов в Probes поле:

  • PosX - x-координата камеры

  • PosY - y-координата камеры

  • Intensity - Значение интенсивности камеры

  • StdDev - Стандартное отклонение значения интенсивности

  • Pixels - Количество пикселей в камере

  • Outlier - флаг True/false, указывающий, была ли ячейка помечена как выбросы

  • Masked - Флаг true/false, указывающий, была ли ячейка маскирована

  • ProbeType - Целое число, указывающее тип зонда (например 1 = выражение)

ProbesNumProbes-by-8 массив информации об отдельных зондах, включая значения интенсивности. The ProbeColumnNames поле содержит имена столбцов этого массива.

ТЭЦ Файла

ОбластьОписание
AssayTypeТип анализа, связанный с массивом GeneChip (для примера, экспрессии, генотипирования или ресеквенирования).
CellFileИмя файла CEL, из которого был создан файл CHP.
AlgorithmАлгоритм для преобразования из формата CEL в формат CHP.
AlgVersionВерсия алгоритма, используемая для создания файла CHP.
NumAlgParamsКоличество параметров в AlgParams.
AlgParamsВектор символов, содержащий параметры, используемые в шагах, необходимых для создания файла CHP (для примера, коррекции фона).
NumChipSummaryКоличество записей в ChipSummary.
ChipSummaryСводная информация для массива GeneChip, включая фоновое среднее значение, стандартное отклонение, макс и мин.
BackgroundZonesСтруктура, содержащая информацию о зонах, используемых на шаге корректировки фона.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumProbeSetsКоличество наборов зондов в массиве GeneChip.
NumQCProbeSets

Количество наборов зондов контроля качества в массиве GeneChip.

ProbeSets

(Массив экспрессии GeneChip)

NumProbeSets-by-1 массива структур, содержащий информацию для каждого набора экспрессионных зондов, включая следующие поля:

  • Name - Имя комплекта зондов.

  • ProbeSetType - Тип набора зондов.

  • CompDataExists - флаг True/false, указывающий, имеет ли набор зондов дополнительную вычисленную информацию.

  • NumPairs - Количество пар зондов в наборе зондов.

  • NumPairsUsed - Количество пар зондов в наборе зондов, используемом для вычисления сигнала набора зондов (не маскирован).

  • Signal - Суммарное значение интенсивности для набора зондов.

  • Detection - Индикатор статистически значимого различия между значением интенсивности зондов PM и значением интенсивности зондов MM в одном наборе зондов (Present, Absent, или Marginal).

  • DetectionPValue - P-значение для Detection индикатор.

  • CommonPairs - Когда CompDataExists является true, содержит количество общих пар между экспериментом и базовой линией после удаления выбросов и маскированных зондов.

  • SignalLogRatio - Когда CompDataExists является true, содержит изменение сигнала между экспериментом и базовой линией.

  • SignalLogRatioLow - Когда CompDataExists является true, содержит самые низкие отношения зондов между экспериментом и базовым уровнем.

  • SignalLogRatioHigh - Когда CompDataExists является true, содержит самые высокие отношения зондов между экспериментом и базовым уровнем.

  • Change - Когда CompDataExists является true, описывает, как зонд изменяется по сравнению с базовым экспериментом. Варианты Increase, Marginal Increase, No Change, Decrease, или Marginal Decrease.

  • ChangePValue - Когда CompDataExists является true, содержит p-значение, сопоставленное с Change.

ProbeSets

(Генотипирование массива GeneChip)

NumProbeSets-by-1 массива структур, содержащий информацию для каждого набора зондов генотипирования, включая следующие поля:

  • Name - Имя комплекта зондов.

  • AlleleCall - Аллель, который присутствует для набора зондов. Возможности AA (гомозиготный для основного аллеля), AB (гетерозиготный для основного и незначительного аллеля), BB (гомозиготный для незначительного аллеля), или NoCall (не может определить аллель).

  • Confidence - Измерение точности вызова аллеля.

  • RAS1 - Относительный сигнал Аллеля 1 для сайта SNP, который вычисляется с помощью датчиков.

  • RAS2- Относительный сигнал аллеля 2 для участка SNP, который вычисляется с помощью антисмысловых зондов.

  • PValueAA - p-значение для AA вызов.

  • PValueAB - p-значение для AB вызов.

  • PValueBB - p-значение для BB вызов.

  • PValueNoCall - p-значение для NoCall вызов.

ProbeSets

(Переупорядочение массива GeneChip)

NumProbeSets-by-1 массив структур, содержащий информацию для каждого набора зондов пересеквенирования, включая следующие поля:

  • CalledBases - 1-by- NumProbeSets вектор символов, содержащий основы, вызываемые алгоритмом пересеквенирования. Возможные значения a, c, g, t, и n.

  • Scores - 1-by- NumProbeSets массив, содержащий счет, сопоставленный с каждым базовым вызовом.

Файл CLF

ОбластьОписание
LibSetName

Имя набора связанных библиотечных файлов для данного чипа. Есть только один LibSetName для файла CLF. Для примера PGF и CLF файлов предназначенные для совместного использования, должны иметь одинаковые LibSetName.

LibSetVersion

Версия набора связанных библиотечных файлов для данного чипа. Есть только один LibSetVersion для файла CLF. Для примера PGF и CLF файлов предназначенные для совместного использования, должны иметь одинаковые LibSetVersion.

GUID

Уникальный идентификатор файла CLF.

CLFFormatVersion

Версия формата файла CLF.

Rows

Количество строк в файле CEL.

Примечание

Файл CLF является базовым 1, что означает, что первая строка и столбец обозначаются как 1,1, а не как 0,0.

Cols

Количество столбцов в файле CEL.

Примечание

Файл CLF является базовым 1, что означает, что первая строка и столбец обозначаются как 1,1, а не как 0,0.

StartID

Начальный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не начинается с 1.

EndID

Конечный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не начинается с 1 и/или есть погрешности в нумерации.

Order

Порядок, в котором идентификаторы зондов пронумерованы в файле CEL, либо 'row_major' или 'col_major'.

DataColNames

Имена столбцов файла CEL, содержащих данные.

Data

Если нумерация элементов в файле CLF является последовательной, это поле содержит указатель на функцию, который вычисляет координаты x и y каждого элемента в файле из идентификатора зонда.

Если нумерация элементов в файле CLF не является последовательной, это поле содержит матрицу, указывающую значение числа каждого элемента в файле.

Файл BGP

ОбластьОписание
LibSetName

Имя набора связанных библиотечных файлов для данного чипа. Есть только один LibSetName для файла BGP.

LibSetVersion

Версия набора связанных библиотечных файлов для данного чипа. Есть только один LibSetVersion для файла BGP.

GUID

Уникальный идентификатор для файла BGP.

ExecGUID

Информация об алгоритме, используемом для генерации файла BGP.

ExecVersion
Cmd
Data

Структура, содержащая следующие поля:

  • probe_id - идентификатор зонда, используемого для коррекции фона.

  • probeset_id - идентификатор набора зондов в файле PGF, к которому принадлежит зонд.

  • type - Классификационная информация для зонда.

  • gc_count - Совокупное число основ G и C в зонде.

  • probe_length- Длина зонда в парах оснований.

  • interrogation_position - Положение допроса зонда. Обычно это 13 для 25-мерных зондов PM/MM.

  • probe_sequence - Последовательность зонда на массиве, идущая в направлении от поверхности массива к решению. Для большинства стандартных массивов Affymetrix это направление от 3 'до 5'. Для примера, для чувствительного целевого (st) зонда (см. probe_type ), дополните последовательность в этом поле, прежде чем искать совпадения с последовательностями транскрипции. Для антисмысловой цели (в) измените эту последовательность на противоположную.

  • atom_id - идентификатор атома, которому принадлежит зонд.

  • x - Координата столбца зонда в файле CEL.

  • y - Координата строки зонда в файле CEL.

  • probeset_type - Классификационная информация для набора зондов, таких как управление, аффкс или спайк. Эта информация о типах может включать несколько классификаций и также может быть вложенной.

  • probe_type - Классификационная информация для зонда, такая как pm (идеальное соответствие), мм (несоответствие), st (смысловая цель) или в (антисмысловая цель). Эта информация о типах может включать несколько классификаций и также может быть вложенной.

CDF-файл

ОбластьОписание
Rows

Количество строк зондов.

Cols

Количество столбцов зондов.

NumProbeSets

Количество наборов зондов в массиве GeneChip.

NumQCProbeSets

Количество наборов зондов контроля качества в массиве GeneChip.

ProbeSetColumnNames

Массив ячеек, содержащий шесть имен столбцов в ProbePairs поле в ProbeSets массив:

  • GroupNumber - Номер, идентифицирующий группу, к которой принадлежит пара зондов. Для массивов выражений это значение всегда 1. Для массивов генотипирования это значение обычно 1 (аллель A, смысл), 2 (аллель B, sense), 3 (аллель A, антисмысловый) или 4 (аллель B, антисмысловый).

  • Direction - Номер, идентифицирующий направление пары зондов. 1 = смысл и 2 = антисмысловый.

  • PMPosX - x-координата идеального совпадающего зонда.

  • PMPosY - y-координата идеального совпадающего зонда.

  • MMPosX - x-координата зонда несоответствия.

  • MMPosY - y-координата зонда несоответствия.

ProbeSets

NumProbeSets-by-1 массив структур, содержащий информацию для каждого набора зондов, включая следующие поля:

  • Name - Имя комплекта зондов.

  • ProbeSetType - Тип набора зондов.

  • CompDataExists - флаг True/false, указывающий, имеет ли набор зондов дополнительную вычисленную информацию.

  • NumPairs - Количество пар зондов в наборе зондов.

  • NumQCProbes - Количество зондов контроля качества в наборе зондов.

  • QCType - Тип зондов контроля качества.

  • GroupNames - имя группы, к которой принадлежит набор зондов. Для массивов выражений это поле содержит имя набора зондов. Для массивов генотипирования это поле содержит имя аллелей, например {'A' 'C' 'A' 'C'}'.

  • ProbePairsNumPairs-by-6 массив информации о парах зондов. Имена столбцов этого массива содержатся в ProbeSetColumnNames поле.

Файл GIN

ОбластьОписание
Version

Версия файла.

ProbeSetName

Идентификатор/имя набора зондов.

ID

Идентификатор набора зондов (идентификатор гена).

Description

Описание набора зондов.

SourceNames

Источник или источники наборов зондов.

SourceURL

Исходный URL-адрес или URL-адрес для наборов зондов.

SourceID

Вектор чисел, определяющий какие SourceNames или SourceURL каждый набор зондов связан с.

Примеры

свернуть все

В этом примере показано, как считать и визуализировать данные микромассивов из файла Affymetrix ® GeneChip ®.

Этот пример использует выборочные данные из массива генома E. coli Antisense. Загрузите данные из Demo_Data_E-coli-antisense.zip. Извлеките файлы данных из архива DTT с помощью Data Transfer Tool.

Вам также нужно скачать Ecoli_ASv2.CDF и Ecoli_ASv2.GIN файлы библиотеки для массива генома E. coli Antisense. Возможно, у вас уже есть эти файлы, если на вашем компьютере установлено программное обеспечение Affymetrix GeneChip. Если нет, получите файлы библиотеки, загрузив и разархивировав zip-файл E. coli Antisense Genome Array.

Чтение содержимого файла CEL в структуру MATLAB.

celStruct = affyread('Ecoli-antisense-121502.CEL');

Отобразите пространственный график интенсивности зонда.

maimage(celStruct, 'Intensity')

Изменение масштаба определенной области графика.

axis([200 340 0 70])

Чтение содержимого файла DAT в структуру MATLAB. Отобразите необработанные данные изображения, а затем используйте axis image команда для установки правильного соотношения сторон.

datStruct = affyread('Ecoli-antisense-121502.dat');
imagesc(datStruct.Image)
axis image

Изменение масштаба определенной области графика.

axis([1900 2800 160 650])

Чтение содержимого файла CHP в структуру MATLAB с указанием местоположения связанного файла библиотеки CDF. Затем извлеките информацию для набора зондов 3315278.

chpStruct = affyread('Ecoli-antisense-121502.chp','C:\LibFiles\');
geneName = probesetlookup(chpStruct,'3315278')
geneName = 

  struct with fields:

      Identifier: '3315278'
    ProbeSetName: 'argG_b3172_at'
        CDFIndex: 5213
        GINIndex: 3074
     Description: '/start=3316278 /end=3317621 /direction=+ /description=argininosuccinate synthetase'
          Source: 'NCBI EColi Genome'
       SourceURL: 'http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/altvik?gi=115&db=g&from=3315278'

Представлено до R2006a