exponenta event banner

affyread

Считывание данных микрочипов из файла Affymetrix GeneChip

Синтаксис

AffyStruct = affyread(File)
AffyStruct = affyread(File, LibraryPath)

Описание

AffyStruct = affyread(File) считывает файл Affymetrix ® и создает структуру MATLAB ®. affyread функция может считывать файлы Affymetrix EXP, DAT, CEL, CLF, BGP, CDF и GIN, связанные с массивами Affymetrix GeneChip ®, для анализа экспрессии, генотипирования (SNP) или переупорядочивания. Он может читать файлы Affymetrix CHP, связанные с массивами Affymetrix GeneChip, только для анализа экспрессии.

AffyStruct = affyread(File, LibraryPath) указывает путь и папку файла библиотеки CDF или GIN.

Чтение многих файлов CEL и/или большого файла CEL может потребовать от операционной системы больших объемов памяти. Если возникают ошибки, связанные с памятью, или при чтении файлов CEL возникают проблемы, попробуйте выполнить следующие действия:

Входные аргументы

File

Символьный вектор или строка, указывающая имя файла или путь и имя файла одного из следующих типов файлов Affymetrix, связанных с массивами Affymetrix GeneChip для выражения, генотипирования (SNP) или повторного упорядочения анализов. Однако, если имя файла предназначено для CHP-файла, он должен быть связан с массивом Affymetrix GeneChip для анализа экспрессии.

  • EXP - файл данных, содержащий информацию об экспериментальных условиях и протоколах.

  • DAT - файл данных, содержащий необработанные данные изображения (значения интенсивности пикселей).

  • CEL - файл данных, содержащий информацию о значениях интенсивности отдельных зондов.

  • CHP - файл данных, содержащий сводную информацию о наборах зондов, включая значения интенсивности.

  • CLF - файл компоновки ячеек, который сопоставляет идентификаторы зондов с местоположением (координатами x и y) в файле CEL.

  • BGP - файл фоновых зондов, в котором перечислены зонды, используемые для фоновой коррекции.

  • CDF - файл библиотеки, содержащий информацию о том, какие зонды принадлежат какому набору зондов.

  • GIN - файл библиотеки, содержащий информацию о наборах зондов, например, имя гена, связанного с набором зондов.

Если указано только имя файла, поместите его в путь поиска MATLAB или в текущую папку. Если указано только имя файла библиотеки CDF или GIN, можно указать путь и папку в LibraryPath входной аргумент.

LibraryPath

Символьный вектор или строка, указывающая путь и папку:

  • Файл библиотеки CDF, связанный с File когда File является файлом CHP

  • Файл библиотеки CDF при File является файлом CDF

  • Файл библиотеки GIN при File является файлом GIN

Примечание

Если не указать LibraryPath при чтении файла CHP, affyread выполняет поиск файла CDF в текущей папке. Если файл CDF не найден, он по-прежнему считывает файл CHP. Однако имена и типы наборов зондов опущены из возвращаемого значения. AffyStruct.

Выходные аргументы

AffyStruct

Структура MATLAB содержит информацию из файла данных или библиотеки Affymetrix для экспрессии, генотипирования (SNP) или переупорядочивания типов анализа.

Следующие таблицы описывают поля в AffyStruct для различных типов файлов Affymetrix.

Файлы EXP, DAT, CEL, CHP, CLF, BGP, CDF и GIN

ОбластьОписание
Name

Имя файла.

DataPath

Путь и папка файла.

LibPath

Путь и папка файлов библиотеки CDF и GIN, связанных с читаемым файлом.

FullPathName

Путь и папка файла.

ChipType

Имя массива Affymetrix GeneChip (например, DrosGenome1 или HG-Focus).

Date или CreateDate

Дата создания файла.

EXP-файл

ОбластьОписание
ChipLot
Operator
SampleType
SampleDesc
Project
Comments
Reagents
ReagentLot
Protocol
Station
Module
HybridizeDate
ScanPixelSize
ScanFilter
ScanDate
ScannerID
NumberOfScans
ScannerType
NumProtocolSteps
ProtocolSteps

Информация об экспериментальных условиях и протоколах, захваченных программным обеспечением Affymetrix.

Файл DAT

ОбластьОписание
NumPixelsPerRowКоличество пикселей в строке изображения, созданного из массива GeneChip (количество столбцов).
NumRowsКоличество строк в образе, созданном из массива GeneChip.
MinDataМинимальное значение интенсивности в изображении, созданном из массива GeneChip.
MaxDataМаксимальное значение интенсивности в изображении, созданном из массива GeneChip.
PixelSizeРазмер одного пикселя в изображении, созданном из массива GeneChip.
CellMarginРазмер промежутков между клетками в изображении, созданном из массива GeneChip.
ScanSpeedСкорость сканера, используемого для создания изображения.
ScanDateДата выполнения сканирования.
ScannerIDИмя используемого устройства сканирования.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты сканированного изображения.
ServerNameНе используется.
ImageA NumRowsоколо-NumPixelsPerRow изображение сканированного массива GeneChip.

CEL-файл

ОбластьОписание
FileVersionВерсия формата файла CEL.
AlgorithmАлгоритм, используемый на этапе обработки изображения, который преобразуется из формата DAT в формат CEL.
AlgParamsСимвольный вектор, содержащий параметры, используемые алгоритмом на этапе обработки изображения.
NumAlgParamsКоличество параметров в AlgParams.
CellMarginРазмер промежутков между клетками в изображении, созданном из массива GeneChip, используемого для вычисления значений интенсивности клеток.
RowsКоличество рядов зондов.
ColsКоличество столбцов зондов.
NumMaskedКоличество зондов в масках, которые не используются при последующей обработке.
NumOutliersКоличество ячеек, идентифицированных как отклонения (чрезвычайно высокая или чрезвычайно низкая интенсивность) на этапе обработки изображения.
NumProbesКоличество зондов (Rows * Cols) на массиве GeneChip.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты сканированного изображения.
ProbeColumnNames

Массив ячеек, содержащий восемь имен столбцов в Probes поле:

  • PosX - координата x ячейки

  • PosY - координата y ячейки

  • Intensity - Значение интенсивности ячейки

  • StdDev - Стандартное отклонение значения интенсивности

  • Pixels - Количество пикселей в ячейке

  • Outlier - Флаг true/false, указывающий, была ли ячейка помечена как отклонение

  • Masked - Флаг True/False, указывающий, была ли ячейка замаскирована

  • ProbeType - Целое число, указывающее тип зонда (например, 1 = выражение)

ProbesNumProbes-на-8 массив информации об отдельных зондах, включая значения интенсивности. ProbeColumnNames содержит имена столбцов этого массива.

Файл CHP

ОбластьОписание
AssayTypeТип анализа, связанного с массивом GeneChip (например, экспрессия, генотипирование или повторное упорядочение).
CellFileИмя файла CEL, из которого был создан файл CHP.
AlgorithmАлгоритм, используемый для преобразования из формата CEL в формат CHP.
AlgVersionВерсия алгоритма, используемого для создания CHP-файла.
NumAlgParamsКоличество параметров в AlgParams.
AlgParamsСимвольный вектор, содержащий параметры, используемые в шагах, необходимых для создания CHP-файла (например, фоновая коррекция).
NumChipSummaryКоличество записей в ChipSummary.
ChipSummaryСводная информация для массива GeneChip, включая среднее фоновое значение, стандартное отклонение, макс. и мин.
BackgroundZonesСтруктура, содержащая информацию о зонах, используемых на шаге корректировки фона.
RowsКоличество рядов зондов.
ColsКоличество столбцов зондов.
NumProbeSetsКоличество наборов зондов в массиве GeneChip.
NumQCProbeSets

Количество наборов зондов КК в массиве GeneChip.

ProbeSets

(массив Expression GeneChip)

NumProbeSets-by-1 структурный массив, содержащий информацию для каждого набора зондов выражений, включая следующие поля:

  • Name - Наименование комплекта зондов.

  • ProbeSetType - Тип комплекта зондов.

  • CompDataExists - Флаг True/False, указывающий, имеет ли набор зондов дополнительную вычисленную информацию.

  • NumPairs - количество пар зондов в наборе зондов.

  • NumPairsUsed - количество пар зондов в наборе зондов, используемых для вычисления сигнала набора зондов (не маскируется).

  • Signal - Суммарное значение интенсивности для набора зондов.

  • Detection - Индикатор статистически значимой разницы между значением интенсивности зондов ТЧ и значением интенсивности зондов ММ в единственном наборе зондов (Present, Absent, или Marginal).

  • DetectionPValue - P-значение для Detection индикатор.

  • CommonPairs - Когда CompDataExists является true, содержит количество общих пар между экспериментом и базовой линией после удаления отклонений и замаскированных зондов.

  • SignalLogRatio - Когда CompDataExists является true, содержит изменение сигнала между экспериментом и базовой линией.

  • SignalLogRatioLow - Когда CompDataExists является true, содержит самые низкие соотношения зондов между экспериментом и базовой линией.

  • SignalLogRatioHigh - Когда CompDataExists является true, содержит самые высокие соотношения зондов между экспериментом и базовой линией.

  • Change - Когда CompDataExists является trueописывает, как зонд изменяется по сравнению с базовым экспериментом. Варианты: Increase, Marginal Increase, No Change, Decrease, или Marginal Decrease.

  • ChangePValue - Когда CompDataExists является true, содержит значение p, связанное с Change.

ProbeSets

(Массив GeneChip для генотипирования)

NumProbeSets-by-1 структурный массив, содержащий информацию для каждого набора зондов генотипирования, включая следующие поля:

  • Name - Наименование комплекта зондов.

  • AlleleCall - Аллель, который присутствует для набора зондов. Возможности: AA (гомозиготный для основного аллеля), AB (гетерозиготный для основного и минорного аллеля), BB (гомозиготный для минорного аллеля), или NoCall (не может определить аллель).

  • Confidence - Измерение точности вызова аллеля.

  • RAS1 - Относительный аллельный сигнал 1 для участка SNP, который рассчитывается с использованием зондов.

  • RAS2- Относительный аллельный сигнал 2 для участка SNP, который рассчитывается с использованием антисмысловых зондов.

  • PValueAA - p-значение для AA звоните.

  • PValueAB - p-значение для AB звоните.

  • PValueBB - p-значение для BB звоните.

  • PValueNoCall - p-значение для NoCall звоните.

ProbeSets

(Изменение последовательности массива GeneChip)

NumProbeSets-by-1 структурный массив, содержащий информацию для каждого набора зондов переупорядочивания, включая следующие поля:

  • CalledBases - 1-by-NumProbeSets символьный вектор, содержащий базы, вызываемые алгоритмом переупорядочивания. Возможные значения: a, c, g, t, и n.

  • Scores - 1-by-NumProbeSets массив, содержащий оценку, связанную с каждым базовым вызовом.

CLF-файл

ОбластьОписание
LibSetName

Имя коллекции связанных файлов библиотеки для данной микросхемы. Есть только один LibSetName для файла CLF. Например, файлы PGF и CLF, предназначенные для совместного использования, должны иметь одно и то же LibSetName.

LibSetVersion

Версия коллекции связанных библиотечных файлов для данной микросхемы. Есть только один LibSetVersion для файла CLF. Например, файлы PGF и CLF, предназначенные для совместного использования, должны иметь одно и то же LibSetVersion.

GUID

Уникальный идентификатор CLF-файла.

CLFFormatVersion

Версия формата файла CLF.

Rows

Количество строк в CEL-файле.

Примечание

CLF-файл имеет значение 1 base, что означает, что первая строка и столбец обозначены как 1,1, а не 0,0.

Cols

Количество столбцов в CEL-файле.

Примечание

CLF-файл имеет значение 1 base, что означает, что первая строка и столбец обозначены как 1,1, а не 0,0.

StartID

Начальный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, если нумерация не начинается с 1.

EndID

Конечный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, если нумерация не начинается с 1 и/или в нумерации имеются пробелы.

Order

Порядок нумерации идентификаторов зондов в файле CEL: 'row_major' или 'col_major'.

DataColNames

Имена столбцов в CEL-файле, содержащих данные.

Data

Если нумерация элементов в CLF-файле является последовательной, это поле содержит дескриптор функции, который вычисляет координаты x и y каждого элемента в файле по идентификатору зонда.

Если нумерация элементов в CLF-файле не является последовательной, это поле содержит матрицу, указывающую числовое значение каждого элемента в файле.

Файл BGP

ОбластьОписание
LibSetName

Имя коллекции связанных файлов библиотеки для данной микросхемы. Есть только один LibSetName для файла BGP.

LibSetVersion

Версия коллекции связанных библиотечных файлов для данной микросхемы. Есть только один LibSetVersion для файла BGP.

GUID

Уникальный идентификатор файла BGP.

ExecGUID

Информация об алгоритме, используемом для создания файла BGP.

ExecVersion
Cmd
Data

Структура, содержащая следующие поля:

  • probe_id - идентификатор зонда, используемого для фоновой коррекции.

  • probeset_id - идентификатор набора зондов в файле PGF, к которому принадлежит зонд.

  • type - классификационная информация для зонда.

  • gc_count - Суммарное количество оснований G и C в зонде.

  • probe_length- длина зонда в парах оснований.

  • interrogation_position - Позиция опроса зонда. Обычно он 13 для 25-мерных PM/MM зондов.

  • probe_sequence - Последовательность зонда на массиве, идущая в направлении от поверхности массива к решению. Для большинства стандартных массивов Affymetrix это направление составляет от 3 'до 5'. Например, для зонда sense target (st) (см. probe_type ), дополняют последовательность в этом поле перед поиском совпадений для транскрипции последовательностей. Для антисмысловой мишени (at) измените эту последовательность на обратную.

  • atom_id - идентификатор атома, которому принадлежит зонд.

  • x - Координата столбца зонда в файле CEL.

  • y - Координата строки зонда в файле CEL.

  • probeset_type - классификационная информация для набора зондов, например, для контроля, affx или spike. Эта информация о типе может включать в себя несколько классификаций, а также может быть вложенной.

  • probe_type - классификационная информация для зонда, такая как pm (идеальное совпадение), mm (несоответствие), st (сенсорная мишень) или at (антисмысловая мишень). Эта информация о типе может включать в себя несколько классификаций, а также может быть вложенной.

Файл CDF

ОбластьОписание
Rows

Количество рядов зондов.

Cols

Количество столбцов зондов.

NumProbeSets

Количество наборов зондов в массиве GeneChip.

NumQCProbeSets

Количество наборов зондов КК в массиве GeneChip.

ProbeSetColumnNames

Массив ячеек, содержащий шесть имен столбцов в ProbePairs в поле ProbeSets массив:

  • GroupNumber - Номер, идентифицирующий группу, к которой относится пара зондов. Для массивов выражений это значение всегда 1. Для массивов генотипирования это значение обычно 1 (аллель А, смысл), 2 (аллель B, смысл), 3 (аллель А, антисмысловой), или 4 (аллель В, антисмысловой).

  • Direction - Номер, определяющий направление пары зондов. 1 = sense и 2 = антисмысловой.

  • PMPosX - x-координата идеального зонда соответствия.

  • PMPosY - координата y идеального зонда соответствия.

  • MMPosX - координата x датчика рассогласования.

  • MMPosY - координата y датчика рассогласования.

ProbeSets

NumProbeSets-by-1 структурный массив, содержащий информацию для каждого набора зондов, включая следующие поля:

  • Name - Наименование комплекта зондов.

  • ProbeSetType - Тип комплекта зондов.

  • CompDataExists - Флаг True/False, указывающий, имеет ли набор зондов дополнительную вычисленную информацию.

  • NumPairs - количество пар зондов в наборе зондов.

  • NumQCProbes - количество зондов КК в комплекте зондов.

  • QCType - Тип зондов КК.

  • GroupNames - имя группы, к которой принадлежит набор зондов. Для массивов выражений это поле содержит имя набора зондов. Для массивов генотипирования это поле содержит имя аллелей, например {'A' 'C' 'A' 'C'}'.

  • ProbePairsNumPairs-на-6 массив информации о парах зондов. Имена столбцов этого массива содержатся в ProbeSetColumnNames поле.

Файл GIN

ОбластьОписание
Version

Версия формата файла GIN.

ProbeSetName

Идентификатор/имя набора зондов.

ID

Идентификатор набора зондов (идентификатор гена).

Description

Описание комплекта зондов.

SourceNames

Источник или источники наборов зондов.

SourceURL

Исходный URL-адрес или URL-адрес для наборов зондов.

SourceID

Вектор чисел, указывающий, SourceNames или SourceURL каждый набор зондов связан с.

Примеры

свернуть все

В этом примере показано, как считывать и визуализировать данные микрочипов из файла Affymetrix ® GeneChip ®.

В этом примере используются данные образца из антисмыслового массива генома E. coli. Загрузите данные из Demo_Data_E-coli-antisense.zip. Извлеките файлы данных из архива DTT с помощью инструмента передачи данных.

Также необходимо загрузить Ecoli_ASv2.CDF и Ecoli_ASv2.GIN, файлы библиотеки для массива генома E.coli Antisense. У вас уже могут быть эти файлы, если на вашем компьютере установлено какое-либо программное обеспечение Affymetrix GeneChip. Если нет, получите файлы библиотеки, загрузив и распаковав zip-файл E.coli Antisense Genome Array.

Считывание содержимого CEL-файла в структуру MATLAB.

celStruct = affyread('Ecoli-antisense-121502.CEL');

Отображение пространственного графика интенсивностей зонда.

maimage(celStruct, 'Intensity')

Увеличьте изображение определенной области графика.

axis([200 340 0 70])

Считывание содержимого файла DAT в структуру MATLAB. Отображение необработанных данных изображения, а затем использование axis image для установки правильного соотношения сторон.

datStruct = affyread('Ecoli-antisense-121502.dat');
imagesc(datStruct.Image)
axis image

Увеличьте изображение определенной области графика.

axis([1900 2800 160 650])

Считывайте содержимое CHP-файла в структуру MATLAB, указывая местоположение связанного файла библиотеки CDF. Затем извлекают информацию для набора зондов 3315278.

chpStruct = affyread('Ecoli-antisense-121502.chp','C:\LibFiles\');
geneName = probesetlookup(chpStruct,'3315278')
geneName = 

  struct with fields:

      Identifier: '3315278'
    ProbeSetName: 'argG_b3172_at'
        CDFIndex: 5213
        GINIndex: 3074
     Description: '/start=3316278 /end=3317621 /direction=+ /description=argininosuccinate synthetase'
          Source: 'NCBI EColi Genome'
       SourceURL: 'http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/altvik?gi=115&db=g&from=3315278'

Представлен до R2006a