affyread

Считайте микроданные массива из файла Affymetrix GeneChip

Синтаксис

AffyStruct = affyread(File)
AffyStruct = affyread(File, LibraryPath)

Описание

AffyStruct = affyread(File) читает файл Affymetrix® и создает структуру MATLAB®. affyread функция может считать Affymetrix EXP, DAT, CEL, CLF, BGP, CDF и файлы GIN, сопоставленные с массивами Affymetrix GeneChip® для выражения, генотипирования (SNP) или повторно упорядочивающее испытание. Это может читать, файлы CHP Affymetrix, сопоставленные с массивами Affymetrix GeneChip для выражения, оценивает только.

AffyStruct = affyread(File, LibraryPath) задает путь и папку файла библиотеки CDF или GIN.

Чтение многих файлов CEL и/или большого файла CEL может потребовать расширенных объемов памяти от операционной системы. Если вы получаете какие-либо ошибки, связанные с памятью, или испытываете затруднения при чтении файлов CEL, попробуйте следующее:

Входные параметры

File

Вектор символов или строка, задающая имя файла или путь и имя файла одних из следующих типов файлов Affymetrix, сопоставленных с массивами Affymetrix GeneChip для выражения, генотипирования (SNP), или повторно упорядочивающая испытание. Однако, если имя файла для файла CHP, оно должно быть сопоставлено с массивом Affymetrix GeneChip для испытания выражения.

  • Exp Файл данных, содержащий информацию об экспериментальных условиях и протоколах.

  • DAT — Файл данных, содержащий необработанные данные изображения (значения интенсивности пикселей).

  • CEL — Файл данных, содержащий информацию о значениях интенсивности отдельных зондов.

  • CHP — Файл данных, содержащий итоговую информацию тестовых наборов, включая значения интенсивности.

  • Clf Файл размещения ячейки, который сопоставляет тестовые идентификаторы с местоположением (x-и y-координаты) в файле CEL.

  • BGP — Фоновый файл зонда, который перечисляет зонды, чтобы использовать для фоновой коррекции.

  • CDF — Файл библиотеки, содержащий информацию, о которой принадлежат зонды, на который зонд установил.

  • GIN — Файл библиотеки, содержащий информацию о тестовых наборах, таких как название гена, сопоставлен с тестовым набором.

Если вы задаете только имя файла, помещаете тот файл на путь поиска файлов MATLAB или в текущей папке. Если вы задаете только имя файла файла библиотеки CDF или GIN, можно задать путь и папку в LibraryPath входной параметр.

LibraryPath

Вектор символов или строка, задающая путь и папку a:

  • Файл библиотеки CDF сопоставлен с File когда File файл CHP

  • Файл библиотеки CDF, когда File CDF-файл

  • Файл библиотеки GIN, когда File файл GIN

Примечание

Если вы не задаете LibraryPath при чтении файла CHP, affyread взгляды в текущей папке для CDF-файла. Если это не находит CDF-файл, это все еще читает файл CHP. Однако это не использует определенные имена зонда и типы от возвращаемого значения, AffyStruct.

Выходные аргументы

AffyStruct

Структура MATLAB, содержащая информацию из данных Affymetrix или файла библиотеки, для выражения, генотипирования (SNP), или повторно упорядочивающая типы испытания.

Следующие таблицы описывают поля в AffyStruct для различных типов файлов Affymetrix.

EXP, DAT, CEL, CHP, CLF, BGP, CDF и файлы GIN

Поле Описание
Name

FileName .

DataPath

Путь и папка файла.

LibPath

Путь и папка файлов библиотеки CDF и GIN сопоставили с файлом, который вы читаете.

FullPathName

Путь и папка файла.

ChipType

Имя массива Affymetrix GeneChip (например, DrosGenome1 или HG-особое-внимание).

Date или CreateDate

Дата создания файла.

Файл EXP

Поле Описание
ChipLot
Operator
SampleType
SampleDesc
Project
Comments
Reagents
ReagentLot
Protocol
Station
Module
HybridizeDate
ScanPixelSize
ScanFilter
ScanDate
ScannerID
NumberOfScans
ScannerType
NumProtocolSteps
ProtocolSteps

Информация об экспериментальных условиях и протоколах получена программным обеспечением Affymetrix.

Dat-файл

Поле Описание
NumPixelsPerRowКоличество пикселей на строку в изображении, созданном из массива GeneChip (количество столбцов).
NumRowsКоличество строк в изображении создается из массива GeneChip.
MinDataМинимальная стоимость интенсивности в изображении создается от массива GeneChip.
MaxDataМаксимальная стоимость интенсивности в изображении создается от массива GeneChip.
PixelSizeРазмер одного пикселя в изображении создается из массива GeneChip.
CellMarginРазмер разрывов между ячейками в изображении создается из массива GeneChip.
ScanSpeedСкорость сканера раньше создавала изображение.
ScanDateДатируйтесь скан выполнялся.
ScannerIDИмя сканирующего устройства используется.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ServerNameНе используемый.
ImageNumRows- NumPixelsPerRow изображение отсканированного массива GeneChip.

Файл CEL

Поле Описание
FileVersionВерсия формата файла CEL.
AlgorithmАлгоритм использовал на шаге обработки изображений, который преобразует от формата DAT до формата CEL.
AlgParamsВектор символов, содержащий параметры, используется алгоритмом на шаге обработки изображений.
NumAlgParamsКоличество параметров в AlgParams.
CellMarginРазмер разрывов между ячейками в изображении, созданном из массива GeneChip, используемого в вычислениях значения интенсивности ячеек.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumMaskedКоличество зондов маскированных, которые не используются в последующей обработке.
NumOutliersКоличество ячеек, идентифицированных как выбросы (чрезвычайно высокая или чрезвычайно низкая интенсивность) шагом обработки изображений.
NumProbesКоличество зондов (Rows * Cols) на массиве GeneChip.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ProbeColumnNames

Массив ячеек, содержащий эти восемь имен столбцов в Probes поле :

  • PosXx-координата ячейки

  • PosYy-координата ячейки

  • Intensity — Значение интенсивности ячейки

  • StdDev — Стандартное отклонение значения интенсивности

  • Pixels — Количество пикселей в ячейке

  • Outlier — Истинный/ложный флаг, указывающий, была ли ячейка отмечена как выброс

  • Masked — Истинный/ложный флаг, указывающий, была ли ячейка замаскирована

  • ProbeType — Целое число, указывающее на тестовый тип (например, 1 = выражение)

ProbesNumProbes- 8 массивов информации об отдельных зондах, включая значения интенсивности. ProbeColumnNames поле содержит имена столбцов этого массива.

Файл CHP

Поле Описание
AssayTypeТип испытания сопоставлен с массивом GeneChip (например, Выражение, Генотипирование, или Повторно упорядочивающий).
CellFileИмя файла файла CEL, из которого был создан файл CHP.
AlgorithmАлгоритм раньше преобразовывал от формата CEL до формата CHP.
AlgVersionВерсия алгоритма раньше создавала файл CHP.
NumAlgParamsКоличество параметров в AlgParams.
AlgParamsВектор символов, содержащий параметры, используемые на шагах, требуемых создать файл CHP (например, фоновая коррекция).
NumChipSummaryКоличество записей в ChipSummary.
ChipSummaryИтоговая информация для массива GeneChip, включая фоновое среднее значение, стандартное отклонение, макс., и min.
BackgroundZonesСтруктура, содержащая информацию о зонах, используемых в фоновом режиме шаг корректировки.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumProbeSetsКоличество тестовых наборов на массиве GeneChip.
NumQCProbeSets

Количество Qc зондирует наборы на массиве GeneChip.

ProbeSets

(Выражение массив GeneChip)

NumProbeSets- 1 массив структур, содержащий информацию для каждого набора зонда выражения, включая следующие поля:

  • Name — Имя тестового набора.

  • ProbeSetType — Тип тестового набора.

  • CompDataExists — Истинный/ложный флаг, указывающий, имеет ли тестовый набор дополнительную вычисленную информацию.

  • NumPairs — Количество тестовых пар в тестовом наборе.

  • NumPairsUsed — Количество тестовых пар в тестовом наборе, используемом для вычисления тестового сигнала набора (не замаскированный).

  • Signal — Итоговое значение интенсивности для тестового набора.

  • Detection — Индикатор статистически значимых различий между значением интенсивности зондов премьер-министра и значением интенсивности MM зондирует в одном тестовом наборе (Present, Absent, или Marginal).

  • DetectionPValue — P-значение для Detection индикатор.

  • CommonPairs — Когда CompDataExists true, содержит количество общих пар между экспериментом и базовой линией после удаления выбросов и замаскированных зондов.

  • SignalLogRatio — Когда CompDataExists true, содержит изменение в сигнале между экспериментом и базовой линией.

  • SignalLogRatioLow — Когда CompDataExists true, содержит самые низкие отношения зондов между экспериментом и базовой линией.

  • SignalLogRatioHigh — Когда CompDataExists true, содержит самые высокие отношения зондов между экспериментом и базовой линией.

  • Change — Когда CompDataExists true, описывает, как зонд изменяется по сравнению с базовым экспериментом. Выбором является Increase, Marginal Increase, No Change, Decrease, or Marginal Decrease.

  • ChangePValue — Когда CompDataExists true, содержит p-значение, сопоставленное с Change.

ProbeSets

(Генотипирование массив GeneChip)

NumProbeSets- 1 массив структур, содержащий информацию для каждого набора зонда генотипирования, включая следующие поля:

  • Name — Имя тестового набора.

  • AlleleCall — Аллель, которая присутствует для тестового набора. Возможностями является AA (гомозиготный для главной аллели), AB (гетерозиготный для главной и незначительной аллели), BB (гомозиготный для незначительной аллели), или NoCall (не мог определить аллель).

  • Confidence — Мера точности вызова аллели.

  • RAS1 — Относительный Сигнал 1 Аллели для сайта SNP, который вычисляется с помощью зондов смысла.

  • RAS2— Относительный Сигнал 2 Аллели для сайта SNP, который вычисляется с помощью зондов антисмысла.

  • PValueAA — p-значение для AA вызвать.

  • PValueAB — p-значение для AB вызвать.

  • PValueBB — p-значение для BB вызвать.

  • PValueNoCall — p-значение для NoCall вызвать.

ProbeSets

(Пересеквенирование массива GeneChip)

NumProbeSets- 1 массив структур, содержащий информацию для каждого набора зонда пересеквенирования, включая следующие поля:

  • CalledBases — 1 NumProbeSets вектор символов, содержащий базисы, вызван алгоритмом пересеквенирования. Возможными значениями является aCGT, и n.

  • Scores — 1 NumProbeSets массив, содержащий оценку, сопоставлен с каждым основным вызовом.

Файл CLF

Поле Описание
LibSetName

Имя набора связанных файлов библиотеки для данного чипа. Существует только один LibSetName для файла CLF. Например, PGF и файлы CLF, предназначенные для использования вместе, должны иметь тот же LibSetName.

LibSetVersion

Версия набора связанных файлов библиотеки для данного чипа. Существует только один LibSetVersion для файла CLF. Например, PGF и файлы CLF, предназначенные для использования вместе, должны иметь тот же LibSetVersion.

GUID

Уникальный идентификатор для файла CLF.

CLFFormatVersion

Версия формата файла CLF.

Rows

Количество строк в файле CEL.

Примечание

Файл CLF является 1 основой, что означает, что первая строка и столбец определяется 1,1, не 0,0.

Cols

Количество столбцов в файле CEL.

Примечание

Файл CLF является 1 основой, что означает, что первая строка и столбец определяется 1,1, не 0,0.

StartID

Стартовый номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не запускается с 1.

EndID

Конечный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не запускается с 1 и/или в нумерации существуют разрывы.

Order

Закажите, в котором тестовые идентификаторы пронумерованы в файле CEL, любом 'row_major' или 'col_major'.

DataColNames

Имена столбцов в файле CEL, которые содержат данные.

Data

Если нумерация элементов в файле CLF последовательна, это поле содержит указатель на функцию, который вычисляет x-и y-координаты каждого элемента в файле от тестового ID.

Если нумерация элементов в файле CLF не последовательна, это поле содержит матрицу, указывающую на числовое значение каждого элемента в файле.

Файл BGP

Поле Описание
LibSetName

Имя набора связанных файлов библиотеки для данного чипа. Существует только один LibSetName для файла BGP.

LibSetVersion

Версия набора связанных файлов библиотеки для данного чипа. Существует только один LibSetVersion для файла BGP.

GUID

Уникальный идентификатор для файла BGP.

ExecGUID

Информация об алгоритме раньше генерировала файл BGP.

ExecVersion
Cmd
Data

Структура, содержащая следующие поля:

  • probe_id — ID зонда, чтобы использовать для фоновой коррекции.

  • probeset_id — ID тестового набора в файле PGF, которому принадлежит зонд.

  • type — Информация о классификации для зонда.

  • gc_count — Объединенное количество G и C базируется в зонде.

  • probe_length— Длина зонда в парах оснований.

  • interrogation_position — Положение опроса зонда. Это обычно 13 для 25-mer зондов PM/MM.

  • probe_sequence — Последовательность зонда на массиве, входя в направление от массива появляется к решению. Для большинства стандартных массивов Affymetrix это направление от 3' к 5'. Например, для цели смысла (Св.) зонд (см. probe_type поле), дополните последовательность в этом поле перед поиском соответствий к последовательностям расшифровки стенограммы. Для цели антисмысла (в) инвертируйте эту последовательность.

  • atom_id — ID атома, которому принадлежит зонд.

  • x — Координата столбца зонда в файле CEL.

  • y — Координата строки зонда в файле CEL.

  • probeset_type — Информация о классификации для тестового набора, такого как управление, affx, или скачок. Эта информация о типе может включать несколько классификаций и может также быть вложена.

  • probe_type — Информация о классификации для зонда, такой как пополудни (идеальная пара), мм (несоответствие), Св. (обнаруживают цель), или в (цель антисмысла). Эта информация о типе может включать несколько классификаций и может также быть вложена.

CDF-файл

Поле Описание
Rows

Количество строк зондов.

Cols

Количество столбцов зондов.

NumProbeSets

Количество тестовых наборов на массиве GeneChip.

NumQCProbeSets

Количество Qc зондирует наборы на массиве GeneChip.

ProbeSetColumnNames

Массив ячеек, содержащий эти шесть имен столбцов в ProbePairs поле в ProbeSets массив:

  • GroupNumber — Номер, идентифицирующий группу, которой принадлежит тестовая пара. Для массивов выражения этим значением всегда является 1. Для массивов генотипирования этим значением обычно является 1 (аллель A, смысл), 2 (аллель B, смысл), 3 (аллель A, антисмысл), или 4 (аллель B, антисмысл).

  • Direction — Номер, идентифицирующий направление тестовой пары. 1 = смысл и 2 = антисмысл.

  • PMPosXx-координата зонда идеальной пары.

  • PMPosYy-координата зонда идеальной пары.

  • MMPosXx-координата зонда несоответствия.

  • MMPosYy-координата зонда несоответствия.

ProbeSets

NumProbeSets- 1 массив структур, содержащий информацию для каждого тестового набора, включая следующие поля:

  • Name — Имя тестового набора.

  • ProbeSetType — Тип тестового набора.

  • CompDataExists — Истинный/ложный флаг, указывающий, имеет ли тестовый набор дополнительную вычисленную информацию.

  • NumPairs — Количество тестовых пар в тестовом наборе.

  • NumQCProbes — Количество Qc зондирует в тестовом наборе.

  • QCType — Тип зондов Qc.

  • GroupNames — Имя группы, которой принадлежит тестовый набор. Для массивов выражения это поле содержит имя тестового набора. Для массивов генотипирования это поле содержит имя аллелей, например, {'A' 'C' 'A' 'C'}'.

  • ProbePairsNumPairs- 6 массивов информации о тестовых парах. Имена столбцов этого массива содержатся в ProbeSetColumnNames поле .

Файл GIN

Поле Описание
Version

Версия формата файла GIN.

ProbeSetName

Тестовый ID/имя набора.

ID

Идентификатор для тестового набора (генный ID).

Description

Описание тестового набора.

SourceNames

Источник или источники тестовых наборов.

SourceURL

Источник URL или URL для тестовых наборов.

SourceID

Вектор из чисел, задающих, который SourceNames или SourceURL каждый тестовый набор сопоставлен с.

Примеры

свернуть все

В этом примере показано, как считать и визуализировать микроданные массива из файла Affymetrix® GeneChip®.

Этот пример использует выборочные данные от E. coli Массив Генома Антисмысла. Загрузите данные из Demo_Data_E-coli-antisense.zip. Извлеките файлы данных из архива DTT использование Инструмента Передачи данных.

Также необходимо загрузить Ecoli_ASv2. CDF и Ecoli_ASv2. GIN, файлы библиотеки для E. coli Массив Генома Антисмысла. У вас могут уже быть эти файлы, если у вас есть какое-либо программное обеспечение Affymetrix GeneChip, установленное на вашей машине. В противном случае получите файлы библиотеки путем загрузки и разархивации E. coli zip-файл Генома Антисмысла Массивов.

Считайте содержимое файла CEL в структуру MATLAB.

celStruct = affyread('Ecoli-antisense-121502.CEL');

Отобразите пространственный график тестовой интенсивности.

maimage(celStruct, 'Intensity')

Увеличьте масштаб определенной области графика.

axis([200 340 0 70])

Считайте содержимое Dat-файла в структуру MATLAB. Отобразите необработанные данные изображения, и затем используйте axis image команда, чтобы установить правильное соотношение сторон.

datStruct = affyread('Ecoli-antisense-121502.dat');
imagesc(datStruct.Image)
axis image

Увеличьте масштаб определенной области графика.

axis([1900 2800 160 650])

Считайте содержимое файла CHP в структуру MATLAB, задав местоположение связанного файла библиотеки CDF. Затем извлеките информацию для набора зонда 3315278.

chpStruct = affyread('Ecoli-antisense-121502.chp','C:\LibFiles\');
geneName = probesetlookup(chpStruct,'3315278')
geneName = 

  struct with fields:

      Identifier: '3315278'
    ProbeSetName: 'argG_b3172_at'
        CDFIndex: 5213
        GINIndex: 3074
     Description: '/start=3316278 /end=3317621 /direction=+ /description=argininosuccinate synthetase'
          Source: 'NCBI EColi Genome'
       SourceURL: 'http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/altvik?gi=115&db=g&from=3315278'

Представлено до R2006a