affyread

Считайте микроданные массива из файла Affymetrix GeneChip

Синтаксис

AffyStruct = affyread(File)
AffyStruct = affyread(File, LibraryPath)

Описание

AffyStruct = affyread(File) читает файл Affymetrix® и создает структуру MATLAB®. Функция affyread может считать Affymetrix EXP, DAT, CEL, CLF, BGP, CDF и файлы GIN, сопоставленные с массивами Affymetrix GeneChip® для выражения, генотипирования (SNP) или повторно упорядочивающее испытание. Это может читать, файлы CHP Affymetrix, сопоставленные с массивами Affymetrix GeneChip для выражения, оценивает только.

AffyStruct = affyread(File, LibraryPath) задает путь и папку файла библиотеки CDF или GIN.

Чтение многих файлов CEL и/или большого файла CEL может потребовать расширенных объемов памяти от операционной системы. Если вы получаете какие-либо ошибки, связанные с памятью, или испытываете затруднения при чтении файлов CEL, попробуйте следующее:

Входные параметры

File

Вектор символов или строка, задающая имя файла или путь и имя файла одних из следующих типов файлов Affymetrix, сопоставленных с массивами Affymetrix GeneChip для выражения, генотипирования (SNP), или повторно упорядочивающая испытание. Однако, если имя файла для файла CHP, оно должно быть сопоставлено с массивом Affymetrix GeneChip для испытания выражения.

  • Exp Файл данных, содержащий информацию об экспериментальных условиях и протоколах.

  • DAT — Файл данных, содержащий необработанные данные изображения (значения интенсивности пикселей).

  • CEL — Файл данных, содержащий информацию о значениях интенсивности отдельных зондов.

  • CHP — Файл данных, содержащий итоговую информацию тестовых наборов, включая значения интенсивности.

  • Clf Файл размещения ячейки, который сопоставляет тестовые идентификаторы с местоположением (x-и y-координаты) в файле CEL.

  • BGP — Фоновый файл зонда, который перечисляет зонды, чтобы использовать для фонового исправления.

  • CDF — Файл библиотеки, содержащий информацию, о которой принадлежат зонды, на который зонд установил.

  • GIN — Файл библиотеки, содержащий информацию о тестовых наборах, таких как название гена, сопоставлен с тестовым набором.

Если вы задаете только имя файла, помещаете тот файл на путь поиска файлов MATLAB или в текущей папке. Если вы задаете только имя файла файла библиотеки CDF или GIN, можно задать путь и папку во входном параметре LibraryPath.

LibraryPath

Вектор символов или строка, задающая путь и папку a:

  • Файл библиотеки CDF сопоставил с File, когда File является файлом CHP

  • Файл библиотеки CDF, когда File является CDF-файл

  • Файл библиотеки GIN, когда File является файлом GIN

Примечание

Если вы не задаете LibraryPath при чтении файла CHP, affyread смотрит в текущей папке для CDF-файла. Если это не находит CDF-файл, это все еще читает файл CHP. Однако это не использует определенные имена зонда и типы от возвращаемого значения, AffyStruct.

Выходные аргументы

AffyStruct

Структура MATLAB, содержащая информацию от данных Affymetrix или файла библиотеки, для выражения, генотипирования (SNP), или повторно упорядочивающая типы испытания.

Следующие таблицы описывают поля в AffyStruct для различных типов файлов Affymetrix.

EXP, DAT, CEL, CHP, CLF, BGP, CDF и файлы GIN

Поле Описание
Name

FileName .

DataPath

Путь и папка файла.

LibPath

Путь и папка файлов библиотеки CDF и GIN сопоставили с файлом, который вы читаете.

FullPathName

Путь и папка файла.

ChipType

Имя массива Affymetrix GeneChip (например, DrosGenome1 или HG-особое-внимание).

Date или CreateDate

Дата создания файла.

Файл EXP

Поле Описание
ChipLot
Operator
SampleType
SampleDesc
Project
Comments
Reagents
ReagentLot
Protocol
Station
Module
HybridizeDate
ScanPixelSize
ScanFilter
ScanDate
ScannerID
NumberOfScans
ScannerType
NumProtocolSteps
ProtocolSteps

Информация об экспериментальных условиях и протоколах получена программным обеспечением Affymetrix.

Dat-файл

Поле Описание
NumPixelsPerRowКоличество пикселей на строку в изображении, созданном из массива GeneChip (количество столбцов).
NumRowsКоличество строк в изображении создается из массива GeneChip.
MinDataМинимальная стоимость интенсивности в изображении создается от массива GeneChip.
MaxDataМаксимальная стоимость интенсивности в изображении создается от массива GeneChip.
PixelSizeРазмер одного пикселя в изображении создается из массива GeneChip.
CellMarginРазмер разрывов между ячейками в изображении создается из массива GeneChip.
ScanSpeedСкорость сканера раньше создавала изображение.
ScanDateДатируйтесь сканирование выполнялось.
ScannerIDИмя сканирующего устройства используется.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ServerNameНе используемый.
ImageNumRows-by-NumPixelsPerRow изображение отсканированного массива GeneChip.

Файл CEL

Поле Описание
FileVersionВерсия формата файла CEL.
AlgorithmАлгоритм использовал на шаге обработки изображений, который преобразовывает от формата DAT до формата CEL.
AlgParamsВектор символов, содержащий параметры, используется алгоритмом на шаге обработки изображений.
NumAlgParamsКоличество параметров в AlgParams.
CellMarginРазмер разрывов между ячейками в изображении, созданном из массива GeneChip, используемого для вычисления значений интенсивности ячеек.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumMaskedКоличество зондов маскированных, которые не используются в последующей обработке.
NumOutliersКоличество ячеек, идентифицированных как выбросы (чрезвычайно высокая или чрезвычайно низкая интенсивность) шагом обработки изображений.
NumProbesКоличество зондов (Rows * Cols) на массиве GeneChip.
UpperLeftX
UpperLeftY
UpperRightX
UpperRightY
LowerLeftX
LowerLeftY
LowerRightX
LowerRightY
Пиксельные координаты отсканированного изображения.
ProbeColumnNames

Массив ячеек, содержащий эти восемь имен столбцов в поле Probes:

  • PosXx-координата ячейки

  • PosYy-координата ячейки

  • Intensity — Значение интенсивности ячейки

  • StdDev — Стандартное отклонение значения интенсивности

  • 'pixels' Количество пикселей в ячейке

  • Флаг Outlier — True/false, указывающий, была ли ячейка отмечена как выброс

  • Флаг Masked — True/false, указывающий, была ли ячейка замаскирована

  • ProbeType — Целое число, указывающее на тестовый тип (например, 1 = выражение)

ProbesNumProbes-by-8 массив информации об отдельных зондах, включая значения интенсивности. Поле ProbeColumnNames содержит имена столбцов этого массива.

Файл CHP

Поле Описание
AssayTypeТип испытания сопоставлен с массивом GeneChip (например, Выражение, Генотипирование, или Повторно упорядочивающий).
CellFileИмя файла файла CEL, из которого был создан файл CHP.
AlgorithmАлгоритм раньше преобразовывал от формата CEL до формата CHP.
AlgVersionВерсия алгоритма раньше создавала файл CHP.
NumAlgParamsКоличество параметров в AlgParams.
AlgParamsВектор символов, содержащий параметры, используемые на шагах, требуемых создать файл CHP (например, фоновое исправление).
NumChipSummaryКоличество записей в ChipSummary.
ChipSummaryИтоговая информация для массива GeneChip, включая фоновое среднее значение, стандартное отклонение, макс., и min.
BackgroundZonesСтруктура, содержащая информацию о зонах, используемых в фоновом режиме шаг корректировки.
RowsКоличество строк зондов.
ColsКоличество столбцов зондов.
NumProbeSetsКоличество тестовых наборов на массиве GeneChip.
NumQCProbeSets

Количество QC зондирует наборы на массиве GeneChip.

ProbeSets

(Выражение массив GeneChip)

NumProbeSets-by-1 массив структур, содержащий информацию для каждого набора зонда выражения, включая следующие поля:

  • Имя Имя тестового набора.

  • ProbeSetType — Тип тестового набора.

  • Флаг CompDataExists — True/false, указывающий, имеет ли тестовый набор дополнительную вычисленную информацию.

  • NumPairs — Количество тестовых пар в тестовом наборе.

  • NumPairsUsed — Количество тестовых пар в тестовом наборе, используемом для вычисления тестового сигнала набора (не замаскированный).

  • Signal — Итоговое значение интенсивности для тестового набора.

  • Detection — Индикатор статистически значимых различий между значением интенсивности зондов премьер-министра и значением интенсивности MM зондирует в одном тестовом наборе (Present, Absent или Marginal).

  • DetectionPValue — P-значение для индикатора Detection.

  • CommonPairs — То, когда CompDataExists является true, содержит количество общих пар между экспериментом и базовой линией после удаления выбросов и замаскированных зондов.

  • SignalLogRatio — То, когда CompDataExists является true, содержит изменение в сигнале между экспериментом и базовой линией.

  • SignalLogRatioLow — То, когда CompDataExists является true, содержит самые низкие отношения зондов между экспериментом и базовой линией.

  • SignalLogRatioHigh — То, когда CompDataExists является true, содержит самые высокие отношения зондов между экспериментом и базовой линией.

  • Change — То, когда CompDataExists является true, описывает, как зонд изменяется по сравнению с базовым экспериментом. Выбором является Increase, Marginal Increase, No Change, Decrease, or Marginal Decrease.

  • ChangePValue — То, когда CompDataExists является true, содержит p-значение, сопоставленное с Change.

ProbeSets

(Генотипирование массив GeneChip)

NumProbeSets-by-1 массив структур, содержащий информацию для каждого набора зонда генотипирования, включая следующие поля:

  • Имя Имя тестового набора.

  • AlleleCall — Аллель, которая присутствует для тестового набора. Возможностями является AA (гомозиготный для главной аллели), AB (гетерозиготный для главной и незначительной аллели), BB (гомозиготный для незначительной аллели), или NoCall (не могущий определить аллель).

  • Confidence — Мера точности вызова аллели.

  • RAS1 — Относительный Сигнал 1 Аллели для сайта SNP, который вычисляется с помощью зондов смысла.

  • RAS2 — Относительный Сигнал 2 Аллели для сайта SNP, который вычисляется с помощью зондов антисмысла.

  • PValueAA — p-значение для вызова AA.

  • PValueAB — p-значение для вызова AB.

  • PValueBB — p-значение для вызова BB.

  • PValueNoCall — p-значение для вызова NoCall.

ProbeSets

(Переупорядочивание массива GeneChip)

NumProbeSets-by-1 массив структур, содержащий информацию для каждого набора зонда переупорядочивания, включая следующие поля:

  • CalledBases — 1 NumProbeSets вектором символов, содержащим основы, вызван алгоритмом переупорядочивания. Возможными значениями является a, c, g, t и n.

  • Scores — 1 NumProbeSets массивом, содержащим счет, сопоставлен с каждым основным вызовом.

Файл CLF

Поле Описание
LibSetName

Имя набора связанных файлов библиотеки для данного чипа. Существует только один LibSetName для файла CLF. Например, PGF и файлы CLF, предназначенные для использования вместе, должны иметь тот же LibSetName.

LibSetVersion

Версия набора связанных файлов библиотеки для данного чипа. Существует только один LibSetVersion для файла CLF. Например, PGF и файлы CLF, предназначенные для использования вместе, должны иметь тот же LibSetVersion.

GUID

Уникальный идентификатор для файла CLF.

CLFFormatVersion

Версия формата файла CLF.

Rows

Количество строк в файле CEL.

Примечание

Файл CLF является 1 основой, что означает, что первая строка и столбец определяется 1,1, не 0,0.

Cols

Количество столбцов в файле CEL.

Примечание

Файл CLF является 1 основой, что означает, что первая строка и столбец определяется 1,1, не 0,0.

StartID

Стартовый номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не запускается с 1.

EndID

Конечный номер для нумерации элементов в файле CLF.

Совет

Эта информация полезна, когда нумерация не запускается с 1 и/или в нумерации существуют разрывы.

Order

Закажите, в котором тестовые идентификаторы пронумерованы в файле CEL, или 'row_major' или 'col_major'.

DataColNames

Имена столбцов в файле CEL, которые содержат данные.

Data

Если нумерация элементов в файле CLF последовательна, это поле содержит указатель на функцию, который вычисляет x-и y-координаты каждого элемента в файле от тестового ID.

Если нумерация элементов в файле CLF не последовательна, это поле содержит матрицу, указывающую на числовое значение каждого элемента в файле.

Файл BGP

Поле Описание
LibSetName

Имя набора связанных файлов библиотеки для данного чипа. Существует только один LibSetName для файла BGP.

LibSetVersion

Версия набора связанных файлов библиотеки для данного чипа. Существует только один LibSetVersion для файла BGP.

GUID

Уникальный идентификатор для файла BGP.

ExecGUID

Информация об алгоритме раньше генерировала файл BGP.

ExecVersion
Cmd
Data

Структура, содержащая следующие поля:

  • probe_id — ID зонда, чтобы использовать для фонового исправления.

  • probeset_id — ID тестового набора в файле PGF, которому принадлежит зонд.

  • ввод Информация о классификации для зонда.

  • gc_count — Объединенное количество G и C базируется в зонде.

  • probe_length — Длина зонда в парах оснований.

  • interrogation_position — Положение опроса зонда. Это обычно 13 для 25-mer зондов PM/MM.

  • probe_sequence — Последовательность зонда на массиве, входя в направление от массива появляется к решению. Для большинства стандартных массивов Affymetrix это направление от 3' к 5'. Например, для цели смысла (Св.) зонд (см. поле probe_type), дополните последовательность в этом поле перед поиском соответствий к последовательностям расшифровки стенограммы. Для цели антисмысла (в) инвертируйте эту последовательность.

  • atom_id — ID атома, которому принадлежит зонд.

  • x Координата столбца зонда в файле CEL.

  • y Координата строки зонда в файле CEL.

  • probeset_type — Информация о классификации для тестового набора, такого как управление, affx, или скачок. Эта информация о типе может включать несколько классификаций и может также быть вложена.

  • probe_type — Информация о классификации для зонда, такой как пополудни (идеальная пара), мм (несоответствие), Св. (обнаруживают цель), или в (цель антисмысла). Эта информация о типе может включать несколько классификаций и может также быть вложена.

CDF-файл

Поле Описание
Rows

Количество строк зондов.

Cols

Количество столбцов зондов.

NumProbeSets

Количество тестовых наборов на массиве GeneChip.

NumQCProbeSets

Количество QC зондирует наборы на массиве GeneChip.

ProbeSetColumnNames

Массив ячеек, содержащий эти шесть имен столбцов в поле ProbePairs в массиве ProbeSets:

  • GroupNumber — Номер, идентифицирующий группу, которой принадлежит тестовая пара. Для массивов выражения этим значением всегда является 1. Для массивов генотипирования этим значением обычно является 1 (аллель A, смысл), 2 (аллель B, смысл), 3 (аллель A, антисмысл), или 4 (аллель B, антисмысл).

  • Direction — Номер, идентифицирующий направление тестовой пары. 1 = смысл и 2 = антисмысл.

  • PMPosXx-координата зонда идеальной пары.

  • PMPosYy-координата зонда идеальной пары.

  • MMPosXx-координата зонда несоответствия.

  • MMPosYy-координата зонда несоответствия.

ProbeSets

NumProbeSets-by-1 массив структур, содержащий информацию для каждого тестового набора, включая следующие поля:

  • Имя Имя тестового набора.

  • ProbeSetType — Тип тестового набора.

  • Флаг CompDataExists — True/false, указывающий, имеет ли тестовый набор дополнительную вычисленную информацию.

  • NumPairs — Количество тестовых пар в тестовом наборе.

  • NumQCProbes — Количество QC зондирует в тестовом наборе.

  • QCType — Тип зондов QC.

  • GroupNames — Имя группы, которой принадлежит тестовый набор. Для массивов выражения это поле содержит имя тестового набора. Для массивов генотипирования это поле содержит имя аллелей, например, {'A' 'C' 'A' 'C'}'.

  • ProbePairsNumPairs-by-6 массив информации о тестовых парах. Имена столбцов этого массива содержатся в поле ProbeSetColumnNames.

Файл GIN

Поле Описание
Version

Версия формата файла GIN.

ProbeSetName

Тестовый ID/имя набора.

ID

Идентификатор для тестового набора (генный ID).

Description

Описание тестового набора.

SourceNames

Источник или источники тестовых наборов.

SourceURL

Источник URL или URL для тестовых наборов.

SourceID

Вектор чисел, задающих, с которым сопоставлены SourceNames или SourceURL каждый тестовый набор.

Примеры

свернуть все

Этот пример показывает, как считать и визуализировать микроданные массива из файла Affymetrix® GeneChip®.

Этот пример использует выборочные данные от E. coli Массив Генома Антисмысла. Загрузите данные из Demo_Data_E-coli-antisense.zip. Извлеките файлы данных из архива DTT использование Инструмента Передачи данных.

Также необходимо загрузить Ecoli_ASv2. CDF и Ecoli_ASv2. GIN, файлы библиотеки для E. coli Массив Генома Антисмысла. У вас могут уже быть эти файлы, если у вас есть какое-либо программное обеспечение Affymetrix GeneChip, установленное на вашей машине. В противном случае получите файлы библиотеки путем загрузки и разархивации E. coli zip-файл Генома Антисмысла Массивов.

Считайте содержимое файла CEL в структуру MATLAB.

celStruct = affyread('Ecoli-antisense-121502.CEL');

Отобразите пространственный график тестовой интенсивности.

maimage(celStruct, 'Intensity')

Увеличьте масштаб определенной области графика.

axis([200 340 0 70])

Считайте содержимое Dat-файла в структуру MATLAB. Отобразите необработанные данные изображения, и затем используйте команду axis image, чтобы установить правильное соотношение сторон.

datStruct = affyread('Ecoli-antisense-121502.dat');
imagesc(datStruct.Image)
axis image

Увеличьте масштаб определенной области графика.

axis([1900 2800 160 650])

Считайте содержимое файла CHP в структуру MATLAB, задав местоположение связанного файла библиотеки CDF. Затем извлеките информацию для набора зонда 3315278.

chpStruct = affyread('Ecoli-antisense-121502.chp','C:\LibFiles\');
geneName = probesetlookup(chpStruct,'3315278')
geneName = 

  struct with fields:

      Identifier: '3315278'
    ProbeSetName: 'argG_b3172_at'
        CDFIndex: 5213
        GINIndex: 3074
     Description: '/start=3316278 /end=3317621 /direction=+ /description=argininosuccinate synthetase'
          Source: 'NCBI EColi Genome'
       SourceURL: 'http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/altvik?gi=115&db=g&from=3315278'

Представлено до R2006a