Анализ массивов Affymetrix ® SNP для вариантов числа копий ДНК

Этот пример показывает, как изучить варианты числа копий ДНК путем предварительной обработки и анализа данных из массива Affymetrix ® GeneChip ® Human Mapping 100k.

Введение

Вариант числа копий (CNV) определяется как хромосомный сегмент, который имеет длину 1 кб или больше, чье число копий изменяется по сравнению с ссылкой геномом. CNV является одним из признаков генетической нестабильности, характерной для большинства видов рака человека. При изучении рака важной целью является быстрое и точное выявление усилений и делеций числа копий и оценка их частот на уровне генома. Недавно для обнаружения и количественной оценки изменений количества копий в геноме с высоким разрешением использовались массивы с одним нуклеотидным полиморфизмом (SNP). Подходы к массивам SNP также предоставляют информацию о генотипе. Например, они могут выявить потерю гетерозиготности (LOH), которая может предоставить подтверждающие доказательства наличия делеции.

Affymetrix GeneChip Mapping Array Set является популярной платформой для высокопроизводительного генотипирования SNP и обнаружения CNV. В этом примере мы используем общедоступный набор данных из массива Affymetrix 100K SNP, который запрашивает более 100 000 сайтов SNP. Вы импортируете и предварительно обработаете данные уровня зонда, оцените коэффициенты необработанного сигнала выборок по сравнению с ссылками, а затем выведете номера копий в каждом локусе SNP после сегментации.

Данные

Zhao et al. изучал изменения количества копий в геноме клеточных линий рака легких человека и первичных опухолей [1]. Выборки гибридизовали с массивами Affymetrix 100K SNP, каждый из которых содержал 115 593 отображенных локусов SNP. Для этого примера вы проанализируете данные 24 камеры небольшой выборки рака легких (SCLC), из которых 19 были первичными выборками опухоли и 5 были камеры линии выборок.

Для каждой выборки SNP были генотипированы двумя различными массивами, 50KXba раннего доступа и 50KHind раннего доступа, параллельно. Вкратце, две аликвоты выборок ДНК сначала переваривали рестрикционным ферментом XbaI или HindIII, соответственно. Переваренную ДНК лигировали с адаптером перед последующей амплификацией полимеразной цепной реакции (ПЦР). Четыре реакции ПЦР устанавливали для каждой XbaI или HindIII-лигированной выборку ДНК. Продукты ПЦР из четырех реакций объединяли, концентрировали и фрагментировали до области значений размера от 250 до 2000 п.н. Фрагментированные продукты ПЦР затем маркировали, денатурировали и гибридизовали с массивами.

В данном примере вы будете работать с данными из массива 50KXba EA. Чтобы проанализировать данные из EA 50KHind массива, просто повторите шаги. Данные массива SNP хранятся в файлах CEL с каждым файлом CEL, содержащим данные из одного массива.

Примечание: Анализ данных микромассивов SNP высокой плотности требует увеличения объема памяти от операционной системы; если вы получаете "Out of memory" ошибки при запуске этого примера, попробуйте увеличить виртуальную память (или сменить пространство) операционной системы или попробуйте установить 3GB коммутатор (только для 32-разрядной Windows ® XP). Эти методы описаны в этом документе.

Этот пример использует 50KXba и 50KHind наборы данных массива SNP (не включены в тулбокс) из Лаборатории Мейерсона в Институте рака Даны-Фарбер. Для выполнения аналогичного анализа можно использовать любой другой набор данных.

Файлы библиотеки CDF, используемые для этих двух массивов CentXbaAv2.cdf и CentHindAv2.cdf. Эти файлы можно получить с веб-сайта Affymetrix.

Установите переменную Xba_celPath с помощью пути к местоположению вы хранили файлы CEL массива Xba и переменную libPath путь к местоположению файла библиотеки CDF для массива EA 50KXba SNP. (Эти файлы не распространяются с помощью Bioinformatics Toolbox™).

Xba_celPath = 'C:\Examples\affysnpcnvdemo\Xba_array';
libPath = 'C:\Examples\affysnpcnvdemo\LibFiles';

SCLC_Sample_CEL.txt, файл, предоставленный с программным обеспечением Bioinformatics Toolbox™, содержит список 24 имен файлов CEL, используемых в этом примере, и образцов (5 клеточных линий SCLC и 19 первичных опухолей), к которым они относятся. Загрузите эти данные в две переменные MATLAB ®.

fid = fopen('SCLC_Sample_CEL.txt','r');
ftext = textscan(fid, '%q%q');
fclose(fid);
samples = ftext{1};
cels = ftext{2};
nSample = numel(samples)
nSample =

    24

Доступ к данным уровня зонда массива SNP

Массив Affymetrix 50KXba SNP имеет плотность до 50K сайтов SNP. Каждый SNP в массиве представлен набором зондовых квартетов. Квартет зонда состоит из набора пар зонда для обоих аллелей (A и B) и для обеих прямых и обратных цепей (антисмысла и смысла) для SNP. Каждая пара зондов состоит из зонда идеального соответствия (PM) и зонда несовпадения (MM). Программное обеспечение Bioinformatics Toolbox обеспечивает функции для доступа к данным уровня зонда.

Функция affyread считывает файлы CEL и файлы библиотеки CDF для массивов SNP Affymetrix.

Считайте шестой файл CEL данных 50KXba EA в структуру MATLAB.

s_cel = affyread(fullfile(Xba_celPath, [cels{6} '.CEL']))
s_cel = 

  struct with fields:

                Name: 'S0168T.CEL'
            DataPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
             LibPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
        FullPathName: 'C:\Examples\affysnpcnvdemo\Xba_array\S0168T.CEL'
            ChipType: 'CentXbaAv2'
                Date: '01-Feb-2013 11:54:13'
         FileVersion: 3
           Algorithm: 'Percentile'
           AlgParams: 'Percentile:75;CellMargin:2;OutlierHigh:1.500;OutlierLow:1.004;AlgVersion:6.0;FixedCellSize:TRUE;FullFeatureWidth:5;FullFeatureHeight:5;IgnoreOutliersInShiftRows:FALSE;FeatureExtraction:TRUE;PoolWidthExtenstion:2;PoolHeightExtension:2;UseSubgrids:FALSE;RandomizePixels:FALSE;ErrorBasis:StdvMean;StdMult:1.000000'
        NumAlgParams: 16
          CellMargin: 2
                Rows: 1600
                Cols: 1600
           NumMasked: 0
         NumOutliers: 12478
           NumProbes: 2560000
          UpperLeftX: 222
          UpperLeftY: 236
         UpperRightX: 8410
         UpperRightY: 219
          LowerLeftX: 252
          LowerLeftY: 8426
         LowerRightX: 8440
         LowerRightY: 8410
    ProbeColumnNames: {8×1 cell}
              Probes: [2560000×8 single]

Считайте файл библиотеки CDF для массива EA 50KXba в структуру MATLAB.

s_cdf = affyread(fullfile(libPath, 'CentXbaAv2.cdf'))
s_cdf = 

  struct with fields:

                   Name: 'CentXbaAv2.cdf'
               ChipType: 'CentXbaAv2'
                LibPath: 'C:\Examples\affysnpcnvdemo\LibFiles'
           FullPathName: 'C:\Examples\affysnpcnvdemo\LibFiles\CentXbaAv2.cdf'
                   Date: '01-Feb-2013 11:54:12'
                   Rows: 1600
                   Cols: 1600
           NumProbeSets: 63434
         NumQCProbeSets: 9
    ProbeSetColumnNames: {6×1 cell}
              ProbeSets: [63443×1 struct]

Можно проверить общее качество массива, просматривая данные интенсивности уровня зонда с помощью функции maimage.

 maimage(s_cel)

The affysnpquartets функция создает таблицу квартетов зондов для SNP. На массивах Affymetrix 100K SNP, квартет зонда содержит 20 пар зондов. Для примера, чтобы получить подробную информацию о наборе зондов номер 6540, можно ввести следующие команды:

ps_id = 6540;
ps_qt = affysnpquartets(s_cel, s_cdf, ps_id)
ps_qt = 

  struct with fields:

    ProbeSet: '2685329'
     AlleleA: 'A'
     AlleleB: 'G'
     Quartet: [1×6 struct]

Можно также просмотреть тепловую карту интенсивности пар зондов PM и MM квартета зонда SNP с помощью probesetplot функция. Нажмите кнопку «Вставить Шкалу палитры», чтобы отобразить шкалу цвета тепловой карты.

probesetplot(s_cel, s_cdf, ps_id, 'imageonly', true);

На этом виде 20 пар зондов упорядочены слева направо. Первые две строки (10 пар зондов) соответствуют аллелю A, а последние две строки (10 пар зондов) соответствуют аллелю B. Для каждого аллеля левые 5 пар зондов соответствуют смысловой цепи (-), в то время как правые 5 пар зондов соответствуют антисмысловой (+) цепи.

Импорт и преобразование набора данных

Вы будете использовать celintensityread функция для чтения всех 24 файлов CEL. The celintensityread функция возвращает структуру, содержащую матрицы интенсивности PM и MM (необязательно) для зондов и их номеров групп. В каждой матрице интенсивности зондирования индексы столбцов соответствуют порядку, в котором считывались файлы CEL, и каждая строка соответствует зонду. Для анализа номера копии (CN) необходима только интенсивность ТЧ.

Импортируйте данные интенсивности зондов всех массивов 50KXba EA в структуру MATLAB.

XbaData = celintensityread(cels, 'CentXbaAv2.cdf',...
                     'celpath', Xba_celPath, 'cdfpath', libPath)
Reading CDF file: CentXbaAv2.cdf
Reading file 1 of 24: H524
Reading file 2 of 24: H526
Reading file 3 of 24: H1184
Reading file 4 of 24: H1607
Reading file 5 of 24: H1963
Reading file 6 of 24: S0168T
Reading file 7 of 24: S0169T
Reading file 8 of 24: S0170T
Reading file 9 of 24: S0171T
Reading file 10 of 24: S0172T
Reading file 11 of 24: S0173T
Reading file 12 of 24: S0177T
Reading file 13 of 24: S0185T
Reading file 14 of 24: S0187T
Reading file 15 of 24: S0188T
Reading file 16 of 24: S0189T
Reading file 17 of 24: S0190T
Reading file 18 of 24: S0191T
Reading file 19 of 24: S0192T
Reading file 20 of 24: S0193T
Reading file 21 of 24: S0194T
Reading file 22 of 24: S0196T
Reading file 23 of 24: S0198T
Reading file 24 of 24: S0199T

XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 63434
        NumProbes: 1268480
      ProbeSetIDs: {63434×1 cell}
     ProbeIndices: [1268480×1 uint8]
     GroupNumbers: [1268480×1 uint8]
    PMIntensities: [1268480×24 single]

Массивы раннего доступа Affymetrix аналогичны текущим коммерческим массивам 100K Mapping за исключением некоторых замаскированных зондов. Данные, полученные из массивов Affymetrix EA 100K SNP, могут быть преобразованы в массивы Mapping 100K путем фильтрации отклоненных идентификаторов зондов SNP в массиве раннего доступа и преобразования идентификаторов SNP в идентификаторы Mapping 100K SNP. Идентификаторы SNP для 50KXba EA и 50KHind массивов и соответствующие им идентификаторы SNP на 50KXba отображение и 50KHind массивах предоставляются в двух файлах MAT, поставляемых с программным обеспечением Bioinformatics Toolbox, Mapping50K_Xba_V_EA и Mapping50K_Hind_V_EA, соответственно.

load Mapping50K_Xba_V_EA

Функция помощника affysnpemconvert преобразует данные в Отображение 50KXba данные.

XbaData = affysnpemconvert(XbaData, EA50K_Xba_SNPID, Mapping50K_Xba_SNPID)
XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 58960
        NumProbes: 1179200
      ProbeSetIDs: {58960×1 cell}
     ProbeIndices: [1179200×1 uint8]
     GroupNumbers: [1179200×1 uint8]
    PMIntensities: [1179200×24 single]

Нормализация интенсивности зонда

Можно просмотреть плотностные графики логарифмического распределения интенсивности ТЧ по 24 выборкам перед предварительной обработкой.

f=zeros(nSample, 100);
xi = zeros(nSample, 100);
for i = 1:nSample
   [f(i,:),xi(i,:)] = ksdensity(log2(XbaData.PMIntensities(:,i)));
end
figure;
plot(xi', f')
xlabel('log2(PM)')
ylabel('Density')
title('Density Plot')
hold on

Нормализация квантиля особенно эффективна в нормализации нелинейности в данных, введенных экспериментальными смещениями. Выполните нормализацию квантиля с помощью quantilenorm функция.

XbaData.PMIntensities = quantilenorm(XbaData.PMIntensities);

Постройте график результирующего распределения количества с помощью штриховой красной кривой.

[f,xi] = ksdensity(log2(XbaData.PMIntensities(:,1)));
plot(xi', f', '--r', 'Linewidth', 3)
hold off

Примечание: Вы также можете использовать процедуры RMA или GCRMA для коррекции фона. Процедура RMA оценивает фон по смешанной модели, где фоновые сигналы приняты как нормально распределенные, а истинные сигналы распределены экспоненциально, в то время как процесс GCRMA состоит из оптической фоновой коррекции и фоновой регулировки на основе зондовой последовательности. Для получения дополнительной информации о том, как использовать процедуры RMA и GCRMA, смотрите Предварительную обработку данных микромассивов Affymetrix ® на уровне зонда.

Суммирование уровня зонда

При помощи GroupNumbers полевые данные из структуры XbaData, можно извлечь интенсивность для аллеля A и аллеля B для каждого зонда. Используйте функцию affysnpintensitysplit чтобы разделить матрицу интенсивности зонда PMIntensities в две матрицы с одной точностью, PMAIntensities и PMBIntensities, для аллеля A и аллеля B, соответственно. Количество зондов в каждой матрице является максимальным количеством зондов для каждого аллеля.

XbaData = affysnpintensitysplit(XbaData)
XbaData = 

  struct with fields:

           CDFName: 'CentXbaAv2.cdf'
          CELNames: {1×24 cell}
          NumChips: 24
      NumProbeSets: 58960
         NumProbes: 589600
       ProbeSetIDs: {58960×1 cell}
      ProbeIndices: [589600×1 uint8]
    PMAIntensities: [589600×24 single]
    PMBIntensities: [589600×24 single]

Для анализа общего числа копий упрощением является игнорирование последовательностей аллеля A и аллеля B и информации об их цепи и, вместо этого, объединение интенсивности ТЧ для аллеля A и аллеля B каждой пары зондов.

PM_Xba = XbaData.PMAIntensities + XbaData.PMBIntensities;

Для определенного SNP теперь у нас есть K (K = 5 для массивов 100K Affymetrix Mapping) добавленных сигналов, каждый сигнал является мерой одного и того же - общей CN. Однако каждый из K сигналов имеет несколько разные последовательности, поэтому их эффективность гибридизации может различаться. Можно использовать методы суммирования RMA, чтобы суммировать интенсивность зондирования аллелей для каждого набора зондов SNP.

PM_Xba = rmasummary(XbaData.ProbeIndices, PM_Xba);

Получение информации о зонде SNP

Affymetrix предоставляет файлы аннотации в формате CSV для своих массивов SNP. Можно загрузить файлы аннотации для массивов Mapping 100K из http://www.affymetrix.com/support/technical/annotationfilesmain.affx.

В данном примере загрузите и разархивируйте файл аннотации для массива Mapping 50KXba Mapping50K_Xba240.na29.annot.csv. Информацию о пробах SNP массива 50KXba Mapping можно считать из этого файла аннотации. Установите переменную annoPath путь к местоположению, в котором сохранен файл аннотации.

annoPath = 'C:\Examples\affysnpcnvdemo\AnnotFiles';

Функция affysnpannotread читает файл аннотации и возвращает структуру, содержащую информацию о хромосоме SNP, хромосомные положения, последовательности и информацию о длине фрагмента PCR, упорядоченную по идентификаторам набора зондов из второй входной переменной.

annoFile = fullfile(annoPath, 'Mapping50K_Xba240.na29.annot.csv');
annot_Xba = affysnpannotread(annoFile, XbaData.ProbeSetIDs)
annot_Xba = 

  struct with fields:

       ProbeSetIDs: {58960×1 cell}
        Chromosome: [58960×1 int8]
     ChromPosition: [58960×1 double]
          Cytoband: {58960×1 cell}
          Sequence: {58960×1 cell}
           AlleleA: {58960×1 cell}
           AlleleB: {58960×1 cell}
         Accession: {58960×1 cell}
    FragmentLength: [58960×1 double]

Оценка необработанного CN

Относительное число копий в SNP между двумя выборками оценивается на основе отношения log2 нормализованных сигналов. Усредненные нормированные сигналы от нормальных выборок используются в качестве глобальной ссылки. Предварительно обработанные ссылкой средние логарифмические сигналы для Отображения 50KXBa массива и 50KHind массива предусмотрены в MAT-файлах, SCLC_normal_Xba и SCLC_normal_Hind соответственно.

load SCLC_Normal_Xba

Оцените логарифмическое отношение нормированных сигналов.

log2Ratio_Xba = bsxfun(@minus, PM_Xba, mean_normal_PM_Xba);

Фильтрация и упорядоченное расположение

Зонды SNP с отсутствующим номером хромосомы, геномным положением или длиной фрагмента в файле аннотации не имеют достаточной информации для последующего анализа CN. Также для анализа CN Y-хромосомы обычно игнорируются. Отфильтруйте эти зонды SNP.

fidx = annot_Xba.Chromosome == -1 | annot_Xba.Chromosome == 24 |...
       annot_Xba.ChromPosition == -1 | annot_Xba.FragmentLength == 0;
log2Ratio_Xba(fidx, :) = [];
chromosome_Xba = annot_Xba.Chromosome(~fidx);
genomepos_Xba = annot_Xba.ChromPosition(~fidx);
probesetids_Xba = XbaData.ProbeSetIDs(~fidx);
fragmentlen_Xba = annot_Xba.FragmentLength(~fidx);
accession_Xba = annot_Xba.Accession(~fidx);

Оценка CN порядка по номерам хромосом:

[chr_sort, sidx] = sort(chromosome_Xba);
gpos_sort = genomepos_Xba(sidx);
log2Ratio_sort = log2Ratio_Xba(sidx, :);
probesetids_sort = probesetids_Xba(sidx);
fragmentlen_sort = fragmentlen_Xba(sidx);
accession_sort = accession_Xba(sidx);

Оценка CN порядка по хромосомным геномным положениям:

u_chr = unique(chr_sort);
gpsidx = zeros(length(gpos_sort),1);
for i = 1:length(u_chr)
    uidx = find(chr_sort == u_chr(i));
    gp_s = gpos_sort(uidx);
    [gp_ss, ssidx] = sort(gp_s);
    s_res = uidx(ssidx);
    gpsidx(uidx) = s_res;
end
gpos_ssort = gpos_sort(gpsidx);
log2Ratio_ssort = log2Ratio_sort(gpsidx, :);
probesetids_ssort = probesetids_sort(gpsidx);
fragmentlen_ssort = fragmentlen_sort(gpsidx);
accession_ssort = accession_sort(gpsidx);

Нормализация длины фрагмента ПЦР

При анализе следует учитывать систематические эффекты процесса ПЦР. Например, более длинные фрагменты обычно приводят к меньшему усилению ПЦР, что приводит к меньшему материалу для гибридизации и ослаблению сигналов. Вы можете увидеть это, построив график необработанных CN с эффектом длины фрагмента.

figure;
plot(fragmentlen_ssort, log2Ratio_ssort(:, 1), '.')
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Pre PCR fragment length normalization')

Nannya et al., 2005 представил устойчивую линейную модель для оценки и удаления этого эффекта. В данном примере используйте malowess функция для нормализации длины фрагмента ПЦР для выборки 1. Затем отобразите кривую сглаживания.

smoothfit = malowess(fragmentlen_ssort,log2Ratio_ssort(:,1));
hold on
plot(fragmentlen_ssort, smoothfit, 'r+')
hold off

log2Ratio_norm = log2Ratio_ssort(:,1) - smoothfit;

Постройте график нормированной оценки необработанного CN длины фрагмента ПЦР:

figure;
plot(fragmentlen_ssort, log2Ratio_norm, '.');
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Post PCR fragment length normalization')
hold off

Можно нормализовать эффект длины фрагмента ПЦР для всех выборок, используя malowess функция.

Снова можно повторить предыдущие шаги для данных массива 50KHind.

Профиль генома CN

Загрузите MAT-файл, содержащий предварительно обработанные и нормированные данные CN как из массивов 50KXba, так и из 50KHind массивов.

load SCLC_CN_Data

Теперь можно построить график всего профиля генома общих ХН. Для примера постройте график всего профиля генома для выборки 1 (CL_H524) с помощью вспомогательной функции plotcngenomeprofile.

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 1),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{1})

Можно также построить график каждого профиля CN хромосомы в подграфике. Для примера постройте график каждого профиля CN хромосомы для выборки 12 (PT_0177T):

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 12),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{12}, 'S')

Усиление в SCLS Выборок

В исследовании Zhao et al., 2005, высокоуровневая амплификация наблюдалась в области q12,2-q12,3 на хромосоме 8 для выборок SCLS. Вы можете выполнить сегментацию CBS на хромосоме 8 для PT_S0177T выборки.

sampleid = find(strcmpi(samples, 'PT_S0177T'));
ps = cghcbs(SCLC_CN, 'sampleind', sampleid, 'chromosome', 8, 'showplot', 8)
Analyzing: PT_S0177T. Current chromosome 8

ps = 

  struct with fields:

         Sample: 'PT_S0177T'
    SegmentData: [1×1 struct]

Добавьте идеограмму для хромосомы 8 к графику:

chromosomeplot('hs_cytoBand.txt', 8, 'addtoplot', gca)

Вывод изменений номера копии:

segment_cn = ceil((2.^ps.SegmentData.Mean)*2);
cnv = segment_cn(segment_cn ~= 2);
startbp = ps.SegmentData.Start(segment_cn ~= 2)
endbp = ps.SegmentData.End(segment_cn ~= 2)
startMB = startbp/10^6;
endMB = endbp/10^6;
startbp =

    62089326
    62182830
   128769526


endbp =

    62182830
    62729651
   129006828

Вы также можете получить информацию о цитобандах для CNV. Функция cytobandread возвращает информацию о цитобанде в структуре.

ct = cytobandread('hs_cytoBand.txt')
ct = 

  struct with fields:

     ChromLabels: {862×1 cell}
    BandStartBPs: [862×1 int32]
      BandEndBPs: [862×1 int32]
      BandLabels: {862×1 cell}
       GieStains: {862×1 cell}

Найти цитобандовые метки для CNVs:

cn_cytobands = cell(length(cnv),1);
for i = 1:length(cnv)
    istart = find(ct.BandStartBPs <= startbp(i) & ct.BandEndBPs >= startbp(i) & strcmp(ct.ChromLabels, '8'));
    iend = find(ct.BandStartBPs <= endbp(i) & ct.BandEndBPs >= endbp(i) & strcmpi(ct.ChromLabels, '8'));
    if strcmpi(ct.BandLabels{istart}, ct.BandLabels{iend})
        cn_cytobands{i} = ['8' ct.BandLabels{istart}];
    else
        cn_cytobands{i} = ['8' ct.BandLabels{istart} '-' '8' ct.BandLabels{iend}];
    end
end

Создайте отчет, в котором будут отображены начальные положения, конечные положения и размер CNV.

report = sprintf('Cytobands      \tStart(Mb)\tEnd(Mb)\t\tSize(Mb)\tCN\n');
for i = 1:length(cnv)
   report = sprintf('%s%-15s\t%3.2f\t\t%3.2f\t\t%3.2f\t\t%d\n',...
               report, cn_cytobands{i},startMB(i),endMB(i),endMB(i)-startMB(i),cnv(i));
end
disp(report)
Cytobands      	Start(Mb)	End(Mb)		Size(Mb)	CN
8q12.2         	62.09		62.18		0.09		4
8q12.2-8q12.3  	62.18		62.73		0.55		7
8q24.21        	128.77		129.01		0.24		7

Среди трех областей амплификации область 8q12-13 была подтверждена анализом межфазы FISH (Zhao et al., 2005).

Сводный график прибыли/убытков CN

Можно также визуализировать долю выборок с усилениями числа копий по крайней мере трех копий (красных) и потерями числа копий менее 1,5 копий (синих) во всех SNP для всех выборок SCLS. Функция cghfreqplot отображает частоту изменений количества копий в нескольких выборках. Чтобы лучше визуализировать данные, постройте график только SNP с частотой прибылей или потерь более 25%.

gainThrd = log2(3/2);
lossThrd = log2(1.5/2);
cghfreqplot(SCLC_CN, 'Color', [1 0 0; 0 0 1],...
            'Threshold', [gainThrd, lossThrd], 'cutoff', 0.25)
title('SCLC Summary Plot')

Ссылки

[1] Zhao, X., et al. «, Гомозиготные делеции и хромосомные амплификации в карциномах легких человека, выявленные с помощью однонуклеотидного полиморфизма массива анализа», Cancer Research, 65 (13): 5561-70, 2005.

[2] Nannya, Y. et al., «A робастный алгоритм для обнаружения числа копий с использованием массивов генотипирования однонуклеотидного полиморфизма с высокой плотностью олигонуклеотидов», Cancer Research, 65 (14): 6071-8, 2005.

Для просмотра документации необходимо авторизоваться на сайте