exponenta event banner

Анализ массивов SNP Affymetrix ® для вариантов числа копий ДНК

В этом примере показано, как изучать варианты числа копий ДНК путем предварительной обработки и анализа данных из массива Affymetrix ® GeneChip ® Human Mapping 100k.

Введение

Вариант числа копий (CNV) определяется как хромосомный сегмент длиной 1 кб или больше, число копий которого изменяется по сравнению с эталонным геномом. CNV является одной из отличительных черт генетической нестабильности, общей для большинства видов рака человека. При изучении рака важной целью является быстрая и точная идентификация амплификаций и делеций числа копий, а также оценка их частот на уровне генома. В последнее время матрицы однонуклеотидного полиморфизма (SNP) использовались для обнаружения и количественной оценки изменений числа копий по всему геному с высоким разрешением. Подходы к массиву SNP также предоставляют информацию о генотипе. Например, они могут выявить потерю гетерозиготности (LOH), которая может предоставить подтверждающие доказательства наличия делеции.

Affymetrix GeneChip Mapping Array Set является популярной платформой для высокопроизводительного генотипирования SNP и обнаружения CNV. В этом примере мы используем общедоступный набор данных из массива Affymetrix 100K SNP, который опрашивает более 100 000 сайтов SNP. Вы будете импортировать и предварительно обрабатывать данные уровня зонда, оценивать отношения необработанных сигналов выборок по сравнению с эталонами, а затем выводить числа копий в каждом локусе SNP после сегментации.

Данные

Чжао и др. изучены изменения числа копий по всему геному клеточных линий карциномы легких человека и первичных опухолей [1]. Образцы гибридизовали с массивами SNP Affymetrix 100K, каждая из которых содержала 115 593 отображенных локуса SNP. В этом примере вы проанализируете данные из 24 образцов мелкоклеточной карциномы легких (SCLC), из которых 19 были образцами первичной опухоли, а 5 образцами клеточной линии.

Для каждого образца SNP были генотипированы с двумя различными массивами, Early Access 50KXba и Early Access 50KHind, параллельно. Вкратце, две аликвоты образцов ДНК сначала расщепляли ферментом рестрикции XbaI или HindIII соответственно. Расщепленную ДНК лигировали с адаптером перед последующей амплификацией полимеразной цепной реакции (ПЦР). Четыре реакции ПЦР устанавливают для каждого образца ДНК, лигированного адаптером XbaI или HindIII. Продукты ПЦР из четырех реакций объединяли, концентрировали и фрагментировали до размера в диапазоне от 250 до 2000 п.н. Фрагментированные продукты ПЦР затем метили, денатурировали и гибридизовали с массивами.

В этом примере рассматривается работа с данными из массива EA 50KXba. Для анализа данных из массива EA 50KHind просто повторите шаги. Данные массива SNP хранятся в файлах CEL, причем каждый файл CEL содержит данные из одного массива.

Примечание: Анализ данных микрочипов SNP высокой плотности требует больших объемов памяти от операционной системы; если вы получаете "Out of memory" при выполнении этого примера попробуйте увеличить объем виртуальной памяти (или пространства подкачки) операционной системы или установить переключатель 3GB (только для 32-разрядной ОС Windows ® XP). Эти методы описаны в этом документе.

Этот пример использует 50KXba и 50KHind наборы данных множества Шотландской национальной партии (не включенный в комплект инструментов) из Лаборатории Мейерсона в Онкологическом институте Даны-Фарбера. Для выполнения аналогичных анализов можно использовать любой другой набор данных.

Файлы библиотеки CDF, используемые для этих двух массивов: CentXbaAv2.cdf и CentHindAv2.cdf. Эти файлы можно получить с веб-сайта Affymetrix.

Установка переменной Xba_celPath с указанием пути к расположению, в котором хранятся CEL-файлы массива Xba, и переменной libPath с указанием пути к расположению файла библиотеки CDF для массива EA 50KXba SNP. (Эти файлы не распространяются с Toolbox™ биоинформатики).

Xba_celPath = 'C:\Examples\affysnpcnvdemo\Xba_array';
libPath = 'C:\Examples\affysnpcnvdemo\LibFiles';

SCLC_Sample_CEL.txtфайл, поставляемый с программным обеспечением Bioinformatics Toolbox™, содержит список 24 имен файлов CEL, используемых для этого примера, и образцов (5 клеточных линий SCLC и 19 первичных опухолей), к которым они принадлежат. Загрузите эти данные в две переменные MATLAB ®.

fid = fopen('SCLC_Sample_CEL.txt','r');
ftext = textscan(fid, '%q%q');
fclose(fid);
samples = ftext{1};
cels = ftext{2};
nSample = numel(samples)
nSample =

    24

Доступ к данным зондирующего уровня массива SNP

Массив Affymetrix 50KXba SNP имеет плотность до 50K сайтов SNP. Каждый SNP в массиве представлен коллекцией квартетов зонда. Зонд-квартет состоит из набора пар зондов для обоих аллелей (A и B) и как для прямой, так и для обратной нитей (антисмысловой и смысловой) для SNP. Каждая пара зондов состоит из зонда идеального соответствия (PM) и зонда несоответствия (MM). Программное обеспечение Bioinformatics Toolbox предоставляет функции для доступа к данным уровня зонда.

Функция affyread считывает файлы CEL и файлы библиотеки CDF для массивов Affymetrix SNP.

Считайте шестой файл CEL данных 50KXba EA в структуру MATLAB.

s_cel = affyread(fullfile(Xba_celPath, [cels{6} '.CEL']))
s_cel = 

  struct with fields:

                Name: 'S0168T.CEL'
            DataPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
             LibPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
        FullPathName: 'C:\Examples\affysnpcnvdemo\Xba_array\S0168T.CEL'
            ChipType: 'CentXbaAv2'
                Date: '01-Feb-2013 11:54:13'
         FileVersion: 3
           Algorithm: 'Percentile'
           AlgParams: 'Percentile:75;CellMargin:2;OutlierHigh:1.500;OutlierLow:1.004;AlgVersion:6.0;FixedCellSize:TRUE;FullFeatureWidth:5;FullFeatureHeight:5;IgnoreOutliersInShiftRows:FALSE;FeatureExtraction:TRUE;PoolWidthExtenstion:2;PoolHeightExtension:2;UseSubgrids:FALSE;RandomizePixels:FALSE;ErrorBasis:StdvMean;StdMult:1.000000'
        NumAlgParams: 16
          CellMargin: 2
                Rows: 1600
                Cols: 1600
           NumMasked: 0
         NumOutliers: 12478
           NumProbes: 2560000
          UpperLeftX: 222
          UpperLeftY: 236
         UpperRightX: 8410
         UpperRightY: 219
          LowerLeftX: 252
          LowerLeftY: 8426
         LowerRightX: 8440
         LowerRightY: 8410
    ProbeColumnNames: {8×1 cell}
              Probes: [2560000×8 single]

Считывайте файл библиотеки CDF для массива EA 50KXba в структуру MATLAB.

s_cdf = affyread(fullfile(libPath, 'CentXbaAv2.cdf'))
s_cdf = 

  struct with fields:

                   Name: 'CentXbaAv2.cdf'
               ChipType: 'CentXbaAv2'
                LibPath: 'C:\Examples\affysnpcnvdemo\LibFiles'
           FullPathName: 'C:\Examples\affysnpcnvdemo\LibFiles\CentXbaAv2.cdf'
                   Date: '01-Feb-2013 11:54:12'
                   Rows: 1600
                   Cols: 1600
           NumProbeSets: 63434
         NumQCProbeSets: 9
    ProbeSetColumnNames: {6×1 cell}
              ProbeSets: [63443×1 struct]

Вы можете проверить общее качество массива, просматривая данные интенсивности уровня зонда с помощью функции maimage.

 maimage(s_cel)

affysnpquartets создает таблицу квартетов зонда для SNP. На массивах Affymetrix 100K SNP квартет зондов содержит 20 пар зондов. Например, для получения подробной информации о наборе зондов номер 6540 можно ввести следующие команды:

ps_id = 6540;
ps_qt = affysnpquartets(s_cel, s_cdf, ps_id)
ps_qt = 

  struct with fields:

    ProbeSet: '2685329'
     AlleleA: 'A'
     AlleleB: 'G'
     Quartet: [1×6 struct]

Можно также просмотреть тепловую карту интенсивностей пар зондов PM и MM квартета зондов SNP с помощью probesetplot функция. Нажмите кнопку «Вставить цветовую шкалу» для отображения цветовой шкалы тепловой карты.

probesetplot(s_cel, s_cdf, ps_id, 'imageonly', true);

В этом представлении 20 пар зондов упорядочены слева направо. Первые два ряда (10 пар зондов) соответствуют аллелю А, а последние два ряда (10 пар зондов) соответствуют аллелю В. Для каждого аллеля левые 5 пар зондов соответствуют смысловой цепи (-), в то время как правые 5 пар зондов соответствуют антисмысловой (+) цепи.

Импорт и преобразование набора данных

Вы будете использовать celintensityread для чтения всех 24 файлов CEL. celintensityread функция возвращает структуру, содержащую матрицы интенсивностей PM и MM (необязательно) для зондов и их групповых номеров. В каждой матрице интенсивности зонда индексы столбцов соответствуют порядку, в котором считывались файлы CEL, и каждая строка соответствует зонду. Для анализа количества копий (CN) требуются только интенсивности PM.

Импортируйте данные интенсивности зондов всех массивов EA 50KXba в структуру MATLAB.

XbaData = celintensityread(cels, 'CentXbaAv2.cdf',...
                     'celpath', Xba_celPath, 'cdfpath', libPath)
Reading CDF file: CentXbaAv2.cdf
Reading file 1 of 24: H524
Reading file 2 of 24: H526
Reading file 3 of 24: H1184
Reading file 4 of 24: H1607
Reading file 5 of 24: H1963
Reading file 6 of 24: S0168T
Reading file 7 of 24: S0169T
Reading file 8 of 24: S0170T
Reading file 9 of 24: S0171T
Reading file 10 of 24: S0172T
Reading file 11 of 24: S0173T
Reading file 12 of 24: S0177T
Reading file 13 of 24: S0185T
Reading file 14 of 24: S0187T
Reading file 15 of 24: S0188T
Reading file 16 of 24: S0189T
Reading file 17 of 24: S0190T
Reading file 18 of 24: S0191T
Reading file 19 of 24: S0192T
Reading file 20 of 24: S0193T
Reading file 21 of 24: S0194T
Reading file 22 of 24: S0196T
Reading file 23 of 24: S0198T
Reading file 24 of 24: S0199T

XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 63434
        NumProbes: 1268480
      ProbeSetIDs: {63434×1 cell}
     ProbeIndices: [1268480×1 uint8]
     GroupNumbers: [1268480×1 uint8]
    PMIntensities: [1268480×24 single]

Массивы Affymetrix Early Access аналогичны существующим коммерческим массивам Mapping 100K, за исключением некоторых маскируемых зондов. Данные, полученные из массивов Affymetrix EA 100K SNP, могут быть преобразованы в массивы Mapping 100K путем фильтрации отклоненных идентификаторов зондов SNP в массиве раннего доступа и преобразования идентификаторов SNP в идентификаторы Mapping 100K SNP. Идентификаторы SNP для массивов EA 50KXba и 50KHind и соответствующие им идентификаторы SNP для массивов Mapping 50KXba и 50KHind предоставляются в двух файлах MAT, поставляемых с программным обеспечением Bioinformatics Toolbox, Mapping50K_Xba_V_EA и Mapping50K_Hind_V_EAсоответственно.

load Mapping50K_Xba_V_EA

Вспомогательная функция affysnpemconvert преобразует данные в данные Mapping 50KXba.

XbaData = affysnpemconvert(XbaData, EA50K_Xba_SNPID, Mapping50K_Xba_SNPID)
XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 58960
        NumProbes: 1179200
      ProbeSetIDs: {58960×1 cell}
     ProbeIndices: [1179200×1 uint8]
     GroupNumbers: [1179200×1 uint8]
    PMIntensities: [1179200×24 single]

Нормализация интенсивности зонда

Перед предварительной обработкой можно просмотреть графики плотности логарифмически преобразованного распределения интенсивности ТЧ по 24 выборкам.

f=zeros(nSample, 100);
xi = zeros(nSample, 100);
for i = 1:nSample
   [f(i,:),xi(i,:)] = ksdensity(log2(XbaData.PMIntensities(:,i)));
end
figure;
plot(xi', f')
xlabel('log2(PM)')
ylabel('Density')
title('Density Plot')
hold on

Нормализация квантилей особенно эффективна при нормализации нелинейности в данных, введенных экспериментальными отклонениями. Выполните квантовую нормализацию с помощью quantilenorm функция.

XbaData.PMIntensities = quantilenorm(XbaData.PMIntensities);

Постройте график результирующего квантильного распределения, используя пунктирную красную кривую.

[f,xi] = ksdensity(log2(XbaData.PMIntensities(:,1)));
plot(xi', f', '--r', 'Linewidth', 3)
hold off

Примечание.Для фоновой коррекции можно также использовать процедуры RMA или GCRMA. Процедура RMA оценивает фон по смешанной модели, где предполагается, что фоновые сигналы нормально распределены, а истинные сигналы экспоненциально распределены, в то время как процесс GCRMA состоит из оптической коррекции фона и корректировки фона на основе последовательности зондов. Дополнительные сведения об использовании процедур RMA и GCRMA см. в разделе Предварительная обработка данных микрочипов Affymetrix ® на уровне зонда.

Уплотнение на уровне зонда

С помощью GroupNumbers данные поля из структуры XbaDataвы можете извлечь интенсивности для аллеля A и аллеля B для каждого зонда. Используйте функцию affysnpintensitysplit для разделения матрицы интенсивностей зонда PMIntensities в две матрицы с одинарной точностью, PMAIntensities и PMBIntensitiesдля зондов аллеля А и аллеля В соответственно. Количество зондов в каждой матрице является максимальным количеством зондов для каждого аллеля.

XbaData = affysnpintensitysplit(XbaData)
XbaData = 

  struct with fields:

           CDFName: 'CentXbaAv2.cdf'
          CELNames: {1×24 cell}
          NumChips: 24
      NumProbeSets: 58960
         NumProbes: 589600
       ProbeSetIDs: {58960×1 cell}
      ProbeIndices: [589600×1 uint8]
    PMAIntensities: [589600×24 single]
    PMBIntensities: [589600×24 single]

Для анализа общего числа копий упрощение заключается в игнорировании последовательностей аллеля A и аллеля B и их информации о цепи и, вместо этого, объединении интенсивностей PM для аллеля A и аллеля B каждой пары зондов.

PM_Xba = XbaData.PMAIntensities + XbaData.PMBIntensities;

Для конкретного SNP мы теперь имеем K (K = 5 для Affymetrix Mapping 100K матриц) добавленных сигналов, каждый сигнал является мерой одного и того же - общего CN. Однако каждый из K сигналов имеет несколько отличающиеся последовательности, поэтому их эффективность гибридизации может отличаться. Вы можете использовать методы суммирования RMA, чтобы суммировать интенсивности аллельных зондов для каждого набора зондов SNP.

PM_Xba = rmasummary(XbaData.ProbeIndices, PM_Xba);

Получение информации о пробе SNP

Affymetrix предоставляет файлы аннотаций в формате CSV для массивов SNP. Файлы аннотаций для массивов Mapping 100K можно загрузить из http://www.affymetrix.com/support/technical/annotationfilesmain.affx.

В этом примере загрузите и распакуйте файл аннотаций для массива Mapping, 50KXba Mapping50K_Xba240.na29.annot.csv. Информацию зонда SNP массива Mapping 50KXba можно прочитать из этого файла аннотаций. Установка переменной annoPath с указанием пути к расположению, в котором был сохранен файл аннотаций.

annoPath = 'C:\Examples\affysnpcnvdemo\AnnotFiles';

Функция affysnpannotread считывает файл аннотации и возвращает структуру, содержащую информацию о SNP-хромосоме, положения хромосом, последовательности и информацию о длине ПЦР-фрагмента, упорядоченную по идентификаторам набора зондов из второй входной переменной.

annoFile = fullfile(annoPath, 'Mapping50K_Xba240.na29.annot.csv');
annot_Xba = affysnpannotread(annoFile, XbaData.ProbeSetIDs)
annot_Xba = 

  struct with fields:

       ProbeSetIDs: {58960×1 cell}
        Chromosome: [58960×1 int8]
     ChromPosition: [58960×1 double]
          Cytoband: {58960×1 cell}
          Sequence: {58960×1 cell}
           AlleleA: {58960×1 cell}
           AlleleB: {58960×1 cell}
         Accession: {58960×1 cell}
    FragmentLength: [58960×1 double]

Оценка необработанных CN

Относительное число копий в SNP между двумя выборками оценивается на основе отношения log2 нормализованных сигналов. Усредненные нормализованные сигналы от нормальных выборок используются в качестве глобального эталона. Предварительно обработанные опорные средние логарифмические преобразованные сигналы для матрицы Mapping 50KXBa и матрицы 50KHind предоставляются в MAT-файлах, SCLC_normal_Xba и SCLC_normal_Hind соответственно.

load SCLC_Normal_Xba

Оцените отношение log2 нормированных сигналов.

log2Ratio_Xba = bsxfun(@minus, PM_Xba, mean_normal_PM_Xba);

Фильтрация и упорядочение

Зонды SNP с отсутствующим числом хромосом, геномным положением или длиной фрагмента в файле аннотации не имеют достаточной информации для дальнейшего анализа CN. Также для анализа CN Y-хромосомы обычно игнорируются. Отфильтруйте эти зонды SNP.

fidx = annot_Xba.Chromosome == -1 | annot_Xba.Chromosome == 24 |...
       annot_Xba.ChromPosition == -1 | annot_Xba.FragmentLength == 0;
log2Ratio_Xba(fidx, :) = [];
chromosome_Xba = annot_Xba.Chromosome(~fidx);
genomepos_Xba = annot_Xba.ChromPosition(~fidx);
probesetids_Xba = XbaData.ProbeSetIDs(~fidx);
fragmentlen_Xba = annot_Xba.FragmentLength(~fidx);
accession_Xba = annot_Xba.Accession(~fidx);

Оценка CN порядка по номерам хромосом:

[chr_sort, sidx] = sort(chromosome_Xba);
gpos_sort = genomepos_Xba(sidx);
log2Ratio_sort = log2Ratio_Xba(sidx, :);
probesetids_sort = probesetids_Xba(sidx);
fragmentlen_sort = fragmentlen_Xba(sidx);
accession_sort = accession_Xba(sidx);

Оценка CN порядка по хромосомным геномным позициям:

u_chr = unique(chr_sort);
gpsidx = zeros(length(gpos_sort),1);
for i = 1:length(u_chr)
    uidx = find(chr_sort == u_chr(i));
    gp_s = gpos_sort(uidx);
    [gp_ss, ssidx] = sort(gp_s);
    s_res = uidx(ssidx);
    gpsidx(uidx) = s_res;
end
gpos_ssort = gpos_sort(gpsidx);
log2Ratio_ssort = log2Ratio_sort(gpsidx, :);
probesetids_ssort = probesetids_sort(gpsidx);
fragmentlen_ssort = fragmentlen_sort(gpsidx);
accession_ssort = accession_sort(gpsidx);

Нормализация длины фрагмента PCR

При анализе следует учитывать систематические эффекты от процесса ПЦР. Например, более длинные фрагменты обычно приводят к меньшей амплификации ПЦР, что приводит к меньшему количеству материала для гибридизации и более слабым сигналам. Это можно увидеть, построив график необработанных CN с эффектом длины фрагмента.

figure;
plot(fragmentlen_ssort, log2Ratio_ssort(:, 1), '.')
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Pre PCR fragment length normalization')

Nannya et al., 2005 представила надежную линейную модель для оценки и удаления этого эффекта. Для этого примера используйте malowess функция нормализации длины фрагмента ПЦР для образца 1. Затем отобразите гладкую кривую посадки.

smoothfit = malowess(fragmentlen_ssort,log2Ratio_ssort(:,1));
hold on
plot(fragmentlen_ssort, smoothfit, 'r+')
hold off

log2Ratio_norm = log2Ratio_ssort(:,1) - smoothfit;

Постройте график нормированной оценки необработанной ХН длины ПЦР-фрагмента:

figure;
plot(fragmentlen_ssort, log2Ratio_norm, '.');
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Post PCR fragment length normalization')
hold off

Можно нормализовать эффект длины ПЦР-фрагмента для всех образцов, используя malowess функция.

Можно повторить предыдущие шаги для 50KHind данных массива.

Профиль генома CN

Загрузите MAT-файл, содержащий предварительно обработанные и нормализованные данные CN, из массивов 50KXba и массивов 50KHind.

load SCLC_CN_Data

Теперь можно построить график профиля всего генома общих ХН. Например, постройте график всего генома для образца 1 (CL_H524) с использованием функции помощника plotcngenomeprofile.

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 1),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{1})

Можно также построить график каждого профиля CN хромосомы на субплоте. Например, постройте график профиля CN каждой хромосомы для образца 12 (PT_0177T):

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 12),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{12}, 'S')

8q Амплификация в образцах SCLS

В исследовании Zhao et al., 2005, амплификация высокого уровня наблюдалась в области q12.2-q12.3 на хромосоме 8 для образцов SCLS. Можно выполнить сегментацию CBS на хромосоме 8 для образца PT_S0177T.

sampleid = find(strcmpi(samples, 'PT_S0177T'));
ps = cghcbs(SCLC_CN, 'sampleind', sampleid, 'chromosome', 8, 'showplot', 8)
Analyzing: PT_S0177T. Current chromosome 8

ps = 

  struct with fields:

         Sample: 'PT_S0177T'
    SegmentData: [1×1 struct]

Добавить идеограмму для хромосомы 8 на график:

chromosomeplot('hs_cytoBand.txt', 8, 'addtoplot', gca)

Вывод изменений номера копии:

segment_cn = ceil((2.^ps.SegmentData.Mean)*2);
cnv = segment_cn(segment_cn ~= 2);
startbp = ps.SegmentData.Start(segment_cn ~= 2)
endbp = ps.SegmentData.End(segment_cn ~= 2)
startMB = startbp/10^6;
endMB = endbp/10^6;
startbp =

    62089326
    62182830
   128769526


endbp =

    62182830
    62729651
   129006828

Вы также можете получить информацию о цитобанде для CNV. Функция cytobandread возвращает информацию о цитобанде в структуре.

ct = cytobandread('hs_cytoBand.txt')
ct = 

  struct with fields:

     ChromLabels: {862×1 cell}
    BandStartBPs: [862×1 int32]
      BandEndBPs: [862×1 int32]
      BandLabels: {862×1 cell}
       GieStains: {862×1 cell}

Найти метки цитобанда для CNV:

cn_cytobands = cell(length(cnv),1);
for i = 1:length(cnv)
    istart = find(ct.BandStartBPs <= startbp(i) & ct.BandEndBPs >= startbp(i) & strcmp(ct.ChromLabels, '8'));
    iend = find(ct.BandStartBPs <= endbp(i) & ct.BandEndBPs >= endbp(i) & strcmpi(ct.ChromLabels, '8'));
    if strcmpi(ct.BandLabels{istart}, ct.BandLabels{iend})
        cn_cytobands{i} = ['8' ct.BandLabels{istart}];
    else
        cn_cytobands{i} = ['8' ct.BandLabels{istart} '-' '8' ct.BandLabels{iend}];
    end
end

Создайте отчет, отображающий начальные позиции, конечные позиции и размер CNV.

report = sprintf('Cytobands      \tStart(Mb)\tEnd(Mb)\t\tSize(Mb)\tCN\n');
for i = 1:length(cnv)
   report = sprintf('%s%-15s\t%3.2f\t\t%3.2f\t\t%3.2f\t\t%d\n',...
               report, cn_cytobands{i},startMB(i),endMB(i),endMB(i)-startMB(i),cnv(i));
end
disp(report)
Cytobands      	Start(Mb)	End(Mb)		Size(Mb)	CN
8q12.2         	62.09		62.18		0.09		4
8q12.2-8q12.3  	62.18		62.73		0.55		7
8q24.21        	128.77		129.01		0.24		7

Среди трех областей амплификации область 8q12-13 была подтверждена межфазным FISH-анализом (Zhao et al., 2005).

Сводная информация о прибылях/убытках CN

Можно также визуализировать долю образцов с усилением числа копий, по крайней мере, тремя копиями (красный), и потери числа копий менее чем до 1,5 копий (синий) во всех SNP для всех образцов SCLS. Функция cghfreqplot отображает частоту изменений количества копий для нескольких образцов. Чтобы лучше визуализировать данные, постройте графики только SNP с частотой усиления или потери более 25%.

gainThrd = log2(3/2);
lossThrd = log2(1.5/2);
cghfreqplot(SCLC_CN, 'Color', [1 0 0; 0 0 1],...
            'Threshold', [gainThrd, lossThrd], 'cutoff', 0.25)
title('SCLC Summary Plot')

Ссылки

[1] Zhao, X., et al., «Гомозиготные делеции и амплификации хромосом в карциномах легких человека, выявленные с помощью анализа массива однонуклеотидного полиморфизма», Cancer Research, 65 (13): 5561-70, 2005.

[2] Nannya, Y., et al., «Надежный алгоритм для обнаружения числа копий с использованием массивов генотипирования олигонуклеотидного однонуклеотидного полиморфизма высокой плотности», Cancer Research, 65 (14): 6071-8, 2005.