Анализ Affymetrix® SNP Arrays для вариантов номера копии ДНК

Открыть скрипт

В этом примере показано, как учиться, ДНК копируют варианты номера путем предварительной обработки и анализа данных из массива Affymetrix® GeneChip® Human Mapping 100k.

Введение

Вариант номера копии (CNV) задан как хромосомный сегмент, который составляет 1 КБ или больше в длине, номер копии которой варьируется по сравнению со ссылочным геномом. CNV является одним из признаков генетической нестабильности, характерной для большинства человеческих случаев рака. При изучении раковых образований важная цель состоит в том, чтобы быстро и точно идентифицировать усиления номера копии и удаления, и оценить их частоты в уровень генома. Недавно, массивы одного полиморфизма нуклеотида (SNP) использовались, чтобы обнаружить и определить количество изменений номера копии всего генома с высоким разрешением. Подходы SNP массивов также предоставляют информацию о генотипе. Например, они могут показать потерю гетерозиготности (LOH), которая может представить свидетельства поддержки для присутствия удаления.

Affymetrix GeneChip, Сопоставляющий Набор Массивов, является популярной платформой для высокопроизводительного генотипирования SNP и обнаружения CNV. В этом примере мы используем общедоступный набор данных от массива SNP Affymetrix 100K, который опрашивает более чем 100 000 сайтов SNP. Вы импортируете и предварительно обработаете тестовые данные об уровне, оцените необработанные отношения сигнала выборок по сравнению со ссылками, и затем выведете числа копии в каждом местоположении SNP после сегментации.

Данные

Чжао и др. изучил изменения номера копии всего генома человеческих клеточных линий карциномы легкого и первичных опухолей [1]. Выборки были гибридизированы к массивам SNP Affymetrix 100K, каждый содержащий 115 593 сопоставленных мест SNP. В данном примере вы будете анализировать данные из 24 выборок маленькой карциномы легкого ячейки (SCLC), которых 19 были первичные выборки опухоли, и 5 были выборки клеточной линии.

Для каждой выборки SNPs были геновведены с двумя различными массивами, Ранний доступ 50KXba и Ранний доступ 50KHind, параллельно. Короче говоря, два определенных количества выборок ДНК были сначала переварены с ферментом ограничения XbaI или HindIII, соответственно. Переваренная ДНК была лигирована к адаптеру перед последующим усилением цепной реакции полимеразы (PCR). Четыре реакции PCR были настроены для каждого XbaI или HindIII лигированная адаптером выборка ДНК. Продукты PCR от этих четырех реакций были объединены, сконцентрированы и фрагментированы к области значений размера 250 - 2 000 BP. Фрагментированные продукты PCR были затем помечены, денатурированы и гибридизированы к массивам.

В данном примере вы будете работать с данными из EA 50KXba массив. Чтобы анализировать данные из EA 50KHind массив только повторяют шаги. Данные массива SNP хранятся в файлах CEL с каждым файлом CEL, содержащим данные из одного массива.

Примечание: анализ микроданных массива SNP Высокой плотности требует расширенных объемов памяти от операционной системы; если вы получаете "Out of memory" ошибки при выполнении этого примера, попытайтесь увеличить виртуальную память (или область подкачки) операционной системы или попытайтесь установить переключатель 3GB (только 32-битный Windows® XP). Эти методы описаны в этом документе.

Этот пример использует 50KXba и 50KHind наборы данных массива SNP (не включенный в тулбокс) из Лаборатории Мейерсона в Онкологическом институте Даны-Фарбера. Можно использовать любой другой набор данных, чтобы выполнить подобные исследования.

Файлами библиотеки CDF, используемыми для этих двух массивов, является CentXbaAv2.cdf и CentHindAv2.cdf. Можно получить эти файлы из веб-сайта Affymetrix.

Установите переменную Xba_celPath с путем к местоположению вы сохранили массив Xba файлы CEL и переменная libPath с путем к местоположению файла библиотеки CDF для EA 50KXba массив SNP. (Эти файлы не распределяются с Bioinformatics Toolbox™).

Xba_celPath = 'C:\Examples\affysnpcnvdemo\Xba_array';
libPath = 'C:\Examples\affysnpcnvdemo\LibFiles';

SCLC_Sample_CEL.txt, файл, которому предоставляют программное обеспечение Bioinformatics Toolbox™, содержит список 24 имен файлов CEL, используемых для этого примера и выборок (5 клеточных линий SCLC и 19 первичных опухолей), которому они принадлежат. Загрузите эти данные в две переменные MATLAB®.

fid = fopen('SCLC_Sample_CEL.txt','r');
ftext = textscan(fid, '%q%q');
fclose(fid);
samples = ftext{1};
cels = ftext{2};
nSample = numel(samples)

nSample =

    24

Доступ к данным Тестового Уровня SNP массивов

Affymetrix 50KXba массив SNP имеет плотность до 50K сайтов SNP. Каждый SNP на массиве представлен набором тестовых четырехразрядных байтов. Тестовый четырехразрядный байт состоит из набора тестовых пар для обеих аллелей (A и B) и и для вперед и для противоположные скрутки (антисмысл и смысл) для SNP. Каждая тестовая пара состоит идеальная пара (PM), зонд и несоответствие (MM) зонд. Программное обеспечение Bioinformatics Toolbox обеспечивает функции, чтобы получить доступ к данным тестового уровня.

Функциональный affyread читает файлы CEL и файлы библиотеки CDF для массивов SNP Affymetrix.

Считайте шестой файл CEL EA 50KXba данные в структуру MATLAB.

s_cel = affyread(fullfile(Xba_celPath, [cels{6} '.CEL']))

s_cel = 

  struct with fields:

                Name: 'S0168T.CEL'
            DataPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
             LibPath: 'C:\Examples\affysnpcnvdemo\Xba_array'
        FullPathName: 'C:\Examples\affysnpcnvdemo\Xba_array\S0168T.CEL'
            ChipType: 'CentXbaAv2'
                Date: '01-Feb-2013 11:54:13'
         FileVersion: 3
           Algorithm: 'Percentile'
           AlgParams: 'Percentile:75;CellMargin:2;OutlierHigh:1.500;OutlierLow:1.004;AlgVersion:6.0;FixedCellSize:TRUE;FullFeatureWidth:5;FullFeatureHeight:5;IgnoreOutliersInShiftRows:FALSE;FeatureExtraction:TRUE;PoolWidthExtenstion:2;PoolHeightExtension:2;UseSubgrids:FALSE;RandomizePixels:FALSE;ErrorBasis:StdvMean;StdMult:1.000000'
        NumAlgParams: 16
          CellMargin: 2
                Rows: 1600
                Cols: 1600
           NumMasked: 0
         NumOutliers: 12478
           NumProbes: 2560000
          UpperLeftX: 222
          UpperLeftY: 236
         UpperRightX: 8410
         UpperRightY: 219
          LowerLeftX: 252
          LowerLeftY: 8426
         LowerRightX: 8440
         LowerRightY: 8410
    ProbeColumnNames: {8×1 cell}
              Probes: [2560000×8 single]

Считайте файл библиотеки CDF для EA 50KXba массив в структуру MATLAB.

s_cdf = affyread(fullfile(libPath, 'CentXbaAv2.cdf'))

s_cdf = 

  struct with fields:

                   Name: 'CentXbaAv2.cdf'
               ChipType: 'CentXbaAv2'
                LibPath: 'C:\Examples\affysnpcnvdemo\LibFiles'
           FullPathName: 'C:\Examples\affysnpcnvdemo\LibFiles\CentXbaAv2.cdf'
                   Date: '01-Feb-2013 11:54:12'
                   Rows: 1600
                   Cols: 1600
           NumProbeSets: 63434
         NumQCProbeSets: 9
    ProbeSetColumnNames: {6×1 cell}
              ProbeSets: [63443×1 struct]

Можно смотреть общее качество массива путем просмотра данных об интенсивности тестового уровня с помощью функционального maimage.

 maimage(s_cel)

affysnpquartets функция составляет таблицу тестовых четырехразрядных байтов для SNP. На массивах SNP Affymetrix 100K тестовый четырехразрядный байт содержит 20 тестовых пар. Например, чтобы получить подробную информацию о тестовом наборе номер 6540, можно ввести следующие команды:

ps_id = 6540;
ps_qt = affysnpquartets(s_cel, s_cdf, ps_id)

ps_qt = 

  struct with fields:

    ProbeSet: '2685329'
     AlleleA: 'A'
     AlleleB: 'G'
     Quartet: [1×6 struct]

Можно также просмотреть карту тепла интенсивности премьер-министра и пар зонда MM четырехразрядного байта зонда SNP с помощью probesetplot функция. Нажмите кнопку Insert Colorbar, чтобы показать цветовую шкалу карты тепла.

probesetplot(s_cel, s_cdf, ps_id, 'imageonly', true);

В этом представлении 20 тестовых пар упорядочены слева направо. Первые две строки (10 тестовых пар) соответствуют аллели A, и последние две строки (10 тестовых пар) соответствуют аллели B. Для каждой аллели левые 5 тестовых пар соответствуют скрутке смысла (-), в то время как правильные 5 тестовых пар соответствуют антисмыслу (+) скрутка.

Импорт и преобразование набора данных

Вы будете использовать celintensityread функционируйте, чтобы считать все 24 файла CEL. celintensityread функция возвращает структуру, содержащую матрицы PM и MM (дополнительная) интенсивность для зондов и их чисел группы. В каждой тестовой матрице интенсивности индексы столбца соответствуют порядку, в котором были считаны файлы CEL, и каждая строка соответствует зонду. Для анализа номера копии (CN) только необходима интенсивность PM.

Импортируйте тестовые данные об интенсивности всего EA 50KXba массивы в структуру MATLAB.

XbaData = celintensityread(cels, 'CentXbaAv2.cdf',...
                     'celpath', Xba_celPath, 'cdfpath', libPath)

Reading CDF file: CentXbaAv2.cdf
Reading file 1 of 24: H524
Reading file 2 of 24: H526
Reading file 3 of 24: H1184
Reading file 4 of 24: H1607
Reading file 5 of 24: H1963
Reading file 6 of 24: S0168T
Reading file 7 of 24: S0169T
Reading file 8 of 24: S0170T
Reading file 9 of 24: S0171T
Reading file 10 of 24: S0172T
Reading file 11 of 24: S0173T
Reading file 12 of 24: S0177T
Reading file 13 of 24: S0185T
Reading file 14 of 24: S0187T
Reading file 15 of 24: S0188T
Reading file 16 of 24: S0189T
Reading file 17 of 24: S0190T
Reading file 18 of 24: S0191T
Reading file 19 of 24: S0192T
Reading file 20 of 24: S0193T
Reading file 21 of 24: S0194T
Reading file 22 of 24: S0196T
Reading file 23 of 24: S0198T
Reading file 24 of 24: S0199T

XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 63434
        NumProbes: 1268480
      ProbeSetIDs: {63434×1 cell}
     ProbeIndices: [1268480×1 uint8]
     GroupNumbers: [1268480×1 uint8]
    PMIntensities: [1268480×24 single]

Affymetrix Ранний доступ к массивам совпадают с текущим коммерческим Отображением 100K массивы за исключением некоторых кашировавшие зонды. Данные, полученные из EA Affymetrix 100K массивы SNP, могут быть преобразованы в Отображение 100K массивы путем отфильтровывания отклоненных идентификаторов зонда SNP на Раннем доступе к массиву и преобразования идентификаторов SNP в Отображение 100K идентификаторы SNP. Идентификаторы SNP для EA 50KXba и 50KHind массивы и их соответствующие идентификаторы SNP при Отображении 50KXba и 50KHind массивы обеспечиваются в двух файлах MAT, поставленных с программным обеспечением Bioinformatics Toolbox, Mapping50K_Xba_V_EA и Mapping50K_Hind_V_EA, соответственно.

load Mapping50K_Xba_V_EA

Функция помощника affysnpemconvert преобразует данные в Отображение 50KXba данные.

XbaData = affysnpemconvert(XbaData, EA50K_Xba_SNPID, Mapping50K_Xba_SNPID)

XbaData = 

  struct with fields:

          CDFName: 'CentXbaAv2.cdf'
         CELNames: {1×24 cell}
         NumChips: 24
     NumProbeSets: 58960
        NumProbes: 1179200
      ProbeSetIDs: {58960×1 cell}
     ProbeIndices: [1179200×1 uint8]
     GroupNumbers: [1179200×1 uint8]
    PMIntensities: [1179200×24 single]

Тестовая нормализация интенсивности

Можно просмотреть графики плотности преобразованного в журнал распределения интенсивности PM через эти 24 выборки перед предварительной обработкой.

f=zeros(nSample, 100);
xi = zeros(nSample, 100);
for i = 1:nSample
   [f(i,:),xi(i,:)] = ksdensity(log2(XbaData.PMIntensities(:,i)));
end

figure;
plot(xi', f')
xlabel('log2(PM)')
ylabel('Density')
title('Density Plot')
hold on

Нормализация квантиля является особенно эффективной при нормализации нелинейности в данных, введенных экспериментальными смещениями. Выполните нормализацию квантиля с помощью quantilenorm функция.

XbaData.PMIntensities = quantilenorm(XbaData.PMIntensities);

Постройте получившееся распределение квантиля с помощью пунктирной красной кривой.

[f,xi] = ksdensity(log2(XbaData.PMIntensities(:,1)));
plot(xi', f', '--r', 'Linewidth', 3)
hold off

Примечание: можно также использовать RMA или процедуры GCRMA для фоновой коррекции. Процедура RMA оценивает фон моделью смеси, где фоновые сигналы приняты, чтобы быть нормально распределенными, и истинные сигналы экспоненциально распределяются, в то время как процесс GCRMA состоит из оптической фоновой коррекции и основанной на тестовой последовательности фоновой корректировки. Для получения дополнительной информации о том, как использовать RMA и процедуры GCRMA, смотрите Предварительную обработку Affymetrix® Microarray Data на Тестовом Уровне.

Резюмирование тестового уровня

При помощи GroupNumbers полевые данные из структуры XbaData, можно извлечь интенсивность для аллели A и аллели B для каждого зонда. Используйте функциональный affysnpintensitysplit разделять тестовую матрицу интенсивности PMIntensities в две матрицы с одинарной точностью, PMAIntensities и PMBIntensities, для аллели A и аллели B зондирует соответственно. Количество зондов в каждой матрице является максимальным количеством зондов для каждой аллели.

XbaData = affysnpintensitysplit(XbaData)

XbaData = 

  struct with fields:

           CDFName: 'CentXbaAv2.cdf'
          CELNames: {1×24 cell}
          NumChips: 24
      NumProbeSets: 58960
         NumProbes: 589600
       ProbeSetIDs: {58960×1 cell}
      ProbeIndices: [589600×1 uint8]
    PMAIntensities: [589600×24 single]
    PMBIntensities: [589600×24 single]

Для общего анализа номера копии упрощение должно проигнорировать аллель A и аллель B последовательности и их информация о скрутке и, вместо этого, объединить интенсивность премьер-министра для аллели A и аллели B каждой тестовой пары.

PM_Xba = XbaData.PMAIntensities + XbaData.PMBIntensities;

Для конкретного SNP у нас теперь есть K (K=5 для Affymetrix, Сопоставляющего 100K массивы) добавленные сигналы, каждый сигнал, являющийся мерой того же самого - общий CN. Однако каждый из сигналов K имеет немного отличающиеся последовательности, таким образом, их КПД гибридизации может отличаться. Можно использовать методы резюмирования RMA, чтобы подвести итог интенсивности зонда аллели для каждого набора зонда SNP.

PM_Xba = rmasummary(XbaData.ProbeIndices, PM_Xba);

Получение информации зонда SNP

Affymetrix обеспечивает отформатированные CSV файлы аннотации для их массивов SNP. Можно загрузить файлы аннотации для Отображения 100K массивы от http://www.affymetrix.com/support/technical/annotationfilesmain.affx.

В данном примере загрузите и разархивируйте файл аннотации для Отображения, 50KXba массив Mapping50K_Xba240.na29.annot.csv. Информация о зонде SNP Отображения 50KXba массив, может быть считан из этого файла аннотации. Установите переменную annoPath с путем к местоположению, где вы сохранили файл аннотации.

annoPath = 'C:\Examples\affysnpcnvdemo\AnnotFiles';

Функциональный affysnpannotread читает файл аннотации и возвращает структуру, содержащую информацию о хромосоме SNP, хромосомные положения, последовательности и информацию о длине фрагмента PCR, упорядоченную тестовыми идентификаторами набора от второй входной переменной.

annoFile = fullfile(annoPath, 'Mapping50K_Xba240.na29.annot.csv');
annot_Xba = affysnpannotread(annoFile, XbaData.ProbeSetIDs)

annot_Xba = 

  struct with fields:

       ProbeSetIDs: {58960×1 cell}
        Chromosome: [58960×1 int8]
     ChromPosition: [58960×1 double]
          Cytoband: {58960×1 cell}
          Sequence: {58960×1 cell}
           AlleleA: {58960×1 cell}
           AlleleB: {58960×1 cell}
         Accession: {58960×1 cell}
    FragmentLength: [58960×1 double]

Необработанная оценка CN

Относительный номер копии в SNP между двумя выборками оценивается на основе log2 отношения нормированных сигналов. Усредненные нормированные сигналы от нормальных выборок используются в качестве глобальной ссылки. Предварительно обработанное ссылочное среднее значение преобразованные в журнал сигналы для Отображения 50KXBa массив и 50KHind массив обеспечивается в MAT-файлах, SCLC_normal_Xba и SCLC_normal_Hind соответственно.

load SCLC_Normal_Xba

Оцените log2 отношение нормированных сигналов.

log2Ratio_Xba = bsxfun(@minus, PM_Xba, mean_normal_PM_Xba);

Фильтрация и упорядоченное расположение

Зонды SNPs с недостающим номером хромосомы, геномным положением или длиной фрагмента в файле аннотации не имеют достаточной информации для далее анализа CN. Также для анализа CN, Y хромосомы обычно игнорируются. Отфильтруйте эти зонды SNP.

fidx = annot_Xba.Chromosome == -1 | annot_Xba.Chromosome == 24 |...
       annot_Xba.ChromPosition == -1 | annot_Xba.FragmentLength == 0;
log2Ratio_Xba(fidx, :) = [];
chromosome_Xba = annot_Xba.Chromosome(~fidx);
genomepos_Xba = annot_Xba.ChromPosition(~fidx);
probesetids_Xba = XbaData.ProbeSetIDs(~fidx);
fragmentlen_Xba = annot_Xba.FragmentLength(~fidx);
accession_Xba = annot_Xba.Accession(~fidx);

Закажите оценку CN числами хромосом:

[chr_sort, sidx] = sort(chromosome_Xba);
gpos_sort = genomepos_Xba(sidx);
log2Ratio_sort = log2Ratio_Xba(sidx, :);
probesetids_sort = probesetids_Xba(sidx);
fragmentlen_sort = fragmentlen_Xba(sidx);
accession_sort = accession_Xba(sidx);

Закажите оценку CN хромосомными геномными положениями:

u_chr = unique(chr_sort);
gpsidx = zeros(length(gpos_sort),1);
for i = 1:length(u_chr)
    uidx = find(chr_sort == u_chr(i));
    gp_s = gpos_sort(uidx);
    [gp_ss, ssidx] = sort(gp_s);
    s_res = uidx(ssidx);
    gpsidx(uidx) = s_res;
end

gpos_ssort = gpos_sort(gpsidx);
log2Ratio_ssort = log2Ratio_sort(gpsidx, :);
probesetids_ssort = probesetids_sort(gpsidx);
fragmentlen_ssort = fragmentlen_sort(gpsidx);
accession_ssort = accession_sort(gpsidx);

Нормализация длины фрагмента PCR

В анализе должны быть учтены систематические эффекты от процесса PCR. Например, более длинные фрагменты обычно приводят к меньшему количеству усиления PCR, которое приводит к меньшему количеству материала, чтобы гибридизировать и более слабые сигналы. Вы видите это путем графического вывода необработанной ЦНС с воздействием длины фрагмента.

figure;
plot(fragmentlen_ssort, log2Ratio_ssort(:, 1), '.')
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Pre PCR fragment length normalization')

Nannya и др., 2005 ввел устойчивую линейную модель, чтобы оценить и удалить этот эффект. В данном примере используйте malowess функция для нормализации длины фрагмента PCR для демонстрационного 1. Затем отобразите сглаженную подходящую кривую.

smoothfit = malowess(fragmentlen_ssort,log2Ratio_ssort(:,1));
hold on
plot(fragmentlen_ssort, smoothfit, 'r+')
hold off

log2Ratio_norm = log2Ratio_ssort(:,1) - smoothfit;

Постройте нормированную необработанную оценку CN длины фрагмента PCR:

figure;
plot(fragmentlen_ssort, log2Ratio_norm, '.');
hold on
plot([0 2200], [0 0], '-.g')
xlim([0 2200])
ylim([-5 5])
xlabel('Fragment Length')
ylabel('log2(Ratio)')
title('Post PCR fragment length normalization')
hold off

Можно нормировать воздействие длины фрагмента PCR для всех выборок с помощью malowess функция.

Снова, можно повторить предыдущие шаги для 50KHind данные массива.

Профиль генома CN

Загрузите MAT-файл, содержащий предварительно обработанные и нормированные данные CN и из 50KXba массивы и из 50KHind массивы.

load SCLC_CN_Data

Можно теперь построить профиль целого генома общей ЦНС. Например, постройте профиль целого генома для демонстрационного 1 (CL_H524) с помощью функции помощника plotcngenomeprofile.

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 1),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{1})

Можно также построить каждую хромосому профиль CN в подграфике. Например, постройте каждую хромосому профиль CN для демонстрационных 12 (PT_0177T):

plotcngenomeprofile(SCLC_CN.GenomicPosition,SCLC_CN.Log2Ratio(:, 12),...
                  SCLC_CN.Chromosome, 1:23, SCLC_CN.Sample{12}, 'S')

8q усиление в выборках SCLS

В Чжао и др., 2 005 исследованиях, высокоуровневое усиление наблюдалось в q12.2-q12.3 области на хромосоме 8 для выборок SCLS. Можно выполнить сегментацию CBS на хромосоме 8 для демонстрационного PT_S0177T.

sampleid = find(strcmpi(samples, 'PT_S0177T'));
ps = cghcbs(SCLC_CN, 'sampleind', sampleid, 'chromosome', 8, 'showplot', 8)

Analyzing: PT_S0177T. Current chromosome 8

ps = 

  struct with fields:

         Sample: 'PT_S0177T'
    SegmentData: [1×1 struct]

Добавьте идеограмму для хромосомы 8 к графику:

chromosomeplot('hs_cytoBand.txt', 8, 'addtoplot', gca)

Выведите изменения номера копии:

segment_cn = ceil((2.^ps.SegmentData.Mean)*2);
cnv = segment_cn(segment_cn ~= 2);
startbp = ps.SegmentData.Start(segment_cn ~= 2)
endbp = ps.SegmentData.End(segment_cn ~= 2)
startMB = startbp/10^6;
endMB = endbp/10^6;

Можно также получить cytoband информацию для CNVs. Функциональный cytobandread возвращает cytoband информацию в структуре.

ct = cytobandread('hs_cytoBand.txt')

ct = 

  struct with fields:

     ChromLabels: {862×1 cell}
    BandStartBPs: [862×1 int32]
      BandEndBPs: [862×1 int32]
      BandLabels: {862×1 cell}
       GieStains: {862×1 cell}

Найдите метки cytoband для CNVs:

cn_cytobands = cell(length(cnv),1);
for i = 1:length(cnv)
    istart = find(ct.BandStartBPs <= startbp(i) & ct.BandEndBPs >= startbp(i) & strcmp(ct.ChromLabels, '8'));
    iend = find(ct.BandStartBPs <= endbp(i) & ct.BandEndBPs >= endbp(i) & strcmpi(ct.ChromLabels, '8'));
    if strcmpi(ct.BandLabels{istart}, ct.BandLabels{iend})
        cn_cytobands{i} = ['8' ct.BandLabels{istart}];
    else
        cn_cytobands{i} = ['8' ct.BandLabels{istart} '-' '8' ct.BandLabels{iend}];
    end
end

Создайте отчет, отображающий положения запуска, конечные положения и размер CNVs.

report = sprintf('Cytobands      \tStart(Mb)\tEnd(Mb)\t\tSize(Mb)\tCN\n');
for i = 1:length(cnv)
   report = sprintf('%s%-15s\t%3.2f\t\t%3.2f\t\t%3.2f\t\t%d\n',...
               report, cn_cytobands{i},startMB(i),endMB(i),endMB(i)-startMB(i),cnv(i));
end
disp(report)

Cytobands      	Start(Mb)	End(Mb)		Size(Mb)	CN
8q12.2         	62.09		62.18		0.09		4
8q12.2-8q12.3  	62.18		62.73		0.55		7
8q24.21        	128.77		129.01		0.24		7

Среди трех областей усиления 8q12-13 область была подтверждена анализом межфазы FISH (Чжао и др., 2005).

График Сводных данных CN усиления/потери

Можно также визуализировать часть выборок с усилениями номера копии по крайней мере трех (красных) копий, и скопировать потери номера меньше чем для 1,5 (синих) копий через весь SNPs для всех выборок SCLS. Функциональный cghfreqplot частота отображений изменений номера копии через несколько выборок. Чтобы лучше визуализировать данные, постройте только SNPs с усилением или частотой потерь более чем 25%.

gainThrd = log2(3/2);
lossThrd = log2(1.5/2);
cghfreqplot(SCLC_CN, 'Color', [1 0 0; 0 0 1],...
            'Threshold', [gainThrd, lossThrd], 'cutoff', 0.25)
title('SCLC Summary Plot')

Ссылки

[1] Чжао, X., и др., "Гомозиготные удаления и усиления хромосомы при человеческих карциномах легкого, показанных одним анализом полиморфизма нуклеотида массивов", Исследования рака, 65 (13):5561-70, 2005.

[2] Nannya, Y., и др., "Устойчивый алгоритм для обнаружения номера копии с помощью высокоплотного олигонуклеотида один массивы генотипирования полиморфизма нуклеотида", Исследования рака, 65 (14):6071-8, 2005.

Документация