exponenta event banner

cghcbs

Выполнить циклическую двоичную сегментацию (CBS) на основе данных сравнительной геномной гибридизации (aCGH) на основе массива

Синтаксис

SegmentStruct = cghcbs(CGHData)
SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...)
SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...)
SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...)

Входные аргументы

CGHData Данные сравнительной геномной гибридизации (aCGH) на основе массива в любой из следующих форм:
  • Структура со следующими полями:

    • Sample - массив ячеек символьных векторов или строковых векторов, содержащих имена образцов (необязательно).

    • Chromosome - Вектор, содержащий номера хромосом, на которых расположены клоны.

    • GenomicPosition - Вектор, содержащий геномные положения (в любой единице), на которые нанесены клоны.

    • Log2Ratio - Матрица, содержащая отношение log2 теста к интенсивности опорного сигнала для каждого клона. Каждая строка соответствует клону, и каждый столбец соответствует образцу.

  • Матрица, в которой каждая строка соответствует клону. Первая колонка содержит номер хромосомы, вторая колонка содержит геномное положение, а остальные колонки содержат отношение log2 теста к интенсивности опорного сигнала для образца.

AlphaValue Скаляр, указывающий уровень значимости статистических тестов для принятия точек изменения. По умолчанию: 0.01.
PermutationsValueСкаляр, указывающий количество перестановок, используемых для оценки p-значения. По умолчанию: 10,000.
MethodValueСимвольный вектор или строка, указывающая метод оценки значений p. Варианты: 'Perm' или 'Hybrid' (по умолчанию). 'Perm' выполняет полную перестановку, в то время как 'Hybrid' использует более быструю перестановку на основе вероятности хвоста. При использовании 'Hybrid' способ, 'Perm' способ применяется автоматически, когда длина данных сегмента становится меньше 200.
StoppingRuleValueУправляет использованием правила эвристической остановки, основанного на методе, описанном Венкатраманом и Ольшеном (2007), для объявления изменения без выполнения полного количества перестановок для оценки p-значения, когда становится весьма вероятным, что изменение было обнаружено. Варианты: true или false (по умолчанию).

Совет

Установить для этого свойства значение true повышение скорости обработки. Установить для этого свойства значение false максимизация точности.

SmoothValueУправляет сглаживанием отклонений перед сегментацией с использованием процедуры, описанной Olshen et al. (2004). Варианты: true (по умолчанию) или false.
PruneValueКонтролирует устранение точек изменений, выявленных из-за локальных тенденций в данных, которые не указывают на изменение номера реальной копии, используя процедуру, объясненную Olshen et al. (2004). Варианты: true или false (по умолчанию).
ErrsumValueСкаляр, указывающий допустимое пропорциональное увеличение суммы ошибок квадратов при исключении точек изменения с помощью 'Prune' собственность. Обычно используемые значения: 0.05 и 0.1. По умолчанию: 0.05.
WindowSizeValueСкаляр, указывающий размер окна (в точках данных), используемого для разделения данных при использовании 'Perm' метод на больших наборах данных. По умолчанию: 200.
SampleIndexValueОдин индекс выборки или вектор индексов выборки, которые определяют анализируемые образцы. По умолчанию используются все выборочные индексы .
ChromosomeValueЕдинственное число хромосом или вектор чисел хромосом, которые определяют данные для анализа. По умолчанию - все числа хромосом.
ShowplotValue

Управление отображением графиков в значениях сегментов над исходными данными. Варианты:

  • true - Все хромосомы во всех образцах нанесены на график. При наличии нескольких образцов в CGHDataзатем каждый образец наносится на график в отдельном окне рисунка.

  • false - Нет сюжета.

  • W - Раскладка отображает все хромосомы во всем геноме на одном графике в окне «Рисунок».

  • S - Раскладка отображает каждую хромосому на вложенном графике в окне «Рисунок».

  • I - целое число, указывающее только одну из хромосом в CGHData для печати.

Значение по умолчанию:

  • false - Когда указаны возвращаемые значения.

  • true и W - Когда возвращаемые значения не указаны.

VerboseValueУправляет отображением отчета о ходе выполнения анализа. Варианты: true (по умолчанию) или false.

Выходные аргументы

SegmentStruct

Структура, содержащая информацию о сегментации в следующих полях:

  • Sample - Имя образца из CGHData входной аргумент. Если входной аргумент не включает имена образцов, то имена образцов назначаются как Sample1, Sample2и так далее.

  • SegmentData - Структурный массив, содержащий данные сегмента для образца в следующих полях:

    • Chromosome - число хромосом, на которых расположен сегмент.

    • Start - Геномное положение в начале сегмента (в тех же единицах, что используются для CGHData вход).

    • End - Геномное положение в конце сегмента (в тех же единицах, что используются для CGHData вход).

    • Mean - Среднее значение отношения log2 теста к интенсивности опорного сигнала для сегмента.

Описание

SegmentStruct = cghcbs(CGHData) выполняет циклическую двоичную сегментацию (CBS) данных сравнительной геномной гибридизации на основе массива (aCGH) для определения сегментов изменения числа копий (соседние области ДНК, которые демонстрируют статистическую разницу в количестве копий) и точек изменения.

Примечание

Алгоритм CBS рекурсивно разбивает хромосомы на сегменты на основе максимальной t статистики, оцененной перестановкой. Это вычисление может занять много времени. Если n = количество точек данных, затем время вычисления ~ O (n2).

SegmentStruct = cghcbs(CGHData, ...'PropertyName', PropertyValue, ...) требования cghcbs с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Эти пары имя/значение свойства следующие:

SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...) определяет уровень значимости статистических тестов для принятия точек изменения. По умолчанию: 0.01.

SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...) указывает количество перестановок, используемых для оценки значения p. По умолчанию: 10,000.

SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...) задает метод для оценки значений p. Варианты: 'Perm' или 'Hybrid' (по умолчанию). 'Perm' выполняет полную перестановку, в то время как 'Hybrid' использует более быструю перестановку на основе вероятности хвоста. При использовании 'Hybrid' способ, 'Perm' способ применяется автоматически, когда длина данных сегмента становится меньше 200.

SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...) управляет использованием правила эвристической остановки, основанного на методе, описанном Венкатраманом и Ольшеном (2007), для объявления изменения без выполнения полного числа перестановок для оценки p-значения, когда становится весьма вероятным, что изменение было обнаружено. Варианты: true или false (по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...) управляет сглаживанием отклонений перед сегментацией, используя процедуру, объясненную Olshen et al. (2004). Варианты: true (по умолчанию) или false.

SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...) контролирует устранение точек изменений, выявленных из-за локальных тенденций в данных, которые не указывают на изменение номера реальной копии, используя процедуру, объясненную Olshen et al. (2004). Варианты: true или false (по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...) задает допустимое пропорциональное увеличение суммы ошибок квадратов при устранении точек изменения с помощью 'Prune' собственность. Обычно используемые значения: 0.05 и 0.1. По умолчанию: 0.05.

SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...) задает размер окна (в точках данных), используемого для разделения данных при использовании 'Perm' метод на больших наборах данных. По умолчанию: 200.

SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...) анализирует только образцы, указанные SampleIndexValue, который может быть одним индексом выборки или вектором индексов выборки. По умолчанию используются все выборочные индексы.

SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...) анализирует только данные о хромосомах, указанные ChromosomeValue, которое может быть единственным числом хромосом или вектором чисел хромосом. По умолчанию - все числа хромосом.

SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...) управляет отображением графиков средства сегмента над исходными данными. Варианты: true, false, W, S, или I, целое число, определяющее одну из хромосом в CGHData. Когда ShowplotValue является trueвсе хромосомы во всех образцах нанесены на график. При наличии нескольких образцов в CGHDataзатем каждый образец наносится на график в отдельном окне рисунка. Когда ShowplotValue является Wмакет отображает все хромосомы на одном графике в окне «Рисунок». Когда ShowplotValue является S, макет отображает каждую хромосому на вложенном графике в окне «Рисунок». Когда ShowplotValue является I, строят только указанную хромосому. Значение по умолчанию:

  • false - Когда указаны возвращаемые значения.

  • true и W - Когда возвращаемые значения не указаны.

SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...) управляет отображением отчета о ходе выполнения анализа. Варианты: true (по умолчанию) или false.

Примеры

свернуть все

Анализ данных исследования клеточной линии Coriell

Загрузить данные CGH (aCGH) на основе массива из исследования клеточной линии Кориелла (Snijders, A. et al., 2001).

load coriell_baccgh

Проанализируйте все хромосомы образца 3 (GM05296) данных aCGH и верните данные сегментации в структуре, S. Постройте график сегмента над исходными данными для всех хромосом этого образца.

S = cghcbs(coriell_data,'sampleindex',3,'showplot',true);
Analyzing: GM05296. Current chromosome 1
Analyzing: GM05296. Current chromosome 2
Analyzing: GM05296. Current chromosome 3
Analyzing: GM05296. Current chromosome 4
Analyzing: GM05296. Current chromosome 5
Analyzing: GM05296. Current chromosome 6
Analyzing: GM05296. Current chromosome 7
Analyzing: GM05296. Current chromosome 8
Analyzing: GM05296. Current chromosome 9
Analyzing: GM05296. Current chromosome 10
Analyzing: GM05296. Current chromosome 11
Analyzing: GM05296. Current chromosome 12
Analyzing: GM05296. Current chromosome 13
Analyzing: GM05296. Current chromosome 14
Analyzing: GM05296. Current chromosome 15
Analyzing: GM05296. Current chromosome 16
Analyzing: GM05296. Current chromosome 17
Analyzing: GM05296. Current chromosome 18
Analyzing: GM05296. Current chromosome 19
Analyzing: GM05296. Current chromosome 20
Analyzing: GM05296. Current chromosome 21
Analyzing: GM05296. Current chromosome 22
Analyzing: GM05296. Current chromosome 23
Analyzing: GM05296. Current chromosome 26
Analyzing: GM05296. Current chromosome 27
Analyzing: GM05296. Current chromosome 30

Хромосома 10 показывает усиление, в то время как хромосома 11 показывает потерю.

Показать области изменения количества копий, выровненные с хромосомной идеограммой

Создайте структуру, содержащую информацию о выигрыше и потерях сегмента для хромосом 10 и 11 из образца 3, убедившись, что данные сегмента находятся в единицах bp. (Информацию о дисперсии числа копирования (CNV) можно определить, изучив S, структуру сегментов, возвращаемых функцией cghcbs. Для 'CNVType' используйте 1 для указания потерь и 2 для указания коэффициента усиления.

cnvStruct = struct('Chromosome', [10 11],...
 'CNVType', [2 1],...
 'Start', [S.SegmentData(10).Start(2),...
  S.SegmentData(11).Start(2)]*1000,...
 'End',   [S.SegmentData(10).End(2),...
  S.SegmentData(11).End(2)]*1000)
cnvStruct = 

  struct with fields:

    Chromosome: [10 11]
       CNVType: [2 1]
         Start: [66905000 35416000]
           End: [110412000 43357000]

Передать структуру в chromosomeplot с помощью функции 'CNV' опция для отображения усиления числа копий (зеленый) и потерь (красный), выровненных с идеограммой хромосомы человека. Укажите единицы kb для отображения информации о сегментах в подсказке данных.

chromosomeplot('hs_cytoBand.txt', 'CNV', cnvStruct, 'unit', 2)

Анализ данных исследования рака поджелудочной железы

Загрузить данные aCGH из исследования рака поджелудочной железы (Aguirre, A. et al., 2004).

load pancrea_oligocgh

Анализ только хромосомы 9 в образце 32 данных CGH и возврат данных сегментации в структуре, PS. График сегмента означает поверх исходных данных для хромосомы 9 в этом образце.

PS = cghcbs(pancrea_data,'sampleindex',32,'chromosome',9,...
            'showplot',9);
Analyzing: PA.T.7692.redo. Current chromosome 9

Хромосома 9 содержит два сегмента, которые указывают на потери. Для получения более подробной информации о интерпретации данных см. Aguirre, A. et al. (2004).

Используйте chromosomeplot функции с помощью 'addtoplot' возможность добавления идеограммы хромосомы 9 для Homo sapiens к графику данных сегментации.

chromosomeplot('hs_cytoBand.txt', 9, 'addtoplot', gca)

Ссылки

[1] Ольшен, А.Б., Венкатраман, Э.С., Люсито, Р. и Уиглер, М. (2004). Циклическая бинарная сегментация для анализа данных числа копий ДНК на основе массива. Биостатистика 5, 4, 557-572.

[2] Венкатраман, Э.С., и Ольшен, А.Б. (2007). Алгоритм более быстрой циклической двоичной сегментации для анализа данных CGH массива. Биоинформатика 23 (6), 657-663.

[3] Венкатраман, Э.С., и Ольшен, А.Б. (2006). Пакет для анализа данных копии ДНК. https://www.bioconductor.org/packages/2.1/bioc/html/DNAcopy.html

[4] Снайдерс, А.М., Новак, Н., Сегрейвс, Р., Блэквуд, С., Браун, Н., Конрой, Дж., Гамильтон, Г., Хиндл, А.К., Хьюи, Б., Кимура, К., Ло, С., Мямбо, К., Палмер, Дж. Грей, Джей У., Джейн, А.Н., Пинкел, Д. и Альбертсон, Д.Г. (2001). Сборка микрочипов для измерения числа копий ДНК по всему геному. Генетика природы 29, 263-264.

[5] Агирре, А.Дж., Бреннан, К., Бейли, Г., Синха, Р., Фэн, Б., Лео, К., Чжан, Я., Чжан, Дж., Ганс, Дж. Д., Бардизи, Н., Коувелс, К., Кордон-Кардо, К., Редстон, М. С., ДеПиньо, Р.А., и Чин, Л. (2004). Характеристика высокого разрешения генома аденокарциномы поджелудочной железы. ПНАС 101, 24, 9067-9072.

См. также

|

Представлен в R2007b