cghcbs

Выполните круговую двоичную сегментацию (CBS) на основе массивов данных сравнительной геномной гибридизации (aCGH)

Синтаксис

SegmentStruct = cghcbs(CGHData)
SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...)
SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...)
SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...)

Входные параметры

CGHData Основанные на массивах сравнительные данные геномной гибридизации (aCGH) в любой из следующих форм:
  • Структурируйте следующие поля:

    • Sample - Массив ячеек из символьных векторов или строкового вектора, содержащий имена выборок (необязательно).

    • Chromosome - вектор, содержащий номера хромосом, на которых расположены клоны.

    • GenomicPosition - Вектор, содержащий геномные положения (в любом модуле), с которыми отображены клоны.

    • Log2Ratio - матрица, содержащая логарифмическое отношение интенсивности теста к опорному сигналу для каждого клона. Каждая строка соответствует клону, и каждый столбец соответствует выборке.

  • Матрица, в которой каждая строка соответствует клону. Первый столбец содержит номер хромосомы, второй столбец содержит геномное положение, а оставшиеся столбцы содержат отношение log2 интенсивности теста к опорному сигналу для выборки.

AlphaValue Скаляр, который задает уровень значимости для статистических тестов, чтобы принять точки изменения. По умолчанию это 0.01.
PermutationsValueСкаляр, который задает количество сочетаний, используемых для оценки p-значения. По умолчанию это 10,000.
MethodValueВектор символов или строка, которая задает метод для оценки p-значений. Варианты 'Perm' или 'Hybrid' (по умолчанию). 'Perm' делает полное сочетание, в то время как 'Hybrid' использует более быструю, основанную на хвостовой вероятности, сочетание. При использовании 'Hybrid' метод, 'Perm' метод применяется автоматически, когда длина данных сегмента становится меньше 200.
StoppingRuleValueУправляет использованием эвристического правила остановки, основанного на методе, описанном Венкатраманом и Ольшеном (2007), чтобы объявить изменение, не выполняя полное количество сочетаний для оценки p-значения, всякий раз, когда становится очень вероятно, что изменение было обнаружено. Варианты true или false (по умолчанию).

Совет

Установите это свойство на true увеличение скорости обработки. Установите это свойство на false для максимизации точности.

SmoothValueУправляет сглаживанием выбросов перед сегментацией, используя процедуру, объясненную Olshen et al. (2004). Варианты true (по умолчанию) или false.
PruneValueУправляет устранением точек изменения, идентифицированных из-за локальных трендов в данных, которые не указывают на реальное изменение номера копии, используя процедуру, объясненную Olshen et al. (2004). Варианты true или false (по умолчанию).
ErrsumValueСкаляр, который задает допустимое пропорциональное увеличение суммы ошибок квадратов при устранении точек изменения с помощью 'Prune' свойство. Обычно используемые значения 0.05 и 0.1. По умолчанию это 0.05.
WindowSizeValueСкаляр, который задает размер окна (в точках данных), используемого для деления данных при использовании 'Perm' метод на больших наборах данных. По умолчанию это 200.
SampleIndexValueОдин индекс выборки или вектор выборочных индексов, которые задают выборки (выборки ) (ы) для анализа. По умолчанию это все выборочные индексы .
ChromosomeValueОдно число хромосом или вектор чисел хромосом, которые определяют данные для анализа. По умолчанию это все числа хромосом.
ShowplotValue

Управление отображением графиков сегмента означает над исходными данными. Возможны следующие варианты:

  • true - Все хромосомы во всех выборках построены. Если существуют несколько выборок в CGHDataзатем каждая выборка строится в отдельном окне рисунка.

  • false - Нет графика.

  • W - размещение отображает все хромосомы во всем геноме на одном графике в окне рисунка.

  • S - размещение отображает каждую хромосому на подграфике в окне рисунка.

  • I - целое число, задающее только одну из хромосом в CGHData для построения графика.

По умолчанию это:

  • false - Когда заданы возвращаемые значения.

  • true и W - Когда значения возврата не заданы.

VerboseValueУправление отображением отчета о прогрессе анализа. Варианты true (по умолчанию) или false.

Выходные аргументы

SegmentStruct

Структура, содержащая информацию о сегментации в следующих полях:

  • Sample - Выборка из CGHData входной параметр. Если входной параметр не включает имена выборок, то имена выборок присваиваются следующим Sample1, Sample2и так далее.

  • SegmentData - Массив структур, содержащий данные сегмента для выборки в следующих полях:

    • Chromosome - Число хромосом, на котором расположен сегмент.

    • Start - Геномное положение в начале сегмента (в тех же модулях, которые используются для CGHData вход).

    • End - Геномное положение в конце сегмента (в тех же модулях, которые используются для CGHData вход).

    • Mean - Среднее значение отношения log2 критерия к интенсивности опорного сигнала для сегмента.

Описание

SegmentStruct = cghcbs(CGHData) выполняет круговую двоичную сегментацию (CBS) по данным сравнительной геномной гибридизации (aCGH) на основе массивов для определения сегментов изменения числа копий (соседние области ДНК, которые показывают статистическое различие в количестве копий) и точек изменения.

Примечание

Алгоритм CBS рекурсивно разделяет хромосомы на сегменты на основе максимальной статистики t, оцененной сочетанием. Эти расчеты могут занять много времени. Если n = количество точек данных, затем время расчета ~ O (n2).

SegmentStruct = cghcbs (CGHData... 'PropertyName', PropertyValue, ...) вызывает cghcbs с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...) задает уровень значимости для статистических тестов, чтобы принять точки изменения. По умолчанию это 0.01.

SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...) задает количество сочетаний, используемых для оценки p-значения. По умолчанию это 10,000.

SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...) задает метод для оценки значений p. Варианты 'Perm' или 'Hybrid' (по умолчанию). 'Perm' делает полное сочетание, в то время как 'Hybrid' использует более быструю, основанную на хвостовой вероятности, сочетание. При использовании 'Hybrid' метод, 'Perm' метод применяется автоматически, когда длина данных сегмента становится меньше 200.

SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...) управляет использованием эвристического правила остановки, основанного на методе, описанном Венкатраманом и Ольшеном (2007), чтобы объявить изменение, не выполняя полное количество сочетаний для оценки p-значения, всякий раз, когда становится очень вероятно, что изменение было обнаружено. Варианты true или false (по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...) управляет сглаживанием выбросов перед сегментацией, используя процедуру, объясненную Olshen et al. (2004). Варианты true (по умолчанию) или false.

SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...) управляет устранением точек изменения, идентифицированных из-за локальных трендов в данных, которые не указывают на реальное изменение номера копии, используя процедуру, объясненную Olshen et al. (2004). Варианты true или false (по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...) задает допустимое пропорциональное увеличение суммы ошибок квадратов при исключении точек изменения с помощью 'Prune' свойство. Обычно используемые значения 0.05 и 0.1. По умолчанию это 0.05.

SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...) задает размер окна (в точках данных), используемого для деления данных при использовании 'Perm' метод на больших наборах данных. По умолчанию это 200.

SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...) анализирует только выборки (выборки ), заданные SampleIndexValue, который может быть одним индексом выборки или вектором индексов выборки. По умолчанию это все выборочные индексы.

SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...) анализирует только данные по хромосомам, заданные ChromosomeValue, который может быть одним числом хромосом или вектором с числами хромосом. По умолчанию это все числа хромосом.

SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...) управляет отображением графиков средств сегмента над исходными данными. Варианты true, false, W, S, или Iцелое число, задающее одну из хромосом в CGHData. Когда ShowplotValue является trueвсе хромосомы во всех выборках построены. Если существуют несколько выборок в CGHDataзатем каждая выборка строится в отдельном окне рисунка. Когда ShowplotValue является W, размещение отображает все хромосомы на одном графике в Окно рисунка. Когда ShowplotValue является S, размещение отображает каждую хромосому на подграфике в Окно рисунка. Когда ShowplotValue является I, нанесена только указанная хромосома. По умолчанию либо:

  • false - Когда заданы возвращаемые значения.

  • true и W - Когда значения возврата не заданы.

SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...) управляет отображением отчета о прогрессе выполнения анализа. Варианты true (по умолчанию) или false.

Примеры

свернуть все

Анализ данных исследования клеточной линии Кориелла

Загрузите данные CGH (aCGH) на основе массивов из исследования клеточной линии Кориелла (Snijders, A. et al., 2001).

load coriell_baccgh

Анализ всех хромосом выборки 3 (GM05296) данных aCGH и возврат данных сегментации в структуре S. Постройте график сегмента означает по исходным данным для всех хромосом этой выборки.

S = cghcbs(coriell_data,'sampleindex',3,'showplot',true);
Analyzing: GM05296. Current chromosome 1
Analyzing: GM05296. Current chromosome 2
Analyzing: GM05296. Current chromosome 3
Analyzing: GM05296. Current chromosome 4
Analyzing: GM05296. Current chromosome 5
Analyzing: GM05296. Current chromosome 6
Analyzing: GM05296. Current chromosome 7
Analyzing: GM05296. Current chromosome 8
Analyzing: GM05296. Current chromosome 9
Analyzing: GM05296. Current chromosome 10
Analyzing: GM05296. Current chromosome 11
Analyzing: GM05296. Current chromosome 12
Analyzing: GM05296. Current chromosome 13
Analyzing: GM05296. Current chromosome 14
Analyzing: GM05296. Current chromosome 15
Analyzing: GM05296. Current chromosome 16
Analyzing: GM05296. Current chromosome 17
Analyzing: GM05296. Current chromosome 18
Analyzing: GM05296. Current chromosome 19
Analyzing: GM05296. Current chromosome 20
Analyzing: GM05296. Current chromosome 21
Analyzing: GM05296. Current chromosome 22
Analyzing: GM05296. Current chromosome 23
Analyzing: GM05296. Current chromosome 26
Analyzing: GM05296. Current chromosome 27
Analyzing: GM05296. Current chromosome 30

Хромосома 10 показывает усиление, в то время как хромосома 11 показывает потерю.

Отобразите области изменения числа копий, выровненные по хромосомной идеограмме

Создайте структуру, содержащую информацию об усилении и потерях сегмента для хромосом 10 и 11 из выборки 3, убедившись, что данные сегмента указаны в единицах bp. (Можно определить информацию отклонения числа копирования (CNV), исследуя S, структуру сегментов, возвращаемую функцией cghcbs. Для 'CNVType' поле, используйте 1 для указания потерь и 2 для указания усиления.

cnvStruct = struct('Chromosome', [10 11],...
 'CNVType', [2 1],...
 'Start', [S.SegmentData(10).Start(2),...
  S.SegmentData(11).Start(2)]*1000,...
 'End',   [S.SegmentData(10).End(2),...
  S.SegmentData(11).End(2)]*1000)
cnvStruct = 

  struct with fields:

    Chromosome: [10 11]
       CNVType: [2 1]
         Start: [66905000 35416000]
           End: [110412000 43357000]

Передайте структуру в chromosomeplot функция, использующая 'CNV' опция для отображения коэффициентов усиления числа копий (зеленый) и потерь (красный), выровненных с идеограммой хромосомы человека. Укажите модули kb для отображения информации о сегменте в всплывающей подсказке.

chromosomeplot('hs_cytoBand.txt', 'CNV', cnvStruct, 'unit', 2)

Анализ данных исследования рака поджелудочной железы

Загрузите данные aCGH из исследования рака поджелудочной железы (Aguirre, A. et al., 2004).

load pancrea_oligocgh

Анализируйте только хромосому 9 в выборке 32 данных CGH и возвращайте данные сегментации в структуре, PS. Постройте график сегмента означает над исходными данными для хромосомы 9 в этой выборке.

PS = cghcbs(pancrea_data,'sampleindex',32,'chromosome',9,...
            'showplot',9);
Analyzing: PA.T.7692.redo. Current chromosome 9

Хромосома 9 содержит два сегмента, которые указывают на потери. Для получения более подробной информации о интерпретации данных см. Aguirre, A. et al. (2004).

Используйте chromosomeplot функция со 'addtoplot' опция для добавления идеограммы хромосомы 9 для Homo sapiens к графику данных сегментации.

chromosomeplot('hs_cytoBand.txt', 9, 'addtoplot', gca)

Ссылки

[1] Olshen, A.B., Venkatraman, E.S., Lucito, R., and Wigler, M. (2004). Круговая двоичная сегментация для анализа данных о количестве копий ДНК на основе массивов. Биостатистика 5, 4, 557-572.

[2] Venkatraman, E.S., and Olshen, A.B. (2007). Более быстрый алгоритм круговой двоичной сегментации для анализа данных CGH массива. Биоинформатика 23 (6), 657-663.

[3] Venkatraman, E.S., and Olshen, A.B. (2006). DNAcopy: пакет для анализа данных для копирования ДНК. https://www.bioconductor.org/packages/2.1/bioc/html/DNAcopy.html

[4] Снейдерс, А. М., Новак, Н., Сегрейвз, Р., Блэквуд, С., Браун, Н., Конрой, Дж., Гамильтон, Г., Хиндл, А. К., Хьюи, Б., Кимура, К., Лоу, С., Grey, J.W., Jain, A.N., Pinkel, D., and Albertson, D.G. (2001). Сборка микромассивов для общегеномного измерения количества копий ДНК. Генетика природы 29, 263-264.

[5] Aguirre, A.J., Brennan, C., Bailey, G., Sinha, R., Feng, B., Leo, C., Zhang, Y., Zhang, J., Gans, J.D., Bardeesy, N., Cauwels, C., Cordon-Cardo, C., Redston, M.S., DePinho, R.A., and Chin, L. (2004). Высокая характеристика генома аденокарциномы поджелудочной железы. ПНАС 101, 24, 9067-9072.

См. также

|

Введенный в R2007b