cghcbs

Выполните круговую бинарную сегментацию (CBS) на данных об основанной на массиве сравнительной геномной гибридизации (aCGH)

Синтаксис

SegmentStruct = cghcbs(CGHData)
SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...)
SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...)
SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...)

Входные параметры

CGHData Основанная на массиве сравнительная геномная гибридизация (aCGH) данные в любой из следующих форм:
  • Структура со следующими полями:

    • Sample — Массив ячеек из символьных векторов или вектор строки, содержащий демонстрационные (дополнительные) имена.

    • Chromosome — Вектор, содержащий числа хромосомы, на которых расположены клоны.

    • GenomicPosition — Вектор, содержащий геномные положения (в любом модуле), с которым сопоставлены клоны.

    • Log2Ratio — Матрица, содержащая log2 отношение теста к интенсивности опорного сигнала для каждого клона. Каждая строка соответствует клону, и каждый столбец соответствует выборке.

  • Матрица, в которой каждая строка соответствует клону. Первый столбец содержит номер хромосомы, второй столбец содержит геномное положение и остальные столбцы, каждый содержит log2 отношение теста к интенсивности опорного сигнала для выборки.

AlphaValue Скаляр, который задает уровень значения для статистических тестов, чтобы принять точки перехода. Значением по умолчанию является 0.01.
PermutationsValueСкаляр, который задает количество сочетаний, используемых для оценки p-значения. Значением по умолчанию является 10,000.
MethodValueВектор символов или строка, которая задает метод, чтобы оценить p-значения. Выбором является 'Perm' или 'Hybrid' (значение по умолчанию). 'Perm' делает полное сочетание, в то время как 'Hybrid' использует более быстрое, хвост основанное на вероятности сочетание. При использовании 'Hybrid' метод, 'Perm' метод применяется автоматически, когда длина данных о сегменте становится меньше чем 200.
StoppingRuleValueУправляет использованием правила остановки эвристики, на основе метода, описанного Венкэтрэменом и Олшеном (2007), чтобы объявить изменение, не выполняя полное количество сочетаний для оценки p-значения, каждый раз, когда становится вероятно, что изменение было обнаружено. Выбором является true или false (значение по умолчанию).

Совет

Установите это свойство на true увеличить скорость обработки. Установите это свойство на false максимизировать точность.

SmoothValueУправляет сглаживанием выбросов прежде, чем сегментировать использование процедуры, объясненной Olshen и др. (2004). Выбором является true (значение по умолчанию) или false.
PruneValueУправляет устранением точек перехода, идентифицированных из-за локальных трендов в данных, которые не показательны из действительного изменения номера копии, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true или false (значение по умолчанию).
ErrsumValueСкаляр, который задает позволенное пропорциональное увеличение ошибочной суммы квадратов при устранении точек перехода с помощью 'Prune' свойство. Обычно используемыми значениями является 0.05 и 0.1. Значением по умолчанию является 0.05.
WindowSizeValueСкаляр, который задает размер окна (в точках данных) раньше делил данные при использовании 'Perm' метод на больших наборах данных. Значением по умолчанию является 200.
SampleIndexValueОдин демонстрационный индекс или вектор из демонстрационных индексов, которые задают выборку (выборки), чтобы анализировать. Значением по умолчанию являются все демонстрационные индексы.
ChromosomeValueОдин номер хромосомы или вектор из чисел хромосомы, которые задают данные, чтобы анализировать. Значением по умолчанию являются все числа хромосомы.
ShowplotValue

Управляет отображением графиков средних значений сегмента по исходным данным. Выбор также:

  • true — Все хромосомы во всех выборках построены. Если существует несколько выборок в CGHData, затем каждая выборка построена в отдельном Окне рисунка.

  • false — Никакой график.

  • W — Размещение отображает все хромосомы в целом геноме в одном графике в Окне рисунка.

  • S — Размещение отображает каждую хромосому в подграфике в Окне рисунка.

  • I — Целое число, задающее только одну из хромосом в CGHData быть построенным.

Значение по умолчанию:

  • false — Когда возвращаемые значения заданы.

  • true и W — Когда возвращаемые значения не заданы.

VerboseValueУправляет отображением отчета о выполнении работ анализа. Выбором является true (значение по умолчанию) или false.

Выходные аргументы

SegmentStruct

Структура, содержащая информацию о сегментации в следующих полях:

  • Sample — Демонстрационное имя от CGHData входной параметр. Если входной параметр не включает демонстрационные имена, то демонстрационные имена присвоены как Sample1, Sample2, и т.д.

  • SegmentData — Массив структур, содержащий данные о сегменте для выборки в следующих полях:

    • Chromosome — Номер хромосомы, на котором расположен сегмент.

    • Start — Геномное положение в начале сегмента (в тех же модулях, как используется для CGHData входной параметр.

    • End — Геномное положение в конце сегмента (в тех же модулях, как используется для CGHData входной параметр.

    • Mean — Среднее значение log2 отношения теста к интенсивности опорного сигнала для сегмента.

Описание

SegmentStruct = cghcbs(CGHData) выполняет круговую бинарную сегментацию (CBS) на данных об основанной на массиве сравнительной геномной гибридизации (aCGH), чтобы определить сегменты изменения номера копии (граничащий с областями ДНК, которые показывают статистическую разницу в номере копии), и точки перехода.

Примечание

Алгоритм CBS рекурсивно разделяет хромосомы в сегменты на основе максимума t статистическая величина, оцененная сочетанием. Этот расчет может быть трудоемким. Если n = количество точек данных, затем время вычисления ~ O (n2).

SegmentStruct = cghcbs (CGHDataPropertyName ', PropertyValue, ...) вызовы cghcbs с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...) задает уровень значения для статистических тестов, чтобы принять точки перехода. Значением по умолчанию является 0.01.

SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...) задает количество сочетаний, используемых для оценки p-значения. Значением по умолчанию является 10,000.

SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...) задает метод, чтобы оценить p-значения. Выбором является 'Perm' или 'Hybrid' (значение по умолчанию). 'Perm' делает полное сочетание, в то время как 'Hybrid' использует более быстрое, хвост основанное на вероятности сочетание. При использовании 'Hybrid' метод, 'Perm' метод применяется автоматически, когда длина данных о сегменте становится меньше чем 200.

SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...) управляет использованием правила остановки эвристики, на основе метода, описанного Венкэтрэменом и Олшеном (2007), чтобы объявить изменение, не выполняя полное количество сочетаний для оценки p-значения, каждый раз, когда становится вероятно, что изменение было обнаружено. Выбором является true или false (значение по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...) управляет сглаживанием выбросов перед сегментацией, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true (значение по умолчанию) или false.

SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...) управляет устранением точек перехода, идентифицированных из-за локальных трендов в данных, которые не показательны из действительного изменения номера копии, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true или false (значение по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...) задает позволенное пропорциональное увеличение ошибочной суммы квадратов при устранении точек перехода с помощью 'Prune' свойство. Обычно используемыми значениями является 0.05 и 0.1. Значением по умолчанию является 0.05.

SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...) указывает, что размер окна (в точках данных) раньше делил данные при использовании 'Perm' метод на больших наборах данных. Значением по умолчанию является 200.

SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...) анализирует только выборку (выборки), заданную SampleIndexValue, который может быть одним демонстрационным индексом или вектором из демонстрационных индексов. Значением по умолчанию являются все демонстрационные индексы.

SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...) анализирует только данные по хромосомам, заданным ChromosomeValue, который может быть одним номером хромосомы или вектором из чисел хромосомы. Значением по умолчанию являются все числа хромосомы.

SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...) управляет отображением графиков средних значений сегмента по исходным данным. Выбором является trueложьWS, или I, целое число, задающее одну из хромосом в CGHData. Когда ShowplotValue true, все хромосомы во всех выборках построены. Если существует несколько выборок в CGHData, затем каждая выборка построена в отдельном Окне рисунка. Когда ShowplotValue W, размещение отображает все хромосомы в одном графике в Окне рисунка. Когда ShowplotValue S, размещение отображает каждую хромосому в подграфике в Окне рисунка. Когда ShowplotValue I, только заданная хромосома построена. Значение по умолчанию также:

  • false — Когда возвращаемые значения заданы.

  • true и W — Когда возвращаемые значения не заданы.

SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...) управляет отображением отчета о выполнении работ анализа. Выбором является true (значение по умолчанию) или false.

Примеры

свернуть все

Анализируйте данные из исследования клеточной линии Coriell

Загрузите основанный на массиве CGH (aCGH) данные из исследования клеточной линии Coriell (Snijders, A. и др., 2001).

load coriell_baccgh

Анализируйте все хромосомы демонстрационных 3 (GM05296) aCGH данных и возвратите данные о сегментации в структуре, S. Постройте средние значения сегмента по исходным данным для всех хромосом этой выборки.

S = cghcbs(coriell_data,'sampleindex',3,'showplot',true);
Analyzing: GM05296. Current chromosome 1
Analyzing: GM05296. Current chromosome 2
Analyzing: GM05296. Current chromosome 3
Analyzing: GM05296. Current chromosome 4
Analyzing: GM05296. Current chromosome 5
Analyzing: GM05296. Current chromosome 6
Analyzing: GM05296. Current chromosome 7
Analyzing: GM05296. Current chromosome 8
Analyzing: GM05296. Current chromosome 9
Analyzing: GM05296. Current chromosome 10
Analyzing: GM05296. Current chromosome 11
Analyzing: GM05296. Current chromosome 12
Analyzing: GM05296. Current chromosome 13
Analyzing: GM05296. Current chromosome 14
Analyzing: GM05296. Current chromosome 15
Analyzing: GM05296. Current chromosome 16
Analyzing: GM05296. Current chromosome 17
Analyzing: GM05296. Current chromosome 18
Analyzing: GM05296. Current chromosome 19
Analyzing: GM05296. Current chromosome 20
Analyzing: GM05296. Current chromosome 21
Analyzing: GM05296. Current chromosome 22
Analyzing: GM05296. Current chromosome 23
Analyzing: GM05296. Current chromosome 26
Analyzing: GM05296. Current chromosome 27
Analyzing: GM05296. Current chromosome 30

Хромосома 10 показывает усиление, в то время как хромосома 11 показывает потерю.

Отобразите области изменения номера копии, выровненные к идеограмме хромосомы

Создайте структуру, содержащую усиление сегмента и информацию о потере для хромосом 10 и 11 от демонстрационных 3, убедившись, что данные о сегменте находятся в модулях BP. (Можно определить информацию об отклонении номера копии (CNV) путем исследования S, структуру сегментов, возвращенных функцией cghcbs. Для 'CNVType' поле, используйте 1, чтобы указать на потерю и 2, чтобы указать на усиление.

cnvStruct = struct('Chromosome', [10 11],...
 'CNVType', [2 1],...
 'Start', [S.SegmentData(10).Start(2),...
  S.SegmentData(11).Start(2)]*1000,...
 'End',   [S.SegmentData(10).End(2),...
  S.SegmentData(11).End(2)]*1000)
cnvStruct = 

  struct with fields:

    Chromosome: [10 11]
       CNVType: [2 1]
         Start: [66905000 35416000]
           End: [110412000 43357000]

Передайте структуру chromosomeplot функция с помощью 'CNV' опция, чтобы отобразить (зеленые) усиления номера копии и потери (красные) выровненный к человеческой идеограмме хромосомы. Задайте модули Кбита для отображения информации о сегменте во всплывающей подсказке.

chromosomeplot('hs_cytoBand.txt', 'CNV', cnvStruct, 'unit', 2)

Анализируйте данные из исследования рака поджелудочной железы

Загрузите aCGH данные из исследования рака поджелудочной железы (Агирре, A. и др., 2004).

load pancrea_oligocgh

Анализируйте только хромосому 9 в демонстрационных 32 из данных CGH и возвратите данные о сегментации в структуре, PS. Постройте средние значения сегмента по исходным данным для хромосомы 9 в этой выборке.

PS = cghcbs(pancrea_data,'sampleindex',32,'chromosome',9,...
            'showplot',9);
Analyzing: PA.T.7692.redo. Current chromosome 9

Хромосома 9 содержит два сегмента, которые указывают на потери. Для более подробной информации об интерпретации данных смотрите Агирре, A. и др. (2004).

Используйте chromosomeplot функция с 'addtoplot' опция, чтобы добавить идеограмму хромосомы 9 для Человека разумного к графику данных о сегментации.

chromosomeplot('hs_cytoBand.txt', 9, 'addtoplot', gca)

Ссылки

[1] Olshen, A.B., Венкэтрэмен, E.S., Lucito, R. и Wigler, M. (2004). Круговая бинарная сегментация для анализа основанной на массиве ДНК копирует данные о номере. Биостатистика 5, 4, 557–572.

[2] Венкэтрэмен, E.S., и Olshen, A.B. (2007). Более быстрый круговой бинарный алгоритм сегментации для анализа массива данные CGH. Биоинформатика 23 (6), 657–663.

[3] Венкэтрэмен, E.S., и Olshen, A.B. (2006). DNAcopy: пакет для анализа данных о копии ДНК. https://www.bioconductor.org/packages/2.1/bioc/html/DNAcopy.html

[4] Snijders, Утра, Nowak, N., Segraves, R., Блэквуд, S., Браун, N., Conroy, J., Гамильтон, G., Hindle, A.K., Хьюи, B., Kimura, K., Закон, S., Myambo, K., Паломник, J., Ylstra, B., Юэ, J.P., Серый, J.W., джайн, А.Н., Pinkel, D., и Альбертсон, D.G. (2001). Блок микромассивов для измерения всего генома ДНК копирует номер. Генетика природы 29, 263–264.

[5] Агирре, A.J., Брэннан, C., Стена замка, G., Sinha, R., Фэн, B., Лео, C., Чжан, Y., Чжан, J., Gans, степень доктора юридических наук, Бардиси, N., Cauwels, C., Cardo Кордона, C., Redston, M.S., DePinho, R.A., и Подбородок, L. (2004). Характеристика с высоким разрешением генома аденокарциномы поджелудочной железы. PNAS 101, 24, 9067–9072.

Смотрите также

|

Представленный в R2007b