cghcbs

Выполните круговую бинарную сегментацию (CBS) на данных об основанной на массиве сравнительной геномной гибридизации (aCGH)

Синтаксис

SegmentStruct = cghcbs(CGHData)
SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...)
SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...)
SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...)
SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...)

Входные параметры

CGHData Основанная на массиве сравнительная геномная гибридизация (aCGH) данные в любой из следующих форм:
  • Структура со следующими полями:

    • Sample — Массив ячеек из символьных векторов или вектор строки, содержащий демонстрационные (дополнительные) имена.

    • Chromosome — Вектор, содержащий числа хромосомы, на которых расположены клоны.

    • GenomicPosition — Вектор, содержащий геномные положения (в любом модуле), с которым сопоставлены клоны.

    • Log2Ratio — Матрица, содержащая log2 отношение теста к ссылочной интенсивности сигнала для каждого клона. Каждая строка соответствует клону, и каждый столбец соответствует выборке.

  • Матрица, в которой каждая строка соответствует клону. Первый столбец содержит номер хромосомы, второй столбец содержит геномное положение и остальные столбцы, каждый содержит log2 отношение теста к ссылочной интенсивности сигнала для выборки.

AlphaValue Скаляр, который задает уровень значения для статистических тестов, чтобы принять точки перехода. Значением по умолчанию является 0.01.
PermutationsValueСкаляр, который задает количество перестановок, используемых для оценки p-значения. Значением по умолчанию является 10,000.
MethodValueВектор символов или строка, которая задает метод, чтобы оценить p-значения. Выбором является 'Perm' или 'Hybrid' (значение по умолчанию). 'Perm' делает полную перестановку, в то время как 'Hybrid' использует более быстрое, хвост основанная на вероятности перестановка. При использовании метода 'Hybrid' метод 'Perm' применяется автоматически, когда длина данных о сегменте становится меньше чем 200.
StoppingRuleValueУправляет использованием правила остановки эвристики, на основе метода, описанного Венкэтрэменом и Олшеном (2007), чтобы объявить изменение, не выполняя полное количество перестановок для оценки p-значения, каждый раз, когда становится вероятно, что изменение было обнаружено. Выбором является true или false (значение по умолчанию).

Совет

Установите это свойство на true увеличивать скорость обработки. Установите это свойство на false максимизировать точность.

SmoothValueУправляет сглаживанием выбросов прежде, чем сегментировать использование процедуры, объясненной Olshen и др. (2004). Выбором является true (значение по умолчанию) или false.
PruneValueУправляет устранением точек перехода, идентифицированных из-за локальных трендов в данных, которые не показательны из действительного изменения номера копии, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true или false (значение по умолчанию).
ErrsumValueСкаляр, который задает позволенное пропорциональное увеличение ошибочной суммы квадратов при устранении точек перехода с помощью свойства 'Prune'. Обычно используемыми значениями является 0.05 и 0.1. Значением по умолчанию является 0.05.
WindowSizeValueСкаляр, который задает размер окна (в точках данных) раньше делил данные при использовании метода 'Perm' на больших наборах данных. Значением по умолчанию является 200.
SampleIndexValueОдин демонстрационный индекс или вектор демонстрационных индексов, которые задают выборку (выборки), чтобы анализировать. Значением по умолчанию являются все демонстрационные индексы.
ChromosomeValueОдин номер хромосомы или вектор чисел хромосомы, которые задают данные, чтобы анализировать. Значением по умолчанию являются все числа хромосомы.
ShowplotValue

Управляет отображением графиков средних значений сегмента по исходным данным. Выбор также:

  • tRUE Все хромосомы во всех выборках построены. Если существует несколько выборок в CGHData, то каждая выборка построена в отдельном Окне рисунка.

  • ложь Никакой график.

  • W Размещение отображает все хромосомы в целом геноме в одном графике в Окне рисунка.

  • S Размещение отображает каждую хромосому в подграфике в Окне рисунка.

  • I Целое число, задающее только одну из хромосом в CGHData, который будет построен.

Значение по умолчанию:

  • ложь Когда возвращаемые значения заданы.

  • true и W — Когда возвращаемые значения не заданы.

VerboseValueУправляет отображением отчета о выполнении работ анализа. Выбором является true (значение по умолчанию) или false.

Выходные аргументы

SegmentStruct

Структура, содержащая информацию о сегментации в следующих полях:

  • Sample — Демонстрационное имя от входного параметра CGHData. Если входной параметр не включает демонстрационные имена, то демонстрационные имена присвоены как Sample1, Sample2, и т.д.

  • SegmentData — Массив структур, содержащий данные о сегменте для выборки в следующих полях:

    • Chromosome — Номер хромосомы, на котором расположен сегмент.

    • Запуск Геномное положение в начале сегмента (в тех же модулях, как используется для входа CGHData).

    • Конец Геномное положение в конце сегмента (в тех же модулях, как используется для входа CGHData).

    • Среднее значение Среднее значение log2 отношения теста к ссылочной интенсивности сигнала для сегмента.

Описание

SegmentStruct = cghcbs(CGHData) выполняет круговую бинарную сегментацию (CBS) на данных об основанной на массиве сравнительной геномной гибридизации (aCGH), чтобы определить сегменты изменения номера копии (граничащий с областями DNA, которые показывают статистическую разницу в номере копии), и точки перехода.

Примечание

Алгоритм CBS рекурсивно разделяет хромосомы в сегменты на основе максимума t статистическая величина, оцененная перестановкой. Это вычисление может быть трудоемким. Если n = количество точек данных, то время вычисления ~ O (n 2).

SegmentStruct = cghcbs(CGHData, ...'PropertyName', PropertyValue, ...) вызывает cghcbs с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Это имя свойства / пары значения свойства следующие:

SegmentStruct = cghcbs(CGHData, ...'Alpha', AlphaValue, ...) задает уровень значения для статистических тестов, чтобы принять точки перехода. Значением по умолчанию является 0.01.

SegmentStruct = cghcbs(CGHData, ...'Permutations', PermutationsValue, ...) задает количество перестановок, используемых для оценки p-значения. Значением по умолчанию является 10,000.

SegmentStruct = cghcbs(CGHData, ...'Method', MethodValue, ...) задает метод, чтобы оценить p-значения. Выбором является 'Perm' или 'Hybrid' (значение по умолчанию). 'Perm' делает полную перестановку, в то время как 'Hybrid' использует более быстрое, хвост основанная на вероятности перестановка. При использовании метода 'Hybrid' метод 'Perm' применяется автоматически, когда длина данных о сегменте становится меньше чем 200.

SegmentStruct = cghcbs(CGHData, ...'StoppingRule', StoppingRuleValue, ...) управляет использованием правила остановки эвристики, на основе метода, описанного Венкэтрэменом и Олшеном (2007), чтобы объявить изменение, не выполняя полное количество перестановок для оценки p-значения, каждый раз, когда становится вероятно, что изменение было обнаружено. Выбором является true или false (значение по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Smooth', SmoothValue, ...) управляет сглаживанием выбросов перед сегментацией, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true (значение по умолчанию) или false.

SegmentStruct = cghcbs(CGHData, ...'Prune', PruneValue, ...) управляет устранением точек перехода, идентифицированных из-за локальных трендов в данных, которые не показательны из действительного изменения номера копии, с помощью процедуры, объясненной Olshen и др. (2004). Выбором является true или false (значение по умолчанию).

SegmentStruct = cghcbs(CGHData, ...'Errsum', ErrsumValue, ...) задает позволенное пропорциональное увеличение ошибочной суммы квадратов при устранении точек перехода с помощью свойства 'Prune'. Обычно используемыми значениями является 0.05 и 0.1. Значением по умолчанию является 0.05.

SegmentStruct = cghcbs(CGHData, ...'WindowSize', WindowSizeValue, ...) указывает, что размер окна (в точках данных) раньше делил данные при использовании метода 'Perm' на больших наборах данных. Значением по умолчанию является 200.

SegmentStruct = cghcbs(CGHData, ...'SampleIndex', SampleIndexValue, ...) анализирует только выборку (выборки), заданную SampleIndexValue, который может быть одним демонстрационным индексом или вектором демонстрационных индексов. Значением по умолчанию являются все демонстрационные индексы.

SegmentStruct = cghcbs(CGHData, ...'Chromosome', ChromosomeValue, ...) анализирует только данные по хромосомам, заданным ChromosomeValue, который может быть одним номером хромосомы или вектором чисел хромосомы. Значением по умолчанию являются все числа хромосомы.

SegmentStruct = cghcbs(CGHData, ...'Showplot', ShowplotValue, ...) управляет отображением графиков средних значений сегмента по исходным данным. Выбором является true, false, W, S или I, целое число, задающее одну из хромосом в CGHData. Когда ShowplotValue является true, все хромосомы во всех выборках построены. Если существует несколько выборок в CGHData, то каждая выборка построена в отдельном Окне рисунка. Когда ShowplotValue является W, размещение отображает все хромосомы в одном графике в Окне рисунка. Когда ShowplotValue является S, размещение отображает каждую хромосому в подграфике в Окне рисунка. Когда ShowplotValue является I, только заданная хромосома построена. Значение по умолчанию также:

  • ложь Когда возвращаемые значения заданы.

  • true и W — Когда возвращаемые значения не заданы.

SegmentStruct = cghcbs(CGHData, ...'Verbose', VerboseValue, ...) управляет отображением отчета о выполнении работ анализа. Выбором является true (значение по умолчанию) или false.

Примеры

свернуть все

Анализируйте данные из исследования клеточной линии Coriell

Загрузите основанный на массиве CGH (aCGH) данные из исследования клеточной линии Coriell (Snijders, A. и др., 2001).

load coriell_baccgh

Анализируйте все хромосомы демонстрационных 3 (GM05296) aCGH данных и возвратите данные о сегментации в структуре, S. Постройте средние значения сегмента по исходным данным для всех хромосом этой выборки.

S = cghcbs(coriell_data,'sampleindex',3,'showplot',true);
Analyzing: GM05296. Current chromosome 1
Analyzing: GM05296. Current chromosome 2
Analyzing: GM05296. Current chromosome 3
Analyzing: GM05296. Current chromosome 4
Analyzing: GM05296. Current chromosome 5
Analyzing: GM05296. Current chromosome 6
Analyzing: GM05296. Current chromosome 7
Analyzing: GM05296. Current chromosome 8
Analyzing: GM05296. Current chromosome 9
Analyzing: GM05296. Current chromosome 10
Analyzing: GM05296. Current chromosome 11
Analyzing: GM05296. Current chromosome 12
Analyzing: GM05296. Current chromosome 13
Analyzing: GM05296. Current chromosome 14
Analyzing: GM05296. Current chromosome 15
Analyzing: GM05296. Current chromosome 16
Analyzing: GM05296. Current chromosome 17
Analyzing: GM05296. Current chromosome 18
Analyzing: GM05296. Current chromosome 19
Analyzing: GM05296. Current chromosome 20
Analyzing: GM05296. Current chromosome 21
Analyzing: GM05296. Current chromosome 22
Analyzing: GM05296. Current chromosome 23
Analyzing: GM05296. Current chromosome 26
Analyzing: GM05296. Current chromosome 27
Analyzing: GM05296. Current chromosome 30

Хромосома 10 показывает усиление, в то время как хромосома 11 показывает потерю.

Отобразите области изменения номера копии, выровненные к идеограмме хромосомы

Создайте структуру, содержащую усиление сегмента и информацию о потере для хромосом 10 и 11 от демонстрационных 3, убедившись, что данные о сегменте находятся в модулях BP. (Можно определить информацию об отклонении номера копии (CNV) путем исследования S, структуру сегментов, возвращенных функцией cghcbs. Для поля 'CNVType' используйте 1, чтобы указать на потерю и 2, чтобы указать на усиление.

cnvStruct = struct('Chromosome', [10 11],...
 'CNVType', [2 1],...
 'Start', [S.SegmentData(10).Start(2),...
  S.SegmentData(11).Start(2)]*1000,...
 'End',   [S.SegmentData(10).End(2),...
  S.SegmentData(11).End(2)]*1000)
cnvStruct = 

  struct with fields:

    Chromosome: [10 11]
       CNVType: [2 1]
         Start: [66905000 35416000]
           End: [110412000 43357000]

Передайте структуру функции chromosomeplot использование опции 'CNV', чтобы отобразить (зеленые) усиления номера копии и потери (красные) выровненный к человеческой идеограмме хромосомы. Задайте модули Кбита для отображения информации о сегменте во всплывающей подсказке.

chromosomeplot('hs_cytoBand.txt', 'CNV', cnvStruct, 'unit', 2)

Анализируйте данные из исследования рака поджелудочной железы

Загрузите aCGH данные из исследования рака поджелудочной железы (Агирре, A. и др., 2004).

load pancrea_oligocgh

Анализируйте только хромосому 9 в демонстрационных 32 из данных CGH и возвратите данные о сегментации в структуре, PS. Постройте средние значения сегмента по исходным данным для хромосомы 9 в этой выборке.

PS = cghcbs(pancrea_data,'sampleindex',32,'chromosome',9,...
            'showplot',9);
Analyzing: PA.T.7692.redo. Current chromosome 9

Хромосома 9 содержит два сегмента, которые указывают на потери. Для более подробной информации об интерпретации данных смотрите Агирре, A. и др. (2004).

Используйте функцию chromosomeplot с опцией 'addtoplot', чтобы добавить идеограмму хромосомы 9 для Человека разумного к графику данных о сегментации.

chromosomeplot('hs_cytoBand.txt', 9, 'addtoplot', gca)

Ссылки

[1] Olshen, A.B., Венкэтрэмен, E.S., Lucito, R. и Wigler, M. (2004). Круговая бинарная сегментация для анализа основанного на массиве DNA копирует данные о номере. Биостатистика 5, 4, 557–572.

[2] Венкэтрэмен, E.S., и Olshen, A.B. (2007). Более быстрый круговой бинарный алгоритм сегментации для анализа массива данные CGH. Биоинформатика 23 (6), 657–663.

[3] Венкэтрэмен, E.S., и Olshen, A.B. (2006). DNAcopy: пакет для анализа данных о копии DNA. https://www.bioconductor.org/packages/2.1/bioc/html/DNAcopy.html

[4] Snijders, Утра, Nowak, N., Segraves, R., Блэквуд, S., Браун, N., Conroy, J., Гамильтон, G., Hindle, A.K., Хьюи, B., Kimura, K., Закон, S., Myambo, K., Паломник, J., Ylstra, B., Юэ, J.P., Серый, J.W., джайн, А.Н., Pinkel, D., и Альбертсон, D.G. (2001). Блок микромассивов для измерения всего генома DNA копирует номер. Генетика природы 29, 263–264.

[5] Агирре, A.J., Брэннан, C., Стена замка, G., Sinha, R., Фэн, B., Лео, C., Чжан, Y., Чжан, J., Gans, степень доктора юридических наук, Бардиси, N., Cauwels, C., Cardo Кордона, C., Redston, M.S., DePinho, R.A., и Подбородок, L. (2004). Характеристика с высоким разрешением генома аденокарциномы поджелудочной железы. PNAS 101, 24, 9067–9072.

Смотрите также

|

Представленный в R2007b