cpgisland

Определение местоположения островков CpG в последовательности ДНК

Синтаксис

cpgStruct = cpgisland(SeqDNA)
cpgStruct = cpgisland(SeqDNA, ...'Window', WindowValue, ...)
cpgStruct = cpgisland(SeqDNA, ...'MinIsland', MinIslandValue, ...)
cpgStruct = cpgisland(SeqDNA, ...'GCmin', GCminValue, ...)
cpgStruct = cpgisland(SeqDNA, ...'CpGoe', CpGoeValue, ...)
cpgStruct = cpgisland(SeqDNA, ...'Plot', PlotValue, ...)

Входные параметры

SeqDNA

Одно из следующих:

  • Вектор символов или строка, задающая нуклеотидную последовательность

  • Вектор-строка из целых чисел, задающий нуклеотидную последовательность

  • MATLAB® структура, содержащая Sequence поле, которое содержит ДНК нуклеотидную последовательность, такую как возвращенная fastaread, fastqread, emblread, getembl, genbankread, или getgenbank

Допустимые символы включают A, C, G, и T.

cpgisland не считает неоднозначных нуклеотидов или погрешностей.

WindowValueЦелое число, задающее размер окна для вычисления содержимого GC и коэффициентов CpGobserved/CpGexpected. По умолчанию это 100 основы. Меньший размер окна увеличивает шум на графике.
MinIslandValueЦелое число, указывающее минимальное количество последовательных отмеченных основ для сообщения как острова CpG. По умолчанию это 200 основы.
GCminValueЗначение, определяющее минимальный процент GC в окне, необходимом для маркировки основы. Варианты являются значением между 0 и 1. По умолчанию это 0.5.
CpGoeValue

Значение, определяющее минимальное соотношение CpGobserved/CpGexpected в каждом окне, необходимое для маркировки основы. Варианты являются значением между 0 и 1. По умолчанию это 0.6. Это отношение определяется как:

CPGobs/CpGexp = (NumCpGs*Length)/(NumGs*NumCs)
PlotValueУправляет графическим изображением содержимого GC, содержимого CpGoe, островов CpG, превышающих минимальный размер острова, и всех потенциальных островов CpG для заданных критериев. Варианты true или false (по умолчанию).

Выходные аргументы

cpgStructСтруктура MATLAB, содержащая начальные и конечные основы островов CpG, больше минимального размера острова.

Описание

cpgStruct = cpgisland(SeqDNA) выполняет поиск SeqDNA, нуклеотидная последовательность ДНК для островов CpG с содержимым GC более 50% и отношение CpGobserved/CpGexpected, больше 60%. Он помечает основы, удовлетворяющие этому критерию, в движущемся окне 100 ДНК основ, а затем возвращает результаты в cpgStruct, структуру MATLAB, содержащую начальные и конечные основы островов CpG, больше минимального размера острова 200 основы.

cpgStruct = cpgisland (SeqDNA... 'PropertyName', PropertyValue, ...) вызывает cpgisland с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:

cpgStruct = cpgisland(SeqDNA, ...'Window', WindowValue, ...) задает размер окна для вычисления содержимого GC и коэффициентов CpGobserved/CpGexpected. По умолчанию это 100 основы. Меньший размер окна увеличивает шум на графике.

cpgStruct = cpgisland(SeqDNA, ...'MinIsland', MinIslandValue, ...) задает минимальное количество последовательных отмеченных основ для сообщения в виде острова CpG. По умолчанию это 200 основы.

cpgStruct = cpgisland(SeqDNA, ...'GCmin', GCminValue, ...) задает минимальный процент GC в окне, необходимом для маркировки основы. Варианты являются значением между 0 и 1. По умолчанию это 0.5.

cpgStruct = cpgisland(SeqDNA, ...'CpGoe', CpGoeValue, ...) задает минимальное соотношение CpGobserved/CpGexpected в каждом окне, необходимое для маркировки основы. Варианты являются значением между 0 и 1. По умолчанию это 0.6. Это отношение определяется как:

CPGobs/CpGexp = (NumCpGs*Length)/(NumGs*NumCs)

cpgStruct = cpgisland(SeqDNA, ...'Plot', PlotValue, ...) управляет графическим изображением содержимого GC, содержимого CpGoe, островов CpG, превышающих минимальный размер острова, и всех потенциальных островов CpG для заданных критериев. Варианты true или false (по умолчанию).

Примеры

  1. Импорт нуклеотидной последовательности из GenBank® база данных. Например, извлеките последовательность из хромосомы Homo sapiens 12.

    S = getgenbank('AC156455');
  2. Вычислите островки CpG в последовательности и постройте график результатов.

    cpgisland(S.Sequence,'PLOT',true)
    
    ans = 
       
        Starts: [4510 29359]
         Stops: [5468 29604]
    

    Перечислены острова CpG, длина которых превышает 200 основы, и отображается график.

См. также

| |

Представлено до R2006a