Этот пример показывает, как создать филогенетические деревья из нескольких деформаций HIV и вирусов SIV.
Мутации накапливаются в геномах патогенов, в этом случае человеческого/обезьяноподобного вируса иммунодефицита, во время распространения заражения. Эта информация может использоваться, чтобы изучить историю событий передачи, и также как доказательство для источников различных вирусных деформаций.
Существует две охарактеризованных деформации человеческих вирусов AIDS: тип 1 (HIV-1) и тип 2 (HIV-2). Обе деформации представляют заражения перекрестных разновидностей. Водохранилище примата HIV-2 было ясно идентифицировано как закопченный mangabey (Cercocebus atys). Источник HIV-1, как полагают, является обыкновенным шимпанзе (Троглодиты панорамирования).
В этом примере изменения в трех самых длинных областях кодирования от семнадцати различных изолированных деформаций Человеческого и Обезьяноподобного вируса иммунодефицита используются, чтобы создать филогенетическое дерево. Последовательности для этих штаммов вируса могут быть получены из GenBank® с помощью своих инвентарных номеров. Три видимых области кодирования, белок затычки, политический полибелок и предшественник полибелка конверта, могут затем быть извлечены от последовательностей с помощью информации о CDS в записях GenBank.
% Description Accession CDS:gag/pol/env data = {'HIV-1 (Zaire)' 'K03454' [1 2 8] ; 'HIV1-NDK (Zaire)' 'M27323' [1 2 8] ; 'HIV-2 (Senegal)' 'M15390' [1 2 8] ; 'HIV2-MCN13' 'AY509259' [1 2 8] ; 'HIV-2UC1 (IvoryCoast)' 'L07625' [1 2 8] ; 'SIVMM251 Macaque' 'M19499' [1 2 8] ; 'SIVAGM677A Green monkey' 'M58410' [1 2 7] ; 'SIVlhoest L''Hoest monkeys' 'AF075269' [1 2 7] ; 'SIVcpz Chimpanzees Cameroon' 'AF115393' [1 2 8] ; 'SIVmnd5440 Mandrillus sphinx' 'AY159322' [1 2 8] ; 'SIVAGM3 Green monkeys' 'M30931' [1 2 7] ; 'SIVMM239 Simian macaque' 'M33262' [1 2 8] ; 'CIVcpzUS Chimpanzee' 'AF103818' [1 2 8] ; 'SIVmon Cercopithecus Monkeys' 'AY340701' [1 2 8] ; 'SIVcpzTAN1 Chimpanzee' 'AF447763' [1 2 8] ; 'SIVsmSL92b Sooty Mangabey' 'AF334679' [1 2 8] ; }; numViruses = size(data,1)
numViruses = 16
Можно использовать функцию getgenbank
, чтобы скопировать данные GenBank в структуру в MATLAB®. Поле SearchURL структуры содержит адрес фактической записи GenBank. Можно просмотреть эту запись с помощью команды web
.
acc_num = data{1,2}; lentivirus = getgenbank(acc_num); web(lentivirus(1).SearchURL)
Получите информацию о последовательности из базы данных NCBI GenBank для остальной части инвентарных номеров.
for ind = 2:numViruses lentivirus(ind) = getgenbank(data{ind,2}); end
Для вашего удобства ранее загруженные последовательности включены в MAT-файл. Обратите внимание на то, что данные в общедоступных репозиториях часто курируются и обновляются; поэтому результаты этого примера могут немного отличаться, когда вы используете актуальные наборы данных.
load('lentivirus.mat')
Извлеките CDS для GAG, POL и областей кодирования ENV. Затем извлеките последовательности нуклеотида с помощью указателей CDS.
for ind = 1:numViruses temp_seq = lentivirus(ind).Sequence; temp_seq = regexprep(temp_seq,'[nry]','a'); CDSs = lentivirus(ind).CDS(data{ind,3}); gag(ind).Sequence = temp_seq(CDSs(1).indices(1):CDSs(1).indices(2)); pol(ind).Sequence = temp_seq(CDSs(2).indices(1):CDSs(2).indices(2)); env(ind).Sequence = temp_seq(CDSs(3).indices(1):CDSs(3).indices(2)); end
seqpdist
и команды seqlinkage
используются, чтобы создать филогенетическое дерево для GAG, кодирующего область с помощью метода 'Tajima-Nei', чтобы измерить расстояние между последовательностями и невзвешенным парным групповым методом с помощью средних арифметических или метода 'UPGMA', для иерархической кластеризации. Метод 'Tajima-Nei' только задан для нуклеотидов, поэтому последовательности нуклеотида используются, а не переведенные последовательности аминокислот. Расчет расстояния может занять довольно много минут, когда это очень в вычислительном отношении интенсивно.
gagd = seqpdist(gag,'method','Tajima-Nei','Alphabet','NT','indel','pair'); gagtree = seqlinkage(gagd,'UPGMA',data(:,1)) plot(gagtree,'type','angular'); title('Immunodeficiency virus (GAG protein)')
Phylogenetic tree object with 16 leaves (15 branches)
Затем создайте филогенетическое дерево для полибелков POL с помощью метода 'Jukes-Cantor', чтобы измерить расстояние между последовательностями и взвешенным парным групповым методом с помощью средних арифметических или метода 'WPGMA', для иерархической кластеризации. Метод 'Jukes-Cantor' задан для последовательностей аминокислот, который, будучи значительно короче, чем соответствующие последовательности нуклеотида, означает, что расчет попарных расстояний будет значительно быстрее.
Преобразуйте последовательности нуклеотида в последовательности аминокислот с помощью nt2aa
.
for ind = 1:numViruses aagag(ind).Sequence = nt2aa(gag(ind).Sequence); aapol(ind).Sequence = nt2aa(pol(ind).Sequence); aaenv(ind).Sequence = nt2aa(env(ind).Sequence); end
Вычислите расстояние и связь, и затем сгенерируйте дерево.
pold = seqpdist(aapol,'method','Jukes-Cantor','indel','pair'); poltree = seqlinkage(pold,'WPGMA',data(:,1)) plot(poltree,'type','angular'); title('Immunodeficiency virus (POL polyprotein)')
Phylogenetic tree object with 16 leaves (15 branches)
Создайте филогенетическое дерево для полибелков ENV с помощью нормированных попарных очков выравнивания в качестве расстояний между последовательностями и 'UPGMA', методом для иерархической кластеризации.
envd = seqpdist(aaenv,'method','Alignment','indel','score',... 'ScoringMatrix','Blosum62'); envtree = seqlinkage(envd,'UPGMA',data(:,1)) plot(envtree,'type','angular'); title('Immunodeficiency virus (ENV polyprotein)')
Phylogenetic tree object with 16 leaves (15 branches)
Эти три дерева подобны, но существуют некоторые интересные различия. Например, в дереве POL, последовательность 'сфинкса SIVmnd5440 Mandrillus ' помещается близко к деформациям HIV-1, но в дереве ENV это показывается как являющийся очень удаленным к HIV 1 последовательность. Учитывая, что эти три дерева показывают немного отличающиеся результаты, дерево согласия, использующее все три области, может дать лучшую общую информацию о полных вирусах. Дерево согласия может быть создано с помощью взвешенного среднего этих трех деревьев.
weights = [sum(gagd) sum(pold) sum(envd)]; weights = weights / sum(weights); dist = gagd .* weights(1) + pold .* weights(2) + envd .* weights(3);
Обратите внимание на то, что различные метрики использовались в расчете попарных расстояний. Это могло сместить дерево согласия. Можно хотеть повторно вычислить расстояния для этих трех областей с помощью той же метрики, чтобы получить несмещенное дерево.
tree_hiv = seqlinkage(dist,'average',data(:,1)); plot(tree_hiv,'type','angular'); title('Immunodeficiency virus (Weighted tree)')
Филогенетическое дерево, следующее из нашего анализа, иллюстрирует присутствие двух кластеров и некоторых других изолированных деформаций. Самый компактный кластер включает все выборки HIV2; в верхней ветви этого кластера мы наблюдаем закопченный mangabey, который был идентифицирован как источник этого лентивируса в людях. Кластер, содержащий деформацию HIV1, однако не так компактен как кластер HIV2. От дерева кажется, что Шимпанзе является источником HIV1, однако, источник передачи перекрестных разновидностей людям является все еще вопросом дебатов среди исследователей HIV.
% Add annotations annotation(gcf,'textarrow',[0.29 0.31],[0.36 0.28],'Color',[1 0.5 0],... 'String',{'Possible HIV type 1 origin'},'TextColor',[1 0.5 0]); annotation(gcf,'textarrow',[0.42 0.49],[0.45 0.50],'Color',[1 0 0],... 'String',{'HIV type 2 origin'},'TextColor',[1 0 0]);
[1] Гао, F., и др., "Источник HIV-1 у шимпанзе троглодиты троглодитов Пэна", Природа, 397 (6718):436-41, 1999.
[2] Kestler, H.W., и др., "Сравнение обезьяноподобного вируса иммунодефицита изолирует", Природа, 331 (6157):619-22, 1998.
[3] Alizon, M., и др., "Генетическая изменчивость вируса AIDS: анализ последовательности нуклеотида два изолирует от африканских пациентов", Ячейка, 46 (1):63-74, 1986.