Анализ источника вируса иммунодефицита человека

В этом примере показано, как создать филогенетические деревья из нескольких деформаций HIV и вирусов SIV.

Введение

Мутации накапливаются в геномах патогенов, в этом случае человеческого/обезьяноподобного вируса иммунодефицита, во время распространения заражения. Эта информация может использоваться, чтобы изучить историю событий передачи, и также как доказательство для источников различных вирусных деформаций.

Существует две охарактеризованных деформации человеческих вирусов AIDS: тип 1 (HIV-1) и тип 2 (HIV-2). Обе деформации представляют заражения перекрестных разновидностей. Резервуар примата HIV-2 был ясно идентифицирован как закопченный mangabey (Cercocebus atys). Источник HIV-1, как полагают, является обыкновенным шимпанзе (Троглодиты панорамирования).

Получите информацию о последовательности из GenBank®

В этом примере изменения трех самых длинных областей кодирования от семнадцати различных изолированных деформаций Человеческого и Обезьяноподобного вируса иммунодефицита используются, чтобы создать филогенетическое дерево. Последовательности для этих штаммов вируса могут быть получены из GenBank® с помощью своих инвентарных номеров. Три необходимых области кодирования, белок затычки, политический полибелок и предшественник полибелка конверта, могут затем быть извлечены из последовательностей с помощью информации о CDS в записях GenBank.

%        Description                   Accession  CDS:gag/pol/env
data = {'HIV-1 (Zaire)'                'K03454'   [1 2 8]  ;
        'HIV1-NDK (Zaire)'             'M27323'   [1 2 8]  ;
        'HIV-2 (Senegal)'              'M15390'   [1 2 8]  ;
        'HIV2-MCN13'                   'AY509259' [1 2 8]  ;
        'HIV-2UC1 (IvoryCoast)'        'L07625'   [1 2 8]  ;
        'SIVMM251 Macaque'             'M19499'   [1 2 8]  ;
        'SIVAGM677A Green monkey'      'M58410'   [1 2 7]  ;
        'SIVlhoest L''Hoest monkeys'   'AF075269' [1 2 7]  ;
        'SIVcpz Chimpanzees Cameroon'  'AF115393' [1 2 8]  ;
        'SIVmnd5440 Mandrillus sphinx' 'AY159322' [1 2 8]  ;
        'SIVAGM3 Green monkeys'        'M30931'   [1 2 7]  ;
        'SIVMM239 Simian macaque'      'M33262'   [1 2 8]  ;
        'CIVcpzUS Chimpanzee'          'AF103818' [1 2 8]  ;
        'SIVmon Cercopithecus Monkeys' 'AY340701' [1 2 8]  ;
        'SIVcpzTAN1 Chimpanzee'        'AF447763' [1 2 8]  ;
        'SIVsmSL92b Sooty Mangabey'    'AF334679' [1 2 8]  ;
        };

numViruses = size(data,1)
numViruses =

    16

Можно использовать getgenbank функционируйте, чтобы скопировать данные GenBank в структуру в MATLAB®. Поле SearchURL структуры содержит адрес фактической записи GenBank. Можно просмотреть эту запись с помощью web команда.

acc_num = data{1,2};
lentivirus =  getgenbank(acc_num);
web(lentivirus(1).SearchURL)

Получите информацию о последовательности из базы данных NCBI GenBank для остальной части инвентарных номеров.

for ind = 2:numViruses
    lentivirus(ind) = getgenbank(data{ind,2});
end

Для вашего удобства ранее загруженные последовательности включены в MAT-файл. Обратите внимание на то, что данные в общедоступных репозиториях часто курируются и обновляются; поэтому результаты этого примера могут немного отличаться, когда вы используете актуальные наборы данных.

load('lentivirus.mat')

Извлеките CDS для GAG, POL и областей кодирования ENV. Затем извлеките последовательности нуклеотида с помощью указателей CDS.

for ind = 1:numViruses
    temp_seq = lentivirus(ind).Sequence;
    temp_seq = regexprep(temp_seq,'[nry]','a');
    CDSs = lentivirus(ind).CDS(data{ind,3});
    gag(ind).Sequence = temp_seq(CDSs(1).indices(1):CDSs(1).indices(2));
    pol(ind).Sequence = temp_seq(CDSs(2).indices(1):CDSs(2).indices(2));
    env(ind).Sequence = temp_seq(CDSs(3).indices(1):CDSs(3).indices(2));
end

Реконструкция Phylogenetic Tree

seqpdist и seqlinkage команды используются, чтобы создать филогенетическое дерево для GAG, кодирующего область с помощью метода 'Tajima-Nei', чтобы измерить расстояние между последовательностями и невзвешенным парным групповым методом с помощью средних арифметических или метода 'UPGMA', для иерархической кластеризации. Метод 'Tajima-Nei' только задан для нуклеотидов, поэтому последовательности нуклеотида используются, а не переведенные последовательности аминокислот. Расчет расстояния может занять довольно много минут, когда это очень в вычислительном отношении интенсивно.

gagd = seqpdist(gag,'method','Tajima-Nei','Alphabet','NT','indel','pair');
gagtree = seqlinkage(gagd,'UPGMA',data(:,1))
plot(gagtree,'type','angular');
title('Immunodeficiency virus (GAG protein)')
    Phylogenetic tree object with 16 leaves (15 branches)

Затем создайте филогенетическое дерево для полибелков POL с помощью метода 'Jukes-Cantor', чтобы измерить расстояние между последовательностями и взвешенным парным групповым методом с помощью средних арифметических или метода 'WPGMA', для иерархической кластеризации. Метод 'Jukes-Cantor' задан для последовательностей аминокислот, который, будучи значительно короче, чем соответствующие последовательности нуклеотида, означает, что расчет попарных расстояний будет значительно быстрее.

Преобразуйте последовательности нуклеотида в последовательности аминокислот с помощью nt2aa.

for ind = 1:numViruses
    aagag(ind).Sequence = nt2aa(gag(ind).Sequence);
    aapol(ind).Sequence = nt2aa(pol(ind).Sequence);
    aaenv(ind).Sequence = nt2aa(env(ind).Sequence);
end

Вычислите расстояние и рычажное устройство, и затем сгенерируйте дерево.

pold = seqpdist(aapol,'method','Jukes-Cantor','indel','pair');
poltree = seqlinkage(pold,'WPGMA',data(:,1))
plot(poltree,'type','angular');
title('Immunodeficiency virus (POL polyprotein)')
    Phylogenetic tree object with 16 leaves (15 branches)

Создайте филогенетическое дерево для полибелков ENV с помощью нормированных попарных баллов выравнивания в качестве расстояний между последовательностями и 'UPGMA', методом для иерархической кластеризации.

envd = seqpdist(aaenv,'method','Alignment','indel','score',...
                    'ScoringMatrix','Blosum62');
envtree = seqlinkage(envd,'UPGMA',data(:,1))
plot(envtree,'type','angular');
title('Immunodeficiency virus (ENV polyprotein)')
    Phylogenetic tree object with 16 leaves (15 branches)

Создайте дерево согласия

Эти три дерева подобны, но существуют некоторые интересные различия. Например, в дереве POL, последовательность 'сфинкса SIVmnd5440 Mandrillus ' помещается близко к деформациям HIV-1, но в дереве ENV это показывается как являющийся очень удаленным к HIV 1 последовательность. Учитывая, что эти три дерева показывают немного отличающиеся результаты, дерево согласия, использующее все три области, может дать лучшую общую информацию о полных вирусах. Дерево согласия может быть создано с помощью взвешенного среднего этих трех деревьев.

weights = [sum(gagd) sum(pold) sum(envd)];
weights = weights / sum(weights);
dist = gagd .* weights(1) + pold .* weights(2) + envd .* weights(3);

Обратите внимание на то, что различные метрики использовались в расчете попарных расстояний. Это могло сместить дерево согласия. Можно хотеть повторно вычислить расстояния для этих трех областей с помощью той же метрики, чтобы получить несмещенное дерево.

tree_hiv = seqlinkage(dist,'average',data(:,1));
plot(tree_hiv,'type','angular');
title('Immunodeficiency virus (Weighted tree)')

Источники вируса иммунодефицита человека

Филогенетическое дерево, следующее из нашего анализа, иллюстрирует присутствие двух кластеров и некоторых других изолированных деформаций. Самый компактный кластер включает все выборки HIV2; в верхней ветви этого кластера мы наблюдаем закопченный mangabey, который был идентифицирован как источник этого лентивируса в людях. Кластер, содержащий деформацию HIV1, однако не так компактен как кластер HIV2. От дерева кажется, что Шимпанзе является источником HIV1, однако, источник передачи перекрестных разновидностей людям является все еще вопросом дебатов среди исследователей HIV.

% Add annotations
annotation(gcf,'textarrow',[0.29 0.31],[0.36 0.28],'Color',[1 0.5 0],...
           'String',{'Possible HIV type 1 origin'},'TextColor',[1 0.5 0]);

annotation(gcf,'textarrow',[0.42 0.49],[0.45 0.50],'Color',[1 0 0],...
           'String',{'HIV type 2 origin'},'TextColor',[1 0 0]);

Ссылки:

[1] Гао, F., и др., "Источник HIV-1 у шимпанзе троглодиты троглодитов Пэна", Природа, 397 (6718):436-41, 1999.

[2] Kestler, H.W., и др., "Сравнение обезьяноподобного вируса иммунодефицита изолирует", Природа, 331 (6157):619-22, 1998.

[3] Alizon, M., и др., "Генетическая изменчивость вируса AIDS: анализ последовательности нуклеотида два изолирует от африканских пациентов", Ячейка, 46 (1):63-74, 1986.