Практические аспекты реконструкции филогении. Реконструкция и визуализация списка гомологичных белков, включающих паралоги

Из соответствующей директории на kodomo, содержащей 15 полных протеомов бактерий были выбраны 8 бактерий с мнемониками: АСІСЈ, AROAE, BORPE, BURMA, HAEIN, PARDP, POLAQ, PSEAE. Затем все протеомы были объединены в один fasta-файл. После чего командой makeblastdb он был проиндексирован для дальнейшего поиска гомологов белка CLPX_ECOLI.

Поиск осуществлялся командой:
blastp -query CLPX_ECOLI.fasta -db proteoms.fasta -out blast_all.txt -outfmt 6 -evalue 1e-05

полная выдача бласта

Ссылка на список находок названия белков

Список выбранных бактерий: PARDP, ACICJ, HAEIN, PSEAE, AROAE, BORPE, BURMA, POLAQ.

Филогенетическое дерево бактерий
Рис. 1. Филогенетическое дерево, отображающее эволюционные взаимоотношения между выбранными бактериями.

Реконструкция и визуализация находок

Полученные с помощью blastp находки были помещены в файл all.fasta, хранящий только ID белков-гомологов и соответствующие им последовательности. Далее этот набор был выравнен с помощью mafft:
mafft --auto all.fasta > aln.fasta
и по выравниванию реконструировалось дерево найденных гомологов с числом реплик бутстрепа 1488:
iqtree -s aln.fasta -bb 1488.

Ссылка на файл дерева (./aln.fasta(1).treefile)

Филогенетическое дерево гомологов Clpx
Рис. 2. Филогенетическое дерево, построенное по выравниванию последовательностей гомологов белка Clpx из E.coli.

Дерево строилось программой iqtree и midpoint укоренено в ITOL. Разными цветами покрашены разные ортологические группы. A1B8N4_PARDP не вошел ни в одну ортологическую группу, потому и не покрашен.

Три пары ортологов: CLPX_BURMA и CLPX_AROAE, CLPX_ACICJ и CLPX_PARDP, CLPX_HAEIN и CLPX_ACICJ. Три пары паралогов: (HSLU/CLPX)_PARDP, (HSLU/CLPX)_AROAE, (HSLU/CLPX)_BURMA.

Дерево со схлопнутыми группами
Рис. 3. Филогенетическое дерево гомологов белка Clpx из E.coli со "схлопнутыми" ортологическими группами.

Красным треугольником обозначена ортологическая группа белка CLPX, состоящая из белков из организмов POLAQ, BURMA, AROAE, BORPE, PSEAE, HAEIN, ACICJ, PARDP. Зелёным треугольником обозначена клада, состоящая из ортологичных белков А5FYD7 из АCICJ и HSLU из PSEAE, HAEIN, PARDP, AROAE, BURMA, BORPE.

Зелёная клада: не соответствует правильной филогении. Ветви, ведущие к белкам из HAEIN и PSEAЕ не исходят из одного узла. Однако отбросив это, все остальные ветви реконструированы правильно. Красная клада: тоже нет. Ветви к BURMA и AROAE не должны исходить из одного узла, а к HAEIN и PSEAE из разных.

Вывод: деревья видов и деревья, отражающие эволюцию ортогрупп, различаются и далеко не всегда их можно приравнивать друг к другу.