Практикум 4. Ортологи и паралоги, визуализация
Этот практикум посвящён реконструкции филогении гомологичных белков из 8 видов протеобактерий и поиску среди них паралогов и ортологов (ортологичных групп).
Составление списка гомологичных белков
Для выполнения задания было предложено найти гомологи белка CLPX_ECOLI в протеомах выбранных в практикуме 1 бактерий. С этой целью последовательности белков из протеомов были записаны в файл proteomes.fasta, после чего этот файл был использован при создании базы для blast, по которой с помощью blastp был выполнен поиск гомологов CLPX_ECOLI:
makeblastdb -in proteomes.fasta -dbtype prot -out proteomes
blastp -query CLPX_ECOLI.fasta -db proteomes -evalue 0.001 -out clpx_search.txt
Ниже приведён фрагмент файла из выдачи blastp с перечислением всех найденных белков:
Score E Sequences producing significant alignments: (Bits) Value sp|A8GAR0|CLPX_SERP5 ATP-dependent Clp protease ATP-binding sub... 806 0.0.. sp|Q8ZC66|CLPX_YERPE ATP-dependent Clp protease ATP-binding sub... 805 0.0.. sp|B4EU54|CLPX_PROMH ATP-dependent Clp protease ATP-binding sub... 769 0.0.. sp|Q21KA8|CLPX_SACD2 ATP-dependent Clp protease ATP-binding sub... 645 0.0.. sp|Q1BH84|CLPX_BURCA ATP-dependent Clp protease ATP-binding sub... 621 0.0.. sp|P57981|CLPX_PASMU ATP-dependent Clp protease ATP-binding sub... 612 0.0.. sp|Q8UFY5|CLPX_AGRFC ATP-dependent Clp protease ATP-binding sub... 596 0.0.. sp|P44838|CLPX_HAEIN ATP-dependent Clp protease ATP-binding sub... 587 0.0.. sp|Q21H71|HSLU_SACD2 ATP-dependent protease ATPase subunit HslU... 99.8 7e-23 sp|A8GL96|HSLU_SERP5 ATP-dependent protease ATPase subunit HslU... 96.7 9e-22 sp|B4F171|HSLU_PROMH ATP-dependent protease ATPase subunit HslU... 96.7 1e-21 sp|Q8ZJJ5|HSLU_YERPE ATP-dependent protease ATPase subunit HslU... 95.1 2e-21 sp|P57968|HSLU_PASMU ATP-dependent protease ATPase subunit HslU... 93.2 1e-20 sp|Q8UJ87|HSLU_AGRFC ATP-dependent protease ATPase subunit HslU... 92.0 3e-20 sp|P43773|HSLU_HAEIN ATP-dependent protease ATPase subunit HslU... 92.0 3e-20 sp|Q1BSM8|HSLU_BURCA ATP-dependent protease ATPase subunit HslU... 82.4 5e-17 tr|A8GCD8|A8GCD8_SERP5 ATP-dependent Clp protease, ATP-binding ... 51.6 6e-07 tr|B4F2B3|B4F2B3_PROMH ATP-dependent zinc metalloprotease FtsH ... 46.6 2e-05 tr|A8G901|A8G901_SERP5 ATP-dependent zinc metalloprotease FtsH ... 46.2 2e-05 tr|A0A2S9PH39|A0A2S9PH39_YERPE Putative magnesium chelatase fam... 46.2 2e-05 tr|A0A5P8YCE6|A0A5P8YCE6_YERPE Cell division protein OS=Yersini... 45.8 3e-05 tr|Q7CT50|Q7CT50_AGRFC ATP-dependent zinc metalloprotease FtsH ... 45.4 5e-05 tr|A0A0H2XMS5|A0A0H2XMS5_BURCA ATP-dependent zinc metalloprotea... 43.9 1e-04 tr|Q9CNJ2|Q9CNJ2_PASMU ATP-dependent zinc metalloprotease FtsH ... 43.1 2e-04 sp|P71377|FTSH_HAEIN ATP-dependent zinc metalloprotease FtsH OS... 42.7 3e-04
Затем был составлен список найденных последовательностей (getseq.txt), после чего они были переданы из протеомов в файл seq.fasta.
Реконструкция и визуализация
Для реконструкции филогении полученных белковых последовательностей они были предварительно выровнены с помощью muscle (align_seq.fasta) и импортированы в MEGA-X. Далее по выравниванию методом UPGMA было реконструировано филогенетическое дерево (при этом было сделано 500 bootstrap-реплик, и полученное консенсусное дерево по топологии совпало с изначальным). Ниже приведено полученное дерево в формате Newick:
На рисунке 1 можно увидеть реконструированное дерево.
Если считать, что дерево реконструировано верно, то, например, CLPX_SERP5 и CLPX_PROMH, CLPX_PASMU и CLPX_HAEIN, CLPX_AGRFC и CLPX_BURCA являются ортологами, а CLPX_SERP5 и HSLU_SERP5, HSLU_HAEIN и FTSH_HAEIN, CLPX_PASMU и Q9CNJ2_PASMU - паралогами.
На рисунке 2 изображено это же дерево, но листья, принадлежащие одной оротологичной группе, объединены между собой.
В ортологичной группе ATP-dependent protease subunit CplX содержатся 8 белков (т. е. присутствуют белки из всех выбранных бактерий), но реконструкция их филогении отличается от корректной филогении видов бактерий: дерево видов включает ветвь {SERP5, YERPE, PROMH, HAEIN, PASMU} vs {SACD2, BURCA, AGRFC}, тогда как полученное дерево белков подразумевает наличие ветви {PASMU, HAEIN} vs {SERP5, YERPE, PROMH, SACD2, BURCA, AGRFC}. Стоит упомянуть, однако, что эта ветвь имеет наименьшее значение bootstrap-поддержки из всех.
Группа ATP-dependent protease subunit HslU также включает в себя белки из всех 8 бактерий, но филогения этой группы совпадает с филогенией видов.
В группу ATP-dependent zinc metalloprotease FtsH объединены 7 белков (нет белка из SACD2), и филогения группы реконструирована правильно.