Практикум 4.
Сначала файлы c протеомами бактерий из 1 практикума были скачаны из директории /P/y21/term4/Proteomes и объедены в общий файл proteomes.fasta
Далее proteomes.fasta был проиндексирован:
makeblastdb -in proteomes.fasta -dbtype prot -parse_seqids
И наконец, с помощью blastp были найдены гомологи белка CLPX_ECOLI из полученной в прошлом пункте базы данных:
blastp -query CLPX_ECOLI.fasta -num_threads 4 -db bac_db -evalue 0.001 -out result.txt
Все находки были объеденены в единый fasta-файл.
На сайте NGPhylogeny была запущена филогенетическая реконструкция дерева. В качестве программы множественного выравнивания было выбрано MAFFT, а в качестве алгоритма построения дерева - FastME. При этом для алгоритма FastME были выбраны следующие параметрамы: "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик. Файл nwk.
Считая дерево реконструированным верно, можно выделить:
Пары ортологов: CLPX_MYCLE и CLPX_MYCTU, CLPX_COREF и CLPX_CORDI, Q8FMH5_COREF и Q6NFB1_CORDI.
Пары паралогов: CLPX_MYCVP и A1TG43_MYCVP, CLPX_RHOJR и Q0S8E3_RHOJR, Q6NFB1_CORDI и CLPX_CORDI.
Далее полученное дерево было укоренено в среднюю точку и покрашено в различные цвета, соответсвующие ортологичским группам белков (Рис. 2). Далее ортологичные группы были ''схлопнуты'' (Рис. 2).
Коментарий к Рис.3. Группа, выделенная зеленым цветом: АТФ-зависимые Clp протеазы. В группе находятся все белки, филогения белков полностью совпадает с филогенией бактерий. Группа, выделенная оранжевым цветом: АТФаза ААА-2 (MYCVP), АТФ-зависимые Clp протеазы (CORDI, RHOJR), эндопептидаза Clp (COREF). В группу вошло 4 белка. Филогения не совсем совпадает с филогенией организмов, но пара CORDI-COREF остается неизменной.