Практикум 4

СОСТАВЛЕНИЕ СПИСКА ГОМОЛОГИЧНЫХ БЕЛКОВ, ВКЛЮЧАЮЩИХ ПАРАЛОГИ

Протеомы выбранных ранее бактерий объединены в файл dtbase.fasta, после чего проиндексировал его с помощью команды:

makeblastdb -in dtbase.fasta -dbtype prot -parse_seqids

Используя локальный blastp (версия 2.12.0+), нашёл в базе данных из протеомов гомологи белка CLPX_ECOLI (порог на e-value в 0,001):

blastp -query CLPX_ECOLI.fasta -db database.fasta -out best_hits_table.txt -evalue 0.001 -outfmt 7

Выдача: best_hits_table.

РЕКОНСТРУКЦИЯ И ВИЗУАЛИЗАЦИЯ

Все находки объединил в файл best_hits_seqs, оставив в заголовках только идентификаторы.

На сайте NGPhylogeny проводилась филогенетическая реконструкция, использовав MAFFT и FastME c параметрами: "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик.

Полученное дерево сохранено в файле Output_Tree.nhx.

Основываясь на предположении, что филогенетическая реконструкция верна, можно найти пары ортологов и паралогов. Они представлены в Таблице 1

Таблица 1. Три пары ортологов и три пары паралогов в полученном дереве.
Ортологи Паралоги
CLPX COREF и CLPX CORDI CLPX COREF и Q8FMH5 COREF
Q8FMH5 COREF и Q6NFB1 CORDI Q8FMH5 COREF и Q8FMG2 COREF
Q8FMG2 COREF и Q6NF92 CORDI Q8FMG2 COREF и CLPX COREF
Далее я укоренил дерево в среднюю точку и покрасил ортологичные группы белков (Рис. 1). Группы, состоящие из трёх и меньше ортологов, покрашены в чёрный цвет. Также было добавлено отображение поддержек bootstrap.
Sorry!
Рис 1. Дерево, построенное в результате выравнивания гомологов CLPX_ECOLI. Ортологичные группы выделены разными цветами. Группы с тремя или меньше ортологов выделены чёрным. Цифрами под ветвями обозначено количество bootstrap реплик.
Sorry!
Рис 2. Дерево из Рис. 1, на котором ортологичные группы схлопнуты с сохранением соответствующих цветов. В красной группе присутствуют все из семи отобранных видов бактерий. При этом она не соответствует филогении бактерий. Все гены этой группы являются ATP-зависимыми протеазами Clp. Зелёная группа включает в себя бактерий с мнемониками ARTS2, BIFLO, COREF и CORDI и содержит белки, являющиеся АТФазой класса I ClpC (Q8G871), АТФазой класса II ClpN (Q8FMH5). Группа не соответствует филогении бактерий. В синей группе присутствуют все из семи отобранных видов бактерий. Это группа соответствует филогении бактерий и включает в себя белки ATP-азы из семейства AAA-3.