k Практикум 1

Поиск ортологов и паралогов

Составление списка гомологичных белков, включающих паралоги

cat ACIC1.fasta ARTS2.fasta BIFLO.fasta CLAMS.fasta CORDI.fasta COREF.fasta LEIXX.fasta

Обединяю протеомы в один файл

makeblastdb -parse_seqids -in proteins.fasta -dbtype prot -out proteins_db

Создаю локальную базу данных белков.

blastp -query 1prot.fasta -num_threads 4 -db proteins_db -evalue 0.001 -out blast.txt

Производим поиск по базе данных с порогом E-value=0,001.

seqret @list.txt all.fasta

Далее создала список мнемоник, скачала по ним последовательности.

muscle -in alL.fasta -out align.fasta

Произвела множественное выравнивание

В ходе работы blastp был получен следующий результат:

 
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

Q8FN57  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Co...  518     0.0   
Q6NFU7  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Co...  518     0.0   
A0LSV2  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Ac...  517     0.0   
A0JXL2  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Ar...  516     0.0   
Q6AFZ6  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Le...  509     0.0   
B0RAS4  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Cl...  491     1e-173
Q8G5R1  ATP-dependent Clp protease ATP-binding subunit ClpX OS=Bi...  432     6e-150
A0K1M3  ATPase AAA-2 domain protein OS=Arthrobacter sp. (strain F...  54.3    4e-08 
Q8G871  Protease OS=Bifidobacterium longum (strain NCC 2705) OX=2...  51.2    5e-07 
Q8FMH5  Putative endopeptidase Clp ATP-binding chain C OS=Coryneb...  47.0    8e-06 
Q6NFB1  ATP-dependent Clp protease ATP-binding subunit OS=Coryneb...  45.8    2e-05 
A0LW31  AAA ATPase, central domain protein OS=Acidothermus cellul...  45.4    2e-05 
A0LRB8  ATP-dependent zinc metalloprotease FtsH OS=Acidothermus c...  43.5    1e-04 
Q8G6B7  Holliday junction ATP-dependent DNA helicase RuvB OS=Bifi...  42.7    1e-04 
A0LR74  ATP-dependent zinc metalloprotease FtsH OS=Acidothermus c...  43.1    1e-04 
Q6ACQ0  ATP-dependent zinc metalloprotease FtsH OS=Leifsonia xyli...  43.1    1e-04 
Q8G3S2  ATP-dependent zinc metalloprotease FtsH OS=Bifidobacteriu...  43.1    1e-04 
A0JXB1  Holliday junction ATP-dependent DNA helicase RuvB OS=Arth...  42.4    2e-04 
A0JR82  ATP-dependent zinc metalloprotease FtsH OS=Arthrobacter s...  41.6    3e-04 
A0K236  AAA ATPase, central domain protein OS=Arthrobacter sp. (s...  41.6    4e-04 
B0RHW4  ATP-dependent zinc metalloprotease FtsH OS=Clavibacter mi...  41.2    5e-04 
Q6NF92  ATP-dependent zinc metalloprotease FtsH OS=Corynebacteriu...  40.8    7e-04 
Q6NGK1  AAA domain-containing protein OS=Corynebacterium diphther...  40.4    8e-04 
Q8FMG2  ATP-dependent zinc metalloprotease FtsH OS=Corynebacteriu...  40.4    9e-04 

Реконструкция и визуализация

Реконструкция филогении была произведена с помощью программы MEGA с алгоритмом UPGMA. Полученное дерево представлено на картинке ниже.

1st tree

Полное дерево

2nd tree

Дерево со свернутыми ортологичными группами

Пример ортологов: белки из группы Clpx, группа FtsH, RUVB BIFLO и RUVB ARTS2.

Примеры паралогов: CLPX_BIFLO и RUVB_BIFLO,A0JR82 ARTS2 и RUVB ARTS2, Q8FMH5 COREF и Q8FMG2 COREF.

Филогения белков не в точности соответствует филогении бактерий. В группах ортологов Clpx и FtsH корректно сформированы ветви ((LEIXX, CLAMS), APTS); (COERF, CORDI). В случае FtsH BIFLO отходит раньше, чем ACIC1, хотя в правильном дереве наоборот. В случае Clpx BIFLO отделяется раньше все, хотя должен образовывать кладу (BIFLO,(ARTS2,(LEIXX, CLAMS)))), а (COREF,CORDI) формирует кладу (ARTS2, (COREF,CORDI)) вместо того, чтобы отделяться раньше всех.