Паралоги, визуализация
Что было сделано:
- был составлен список гомологичных белков, включая паралоги
- была проведена реконструкция и визуализация филогении
Составление списка гомологичных белков, включающих паралоги
Скопировала в свою директорию протеомы бактерий, изученных в предыдущих трех практикумах,
у некоторых бактерий были взяты ближайшие родственники (точнее, у Clostridium botulinum,
Staphylococcus aureus, Staphylococcus epidermidis).
Командой сat был записан файл union.fasta, объединяющий в себе протеомы изучаемых мной бактерий.
Командой makeblastdb была создана база данных белков из файла, представляющего собой объединенные
протеомы изучаемых мной бактерий:
makeblastdb -in union.fasta -dbtype prot
Командой blastp был проведен поиск гомологов белка CLPX_ECOLI:
blastp -task blastp -evalue 0.001 -query P0A6H1.fasta -db db.fasta -out proteomes.fasta
Вот что мне выдал BLAST:
Database: union.fasta 17,214 sequences; 5,159,916 total letters Query= Length=518 Score E Sequences producing significant alignments: (Bits) Value sp|Q891J8|CLPX_CLOTE ATP-dependent Clp protease ATP-binding sub... 536 0.0 sp|Q2RL30|CLPX_MOOTA ATP-dependent Clp protease ATP-binding sub... 532 0.0 sp|A5I6W0|CLPX_CLOBH ATP-dependent Clp protease ATP-binding sub... 529 0.0 sp|Q5HNM9|CLPX_STAEQ ATP-dependent Clp protease ATP-binding sub... 498 4e-173 sp|Q2FXQ7|CLPX_STAA8 ATP-dependent Clp protease ATP-binding sub... 497 1e-172 tr|Q5FKR6|Q5FKR6_LACAC ATP-dependent Clp protease ATP-binding s... 485 3e-168 tr|Q1GAP8|Q1GAP8_LACDA ATP-dependent Clp protease ATP-binding s... 476 2e-164 sp|Q5FKD8|HSLU_LACAC ATP-dependent protease ATPase subunit HslU... 101 3e-23 sp|Q1G9V4|HSLU_LACDA ATP-dependent protease ATPase subunit HslU... 101 4e-23 tr|Q2RJP5|Q2RJP5_MOOTA ATP-dependent protease ATPase subunit Hs... 99.8 1e-22 sp|Q2FZ28|HSLU_STAA8 ATP-dependent protease ATPase subunit HslU... 97.4 6e-22 sp|Q5HPT8|HSLU_STAEQ ATP-dependent protease ATPase subunit HslU... 93.2 2e-20 sp|Q2FV74|CLPL_STAA8 ATP-dependent Clp protease ATP-binding sub... 57.4 5e-09 tr|Q1GB74|Q1GB74_LACDA UVR domain-containing protein OS=Lactoba... 52.0 3e-07 tr|A5I766|A5I766_CLOBH ATP-dependent zinc metalloprotease FtsH ... 51.2 5e-07 tr|Q2RLR4|Q2RLR4_MOOTA AAA domain-containing protein OS=Moorell... 50.4 6e-07 tr|Q5FHW6|Q5FHW6_LACAC UVR domain-containing protein OS=Lactoba... 48.9 2e-06 tr|Q2RLP6|Q2RLP6_MOOTA AAA domain-containing protein OS=Moorell... 48.1 3e-06 tr|Q891B9|Q891B9_CLOTE ATP-dependent zinc metalloprotease FtsH ... 47.4 7e-06 tr|Q899H3|Q899H3_CLOTE ATP-dependent zinc metalloprotease FtsH ... 47.0 1e-05 tr|Q1GBN8|Q1GBN8_LACDA ATP-dependent zinc metalloprotease FtsH ... 46.6 1e-05 tr|A5I7Q0|A5I7Q0_CLOBH ATP-dependent zinc metalloprotease FtsH ... 45.8 2e-05 tr|Q1G869|Q1G869_LACDA ATP-dependent Clp protease, ATP-binding ... 45.8 2e-05 tr|Q895L6|Q895L6_CLOTE AAA domain-containing protein OS=Clostri... 43.9 7e-05 tr|Q898D1|Q898D1_CLOTE AAA domain-containing protein OS=Clostri... 43.5 9e-05 sp|Q2G2J8|Y1413_STAA8 Uncharacterized protein SAOUHSC_01413 OS=... 43.1 9e-05 tr|Q2RM95|Q2RM95_MOOTA ATP-dependent zinc metalloprotease FtsH ... 42.7 2e-04 tr|Q5FMA3|Q5FMA3_LACAC ATP-dependent zinc metalloprotease FtsH ... 42.0 3e-04 tr|A5HYU4|A5HYU4_CLOBH ATP-dependent zinc metalloprotease FtsH ... 42.0 3e-04 tr|A5I501|A5I501_CLOBH AAA domain-containing protein OS=Clostri... 41.6 4e-04 sp|Q5HPD3|Y979_STAEQ Uncharacterized protein SERP0979 OS=Staphy... 41.2 4e-04 tr|Q2RJJ8|Q2RJJ8_MOOTA AAA domain-containing protein OS=Moorell... 40.8 7e-04 tr|Q5HRP3|Q5HRP3_STAEQ ATP-dependent zinc metalloprotease FtsH ... 40.4 0.001
Реконструкция и визуализация
Последовательности, указанные в выдаче BLAST, были получены в Uniprot. С помощью программы Jalview было полученоо выравнивание этих последовательностей. В программе MEGA методом Maximum Likelyhood с применением bootstrap было построено филогенетическое дерево:
Дерево в формате .nwk:
((((CLPX_STAEQ/1-420,CLPX_STAA8/1-420)1,0000,(Q5FKR6_LACAC/1-420,Q1GAP8_LACDA/1-417)0,9800)
0,5750,CLPX_MOOTA/1-419,(CLPX_CLOTE/1-431,CLPX_CLOBH/1-429)0,9800,CLPX_ECOLI/1-424)0,8250,
(Q2RJP5_MOOTA/1-461,((HSLU_LACAC/1-466,HSLU_LACDA/1-464)1,0000,(HSLU_STAA8/1-467,HSLU_STAEQ/1-467)
1,0000)0,5900)1,0000,Q2RLR4_MOOTA/1-370,Q895L6_CLOTE/1-524,((CLPL_STAA8/1-701,Q1G869_LACDA/1-696)
0,8550,(Q1GB74_LACDA/1-731,Q5FHW6_LACAC/1-709)0,8300)0,9950(Y1413_STAA8/1-263,Y979_STAEQ/1-263)
1,0000,A5I501_CLOBH/1-416,(Q2RLP6_MOOTA/1-415,(Q2RJJ8_MOOTA/1-494,((Q898D1_CLOTE/1-576,A5HYU4_CLOBH/1-576)
1,0000,((A5I766_CLOBH/1-658,Q891B9_CLOTE/1-624)1,0000,((Q899H3_CLOTE/1-603,A5I7Q0_CLOBH/1-601)
1,0000,Q2RM95_MOOTA/1-645,(Q5HRP3_STAEQ/1-700,(Q1GBN8_LACDA/1-737,Q5FMA3_LACAC/1-718)1,0000)
0,7550)0,9100)0,9700)0,8900)0,7650)0,9750);
![tree_image](/~spyro/term4/block1/pr4/tree_pr4.png)
Реконструкцию посчитали правильной, нашли, по крайней мере, три пары ортологов:
- CLPX_STAEQ & CLPX_STAA8
- CLPX_MOOTA & CLPX_CLOTE
- HSLU_LACAC & HSLU_LACDA
и три пары паралогов:
- Q1G869_LACDA & Q1GB74_LACDA
- Q2RLP6_MOOTA & Q2RJJ8_MOOTA
- Q891B9_CLOTE & Q899H3_CLOTE
![tree_image](/~spyro/term4/block1/pr4/tree1.png)
Дерево, в котором ортологические группы с количеством ортологических белков больше трех объединены.