Паралоги, визуализация


Что было сделано:


Составление списка гомологичных белков, включающих паралоги

Скопировала в свою директорию протеомы бактерий, изученных в предыдущих трех практикумах, у некоторых бактерий были взяты ближайшие родственники (точнее, у Clostridium botulinum, Staphylococcus aureus, Staphylococcus epidermidis).
Командой сat был записан файл union.fasta, объединяющий в себе протеомы изучаемых мной бактерий.
Командой makeblastdb была создана база данных белков из файла, представляющего собой объединенные протеомы изучаемых мной бактерий:
makeblastdb -in union.fasta -dbtype prot
Командой blastp был проведен поиск гомологов белка CLPX_ECOLI:
blastp -task blastp -evalue 0.001 -query P0A6H1.fasta -db db.fasta -out proteomes.fasta

Вот что мне выдал BLAST:


Database: union.fasta
           17,214 sequences; 5,159,916 total letters



Query=
Length=518
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  sp|Q891J8|CLPX_CLOTE ATP-dependent Clp protease ATP-binding sub...   536    0.0
  sp|Q2RL30|CLPX_MOOTA ATP-dependent Clp protease ATP-binding sub...   532    0.0
  sp|A5I6W0|CLPX_CLOBH ATP-dependent Clp protease ATP-binding sub...   529    0.0
  sp|Q5HNM9|CLPX_STAEQ ATP-dependent Clp protease ATP-binding sub...   498    4e-173
  sp|Q2FXQ7|CLPX_STAA8 ATP-dependent Clp protease ATP-binding sub...   497    1e-172
  tr|Q5FKR6|Q5FKR6_LACAC ATP-dependent Clp protease ATP-binding s...   485    3e-168
  tr|Q1GAP8|Q1GAP8_LACDA ATP-dependent Clp protease ATP-binding s...   476    2e-164
  sp|Q5FKD8|HSLU_LACAC ATP-dependent protease ATPase subunit HslU...   101    3e-23
  sp|Q1G9V4|HSLU_LACDA ATP-dependent protease ATPase subunit HslU...   101    4e-23
  tr|Q2RJP5|Q2RJP5_MOOTA ATP-dependent protease ATPase subunit Hs...  99.8    1e-22
  sp|Q2FZ28|HSLU_STAA8 ATP-dependent protease ATPase subunit HslU...  97.4    6e-22
  sp|Q5HPT8|HSLU_STAEQ ATP-dependent protease ATPase subunit HslU...  93.2    2e-20
  sp|Q2FV74|CLPL_STAA8 ATP-dependent Clp protease ATP-binding sub...  57.4    5e-09
  tr|Q1GB74|Q1GB74_LACDA UVR domain-containing protein OS=Lactoba...  52.0    3e-07
  tr|A5I766|A5I766_CLOBH ATP-dependent zinc metalloprotease FtsH ...  51.2    5e-07
  tr|Q2RLR4|Q2RLR4_MOOTA AAA domain-containing protein OS=Moorell...  50.4    6e-07
  tr|Q5FHW6|Q5FHW6_LACAC UVR domain-containing protein OS=Lactoba...  48.9    2e-06
  tr|Q2RLP6|Q2RLP6_MOOTA AAA domain-containing protein OS=Moorell...  48.1    3e-06
  tr|Q891B9|Q891B9_CLOTE ATP-dependent zinc metalloprotease FtsH ...  47.4    7e-06
  tr|Q899H3|Q899H3_CLOTE ATP-dependent zinc metalloprotease FtsH ...  47.0    1e-05
  tr|Q1GBN8|Q1GBN8_LACDA ATP-dependent zinc metalloprotease FtsH ...  46.6    1e-05
  tr|A5I7Q0|A5I7Q0_CLOBH ATP-dependent zinc metalloprotease FtsH ...  45.8    2e-05
  tr|Q1G869|Q1G869_LACDA ATP-dependent Clp protease, ATP-binding ...  45.8    2e-05
  tr|Q895L6|Q895L6_CLOTE AAA domain-containing protein OS=Clostri...  43.9    7e-05
  tr|Q898D1|Q898D1_CLOTE AAA domain-containing protein OS=Clostri...  43.5    9e-05
  sp|Q2G2J8|Y1413_STAA8 Uncharacterized protein SAOUHSC_01413 OS=...  43.1    9e-05
  tr|Q2RM95|Q2RM95_MOOTA ATP-dependent zinc metalloprotease FtsH ...  42.7    2e-04
  tr|Q5FMA3|Q5FMA3_LACAC ATP-dependent zinc metalloprotease FtsH ...  42.0    3e-04
  tr|A5HYU4|A5HYU4_CLOBH ATP-dependent zinc metalloprotease FtsH ...  42.0    3e-04
  tr|A5I501|A5I501_CLOBH AAA domain-containing protein OS=Clostri...  41.6    4e-04
  sp|Q5HPD3|Y979_STAEQ Uncharacterized protein SERP0979 OS=Staphy...  41.2    4e-04
  tr|Q2RJJ8|Q2RJJ8_MOOTA AAA domain-containing protein OS=Moorell...  40.8    7e-04
  tr|Q5HRP3|Q5HRP3_STAEQ ATP-dependent zinc metalloprotease FtsH ...  40.4    0.001

Реконструкция и визуализация

Последовательности, указанные в выдаче BLAST, были получены в Uniprot. С помощью программы Jalview было полученоо выравнивание этих последовательностей. В программе MEGA методом Maximum Likelyhood с применением bootstrap было построено филогенетическое дерево:


Дерево в формате .nwk:
((((CLPX_STAEQ/1-420,CLPX_STAA8/1-420)1,0000,(Q5FKR6_LACAC/1-420,Q1GAP8_LACDA/1-417)0,9800) 0,5750,CLPX_MOOTA/1-419,(CLPX_CLOTE/1-431,CLPX_CLOBH/1-429)0,9800,CLPX_ECOLI/1-424)0,8250, (Q2RJP5_MOOTA/1-461,((HSLU_LACAC/1-466,HSLU_LACDA/1-464)1,0000,(HSLU_STAA8/1-467,HSLU_STAEQ/1-467) 1,0000)0,5900)1,0000,Q2RLR4_MOOTA/1-370,Q895L6_CLOTE/1-524,((CLPL_STAA8/1-701,Q1G869_LACDA/1-696) 0,8550,(Q1GB74_LACDA/1-731,Q5FHW6_LACAC/1-709)0,8300)0,9950(Y1413_STAA8/1-263,Y979_STAEQ/1-263) 1,0000,A5I501_CLOBH/1-416,(Q2RLP6_MOOTA/1-415,(Q2RJJ8_MOOTA/1-494,((Q898D1_CLOTE/1-576,A5HYU4_CLOBH/1-576) 1,0000,((A5I766_CLOBH/1-658,Q891B9_CLOTE/1-624)1,0000,((Q899H3_CLOTE/1-603,A5I7Q0_CLOBH/1-601) 1,0000,Q2RM95_MOOTA/1-645,(Q5HRP3_STAEQ/1-700,(Q1GBN8_LACDA/1-737,Q5FMA3_LACAC/1-718)1,0000) 0,7550)0,9100)0,9700)0,8900)0,7650)0,9750);


tree_image

Реконструкцию посчитали правильной, нашли, по крайней мере, три пары ортологов:

и три пары паралогов:


tree_image

Дерево, в котором ортологические группы с количеством ортологических белков больше трех объединены.

up

Правильный CSS!