Был произведен поиск достоверных гомологов белка CLPX организма E.Coli, среди бактерий из практикума №1.
Полное название белка - ATP-dependent Clp protease ATP-binding subunit ClpX.
Для начала были скачаны протеомы /P/y17/term4/Proteomes и сложены в один файл с помощью
команды
cat XXXX.fasta >> proteomes.fasta
Так протеомы бактерий дописывались в конец
файла proteomes.fasta.
Далее для поиска гомологов использовался локальный blastp. Для этого создавалась собственная база
данных командой:
makeblastdb -in proteomes.fasta -dbtype prot -out protdata
Далее запущен blastp. Установлен порог на E-value - 000.1, и на размер слова - 6, чтобы гомологи
получились достовернее.
blastp -task blastp -query clpx_ecoli.fasta -db protdata -evalue 0.001 -word_size 6 -outfmt 7 -out blastp.txt
Выдача программы представлена ниже. Всего находок - 31.
query id, subject id, identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
sp|P0A6H1|CLPX_ECOLI sp|Q8ZC66|CLPX_YERPE 92.69 424 30 1 1 424 1 423 0.0 805
sp|P0A6H1|CLPX_ECOLI sp|Q21KA8|CLPX_SACD2 75.82 426 97 3 1 421 1 425 0.0 645
sp|P0A6H1|CLPX_ECOLI sp|P57981|CLPX_PASMU 73.70 403 104 1 13 413 7 409 0.0 612
sp|P0A6H1|CLPX_ECOLI sp|Q6G3Z2|CLPX_BARHE 71.01 407 115 3 9 415 11 414 0.0 588
sp|P0A6H1|CLPX_ECOLI sp|A5FX05|CLPX_ACICJ 68.01 422 131 4 1 422 1 418 0.0 583
sp|P0A6H1|CLPX_ECOLI sp|A1B1H7|CLPX_PARDP 71.15 416 115 5 9 423 9 420 0.0 580
sp|P0A6H1|CLPX_ECOLI sp|Q9JTX8|CLPX_NEIMA 69.21 406 117 2 15 413 8 412 0.0 557
sp|P0A6H1|CLPX_ECOLI sp|A1B5T0|HSLU_PARDP 40.28 144 80 2 66 209 5 142 2e-24 103
sp|P0A6H1|CLPX_ECOLI sp|A1B5T0|HSLU_PARDP 32.62 233 97 7 177 404 241 418 3e-21 94.4
sp|P0A6H1|CLPX_ECOLI sp|Q21H71|HSLU_SACD2 47.52 101 52 1 66 166 5 104 5e-23 99.8
sp|P0A6H1|CLPX_ECOLI sp|Q21H71|HSLU_SACD2 32.34 235 98 7 177 406 245 423 9e-20 90.1
sp|P0A6H1|CLPX_ECOLI sp|Q6G5G0|HSLU_BARHE 35.02 237 89 7 157 388 228 404 4e-22 97.1
sp|P0A6H1|CLPX_ECOLI sp|Q6G5G0|HSLU_BARHE 45.10 102 55 1 66 167 6 106 9e-20 90.1
sp|P0A6H1|CLPX_ECOLI sp|Q8ZJJ5|HSLU_YERPE 45.00 100 54 1 66 165 5 103 2e-21 95.1
sp|P0A6H1|CLPX_ECOLI sp|Q8ZJJ5|HSLU_YERPE 34.42 215 82 6 177 386 249 409 1e-20 92.8
sp|P0A6H1|CLPX_ECOLI sp|P57968|HSLU_PASMU 34.33 233 91 8 177 403 249 425 9e-21 93.2
sp|P0A6H1|CLPX_ECOLI sp|P57968|HSLU_PASMU 45.00 100 54 1 66 165 5 103 2e-20 92.4
sp|P0A6H1|CLPX_ECOLI tr|A5FYD7|A5FYD7_ACICJ 44.23 104 53 2 66 167 8 108 2e-20 92.0
sp|P0A6H1|CLPX_ECOLI tr|A5FYD7|A5FYD7_ACICJ 32.27 251 112 5 169 414 235 432 2e-17 83.6
sp|P0A6H1|CLPX_ECOLI tr|A1B8N4|A1B8N4_PARDP 23.81 315 168 9 74 377 465 718 1e-06 50.1
sp|P0A6H1|CLPX_ECOLI tr|A0A0H2W8E5|A0A0H2W8E5_YERPE 25.00 188 93 7 28 192 148 310 2e-05 46.2
sp|P0A6H1|CLPX_ECOLI tr|A0A384KS70|A0A384KS70_YERPE 34.62 78 45 2 115 192 188 259 2e-05 45.8
sp|P0A6H1|CLPX_ECOLI tr|A0A0H3LXZ4|A0A0H3LXZ4_BARHE 35.06 77 44 2 115 191 192 262 3e-05 45.4
sp|P0A6H1|CLPX_ECOLI tr|A5FVF9|A5FVF9_ACICJ 35.06 77 44 2 115 191 193 263 5e-05 44.7
sp|P0A6H1|CLPX_ECOLI tr|A1AZV8|A1AZV8_PARDP 36.84 76 42 2 116 191 191 260 6e-05 44.3
sp|P0A6H1|CLPX_ECOLI sp|Q6G5R1|RUVB_BARHE 24.24 132 72 3 63 190 12 119 9e-05 43.5
sp|P0A6H1|CLPX_ECOLI tr|Q9CNJ2|Q9CNJ2_PASMU 33.33 78 46 2 115 192 186 257 2e-04 43.1
sp|P0A6H1|CLPX_ECOLI sp|Q9JUB0|RUVB_NEIMA 33.90 118 51 5 74 190 37 128 2e-04 42.7
sp|P0A6H1|CLPX_ECOLI tr|Q9CKU5|Q9CKU5_PASMU 22.28 193 96 7 28 192 148 314 5e-04 41.6
sp|P0A6H1|CLPX_ECOLI tr|A1BBJ2|A1BBJ2_PARDP 30.59 85 53 3 115 199 192 270 5e-04 41.6
sp|P0A6H1|CLPX_ECOLI tr|A0A0U1RJ22|A0A0U1RJ22_NEIMA 26.92 156 85 6 65 219 12 139 7e-04 40.8
Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии,
ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.
Последовательности были собраны в один файл и выровнены веб-версией Muscle. Затем, с помощью
программы MEGA было получено дерево, методом - Neighbour-Joining.