>
Протеомы бактерий из предыдущего практикума были собраны в один файл db.fa
при помощи команды cat
. Затем этот файл я проиндексировала:
makeblastdb -in db.fa -dbtype prot -parse_seqids
Затем я нашла гомологи белка CLPX_ECOLI в сформированной базе данных с помощью команды:
blastp -query clpx_ecoli.fa -db db.fa -evalue 0.001 -out clpx_out.txt
Вот такая выдача получлась:
Score E Sequences producing significant alignments: (Bits) Value P0A6H1 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Esc... 860 0.0 Q8ZC66 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Yer... 805 0.0 B4EU54 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Pro... 769 0.0 Q21KA8 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Sac... 645 0.0 Q5P160 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Aro... 619 0.0 Q8UFY5 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Agr... 596 0.0 Q165G0 ATP-dependent Clp protease ATP-binding subunit ClpX OS=Ros... 582 0.0 Q21H71 ATP-dependent protease ATPase subunit HslU OS=Saccharophag... 99.8 7e-23 B4F171 ATP-dependent protease ATPase subunit HslU OS=Proteus mira... 96.7 9e-22 Q8ZJJ5 ATP-dependent protease ATPase subunit HslU OS=Yersinia pes... 95.1 2e-21 P0A6H5 ATP-dependent protease ATPase subunit HslU OS=Escherichia ... 93.6 7e-21 Q16CY2 ATP-dependent protease ATPase subunit HslU OS=Roseobacter ... 93.6 9e-21 Q5P503 ATP-dependent protease ATPase subunit HslU OS=Aromatoleum ... 93.6 9e-21 Q8UJ87 ATP-dependent protease ATPase subunit HslU OS=Agrobacteriu... 92.0 2e-20 A0A5P8YGZ0 ATP-dependent Clp protease ATP-binding subunit OS=Yers... 51.2 5e-07 B4EV83 ATP-dependent Clp protease ATP-binding subunit OS=Proteus ... 50.1 1e-06 B4F2B3 ATP-dependent zinc metalloprotease FtsH OS=Proteus mirabil... 46.6 2e-05 P0AAI3 ATP-dependent zinc metalloprotease FtsH OS=Escherichia col... 46.2 2e-05 A0A5P8YB42 ATP-dependent protease OS=Yersinia pestis OX=632 GN=YP... 46.2 2e-05 A0A5P8YCE6 ATP-dependent zinc metalloprotease FtsH OS=Yersinia pe... 45.8 3e-05 Q168A2 Holliday junction branch migration complex subunit RuvB OS... 45.4 3e-05 Q7CT50 ATP-dependent zinc metalloprotease FtsH OS=Agrobacterium f... 45.4 4e-05 P0ABH9 ATP-dependent Clp protease ATP-binding subunit ClpA OS=Esc... 43.1 2e-04 Q16C81 Chaperone protein ClpB OS=Roseobacter denitrificans (strai... 41.2 8e-04 Q167Z2 ATP-dependent zinc metalloprotease FtsH OS=Roseobacter den... 41.2 8e-04Всего 25 находок, все они являются АТФазами, и, почти все протеазами.
blastp -query clpx_ecoli.fa -db db.fa -evalue 0.001 -out file.txt -outfmt '6 sseqid'
awk '!seen[$0]++' file.txt
seqtk subseq db.fa file.txt
awk -F "|" '/^>/{split($3, a, " "); print ">" a[1]; next} {print}' file.fasta
С использованием сервиса NGPhylogeny последовательности были выровнены (алгоритмом MAFFT) и реконструировано дерево (программа FastME c параметрами: "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик).
Ортологи | Паралоги |
---|---|
HSLU ECOLI и HSLU YERPE | A0A5P8YB42 YERPE и A0A5P8YGZ0 YERPE |
CLPX ROSDO и CLPX AGRFC | CLPX AGRFC и HSLU AGRFC |
CLPX YERPE и CLPX ECOLI | B4EV83 PROMH и B4F2B3 PROMH |