При помощи запроса
taxonomy:microsporidia AND reviewed:yesя нашел все аннотированные вручную записи белков в UniProt из микроспоридий – близких родственников группы Aphelida, к которой принадлежит Amoeboaphelidium protococcarum, в чьём геноме предстоит искать гомологи некоторых белков. При помощи команды
seqret sw:{AC} -filter &> {AC}.fasta
где {AC} – это какой-то из трёх AC: HSP82_ENCCU, CDK1_ENCCU, ACT_ENCCU, я загрузил на kodomo последовательности белков HSP90 (один из белков теплового шока), циклин-зависимой киназы 1 и актина, соответственно. Все три белка принадлежат микроспоридии Encephalitozoon cuniculi.
Далее при помощи команды
makeblastdb -dbtype nucl -in /P/y20/term3/X5.fasta -out Amoeboaphelidium -parse_seqids
я проиндексировал геном Amoeboaphelidium protococcarum для дальнейшего поиска в нём гомологов, который я осуществил с помощью tblastn и команды
tblastn -query {AC}.fasta -db Amoeboaphelidium -out {AC}_res.txt
где {AC} – это какой-то из трёх AC: HSP82_ENCCU, CDK1_ENCCU, ACT_ENCCU.
Гомологи всех трёх белков, по-видимому, представлены в сборке. Актин, будучи очень консервативным белком, достоверно нашёлся со 100% покрытием в локальном выравнивании и 79% идентичности при e-value, отражающемся равным 0.0 (ниже приведён фрагмент выдачи).
>scaffold-17 Length=2125590 Score = 637 bits (1643), Expect = 0.0, Method: Compositional matrix adjust. Identities = 297/375 (79%), Positives = 333/375 (89%), Gaps = 0/375 (0%) Frame = -3 Query 1 MSEIVQALVIDIGSGVVKSGFAGDDAPRAVFPSIVGFPKHKGVMVGMGQKDAYVGDEAQT 60 M + V ALVID GSG+ K+GFAGDDAPRAVFPSIVG P+H+GVMVGMGQKD+YVGDEAQ+ Sbjct 893374 MEDEVAALVIDNGSGMCKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQS 893195 Query 61 KRGILHIKYPIEHGIVNNWDDMEKIWHHTFYNELRVAPEEHPVLLTEAPLNPKANREKIT 120 KRGIL +KYPIEHGIV NWDDMEKIWHHTFYNELRVAPEEHPVL TEAPLNPKANREK+T Sbjct 893194 KRGILTLKYPIEHGIVTNWDDMEKIWHHTFYNELRVAPEEHPVLCTEAPLNPKANREKMT 893015 Query 121 QIMFETFNVPSFYISIQAVLSLYASGRTTGIVFDSGDGVSHVVPIYEGYSLPYAINRIDL 180 QIMFETFNVP+FY++IQAVLSLYASGRTTGIV DSGDGVSH VPIYEGY+LP+AI R+DL Sbjct 893014 QIMFETFNVPAFYVAIQAVLSLYASGRTTGIVLDSGDGVSHTVPIYEGYALPHAILRLDL 892835 Query 181 AGRDLTDYLQLILTESGNSFTTTAEREIVRDIKEKLCYVSLNYEEDMRNTEHLASITKTY 240 AGRDLTDYL ILTE G SFTTTAEREIVRDIKEKLCYV+L++E +M+ +++ K+Y Sbjct 892834 AGRDLTDYLMKILTERGYSFTTTAEREIVRDIKEKLCYVALDFE*EMQTASTSSALEKSY 892655 Query 241 EMPDGQVISIGNERFRAPELLFQPKLRGLELKGIHQNIYDSIMKCDVDIRKELYGNIVLS 300 E+PDGQVI+IGNERFR PE LFQP G+E G+H+ Y+SIMKCDVDIRK+LY NIVLS Sbjct 892654 ELPDGQVITIGNERFRCPEALFQPSFLGMEAAGVHETTYNSIMKCDVDIRKDLYANIVLS 892475 Query 301 GGTTMYPGLAERILNEIKALAPPVIKIGVVAPPERKYSVWIGGSILASLSTFQQMWVSKA 360 GGTTMYPG+A+R+ EI ALAP +KI VVAPPERKYSVWIGGSILASLSTFQQMW+SK Sbjct 892474 GGTTMYPGIADRVQKEITALAPSSMKIKVVAPPERKYSVWIGGSILASLSTFQQMWISKQ 892295 Query 361 EYQEHGPSIVHRKCF 375 EY E GPSIVHRKCF Sbjct 892294 EYDESGPSIVHRKCF 892250
Гомологи HSP90 находятся в геноме с меньшими значениями идентичности и неполным покрытием запроса. Однако значения процента идентичности выше 40 и высокая протяженность локального выравнивания (оно состоит из двух отдельных протяженных частей и небольшим фрагментом между ними, находящихся на одном скаффолде и не на его краях, а расстояние между протяженными частями в скаффолде в 1.4 раза больше, чем в последовательности запроса) дают нам веский повод говорить о наличии гомологов HSP90 в данной сборке. Наличие трёх отдельных частей выравнивания может объясняться неконсервативностью участка между двумя длинными частями. Ниже приведена находка с самым высоким весом в битах (308) и e-value, равным 5e-90, а также другие два фрагмента выравнивания, расположенные на сравнимом расстоянии друг от друга и в белке, и в скаффолде, что даёт основания полагать их принадлежность к рассматриваемому белку.
>scaffold-100 Length=762135 Score = 308 bits (788), Expect = 5e-90, Method: Compositional matrix adjust. Identities = 175/409 (43%), Positives = 261/409 (64%), Gaps = 9/409 (2%) Frame = +1 Query 274 EQINVEKPLWKRNIKEVPEEELKSFYKTVSGDWDDFLAVDFWHIEGLLSIELLMFIPKRA 333 E++N KP+W RN ++ EE +FYK++S DW+D LAV + +EG L +++IPKRA Sbjct 245353 EELNKTKPIWTRNPNDITNEEYAAFYKSLSNDWEDHLAVKHFSVEGQLEFRAILYIPKRA 245532 Query 334 RFDMFnknkknnniklycknVFVTDDFGDAIPEWMSFVSGVVASDDIPMNISREMIQGTN 393 FDMF + KK NNIKLY + VF+ DD D IPEWMSFV GVV S+D+P+NISREM+Q Sbjct 245533 PFDMFEQKKKRNNIKLYVRRVFIMDDCEDLIPEWMSFVKGVVDSEDLPLNISREMLQ*NK 245712 Query 394 VMKLVKKTLPQKIFEMIGKLALDAEKYKTFYKEFGNCLKMAIGEASEGQQDGYAKCLRYF 453 ++K+++K + +K+ EM ++A D E +K FY+ F +K+ I E S + A LRY+ Sbjct 245713 ILKVIRKNIVKKVLEMFSEIAEDKENFKKFYENFSKNIKLGIHEDSTNRAK-LADLLRYY 245889 Query 454 TTKSGEEAISLDTYVERMAPNQKQIYVITGLSKEQVKSNPALDAFQK--YEVIYMHEVMD 511 +TKSGEE +SL YV RM Q IY +TG S++ V+ P L+ +K +EV++M + +D Sbjct 245890 STKSGEEMVSLKEYVTRMPEKQ*DIYFVTGESRQAVEHAPFLERLKKKGFEVLFMVDPID 246069 Query 512 EVMLRGLKKYKGHTIQRITSEGVELP---EDEASNEEVVKSFEEFCKKVKDILSSKVEKV 568 E ++ LK+Y+GH + +T EG+ELP E++ EE K +E+ CK VKDIL SKVEKV Sbjct 246070 EYSVQ*LKEYEGHKLVSVTKEGLELPEDEEEKKQFEEEKKQYEDLCKTVKDILGSKVEKV 246249 Query 569 TVNPRLVSVPAVISTTKYSLSGTMENIMKSQPVTEANPFAAMTAVSKKIFEMNPNHQLVK 628 ++ R+V P V+ T ++ S M IMKSQ + ++ M SKK E+N H ++K Sbjct 246250 VISNRIVDSPCVLVTGQFGWSANMSRIMKSQVLKDS*MSTYME--SKKTMELNSQHSIIK 246423 Query 629 NLKALFDSNEIEK-MNRILEVFFETVLIHNGFVLSDPKGFCANVFDFLC 676 LK ++++ +K + ++ + FET L+++GF L DP F + L Sbjct 246424 ALKQKVEADKNDKSVKDLVYLLFETSLLNSGFSLEDPSSFAGRIHRILS 246570 Score = 177 bits (449), Expect = 4e-46, Method: Compositional matrix adjust. Identities = 103/216 (48%), Positives = 147/216 (68%), Gaps = 8/216 (4%) Frame = +1 Query 12 KIKDKHSETHGFEVDVNQMMDTMIKSVYSSKELFLRELVSNSSDACDKLKALYFQLREKG 71 +I DK +ET F +++Q+M +I + YS+KE+FLREL+SN+SDA DK++ ++ Sbjct 244531 RITDKMAETFAF*AEISQLMSLIINTFYSNKEIFLRELISNASDALDKIR---YESLTDP 244701 Query 72 CVLDPVTSLGIEIIPNKDNRTLTIKDNGIGMTKPDLMNFIGTIASSGTKKFREEMKEKGN 131 LD L I IIP+++N+ L I+D+GIGMTK DL+N +GTIA SGTK F E ++ Sbjct 244702 SKLDSGKELFIRIIPDRENKILAIRDSGIGMTKADLVNNLGTIAKSGTKAFMEHLQA--- 244872 Query 132 SADASNLIGQFGLGFYSSYLVAERVDLITKHPSDEALVWTSTGRDVYTI-EEYDGEPFAH 190 AD S +IGQFG+GFYS+YLVA++V +ITKH DE +W S +TI ++ E Sbjct 244873 GADIS-MIGQFGVGFYSAYLVADKVQVITKHNDDEQYIWESAAGGSFTITQDTVNESIGR 245049 Query 191 GTSLVLYIKEGEEEFLDPKRISEIVKKYSLFVFYPI 226 GT + LY+KE + E+L+ K+I EIVKK+S F+ YPI Sbjct 245050 GTEIRLYMKEDQTEYLEEKKIKEIVKKHSEFIGYPI 245157 Score = 51.6 bits (122), Expect = 1e-06, Method: Compositional matrix adjust. Identities = 27/66 (41%), Positives = 41/66 (62%), Gaps = 10/66 (15%) Frame = -1 Query 119 TKKFREEMKEKGNSADASNLIGQFGLGFYSSYLVAERVDLITKHPSDE---------ALV 169 TK++ ++ +E+G S + ++IG FG+GFYS+YLVA++V ITKH DE L Sbjct 241677 TKRY-QQTEEQGLSV*SVSMIG*FGVGFYSAYLVADKVQFITKHNEDE*YVR*YPPCLLH 241501 Query 170 WTSTGR 175 W + G Sbjct 241500 WATAGH 241483
Гомологи циклин-зависимой киназы 1 в этой сборке, видимо, тоже присутствуют, так как лучшей находке соответствует локальное выравнивание с весом в битах 265, e-value равным 2e-80 и довольно высоким процентом идентичности (54%). Процент покрытия составляет 79.7.
>scaffold-22 Length=180604 Score = 265 bits (676), Expect = 2e-80, Method: Compositional matrix adjust. Identities = 128/236 (54%), Positives = 166/236 (70%), Gaps = 4/236 (2%) Frame = -3 Query 3 ESFQKLEKIGEGTYGVVYKARERNTNRVVALKKIRLENENEGIPATTIREILLLKNLKHS 62 E +QK+EK+GEGTYGVVYKA R T +VALK+IRL+NE EGIP T IREI LLK L+H Sbjct 76883 EKYQKVEKLGEGTYGVVYKA*NRIT*EIVALKRIRLDNEEEGIPCTAIREIALLKELRHP 76704 Query 63 TIVELSDVIYNNNKMYLVFEYVELDLRRYLDRMSDEGRLVEEGFVRKMSQQLLTAMEYCH 122 IV L DV++ K+ LVFEY++ DL++Y D S+ ++ VR + Q +L + YCH Sbjct 76703 NIVRLMDVLHTEKKLTLVFEYLDSDLKKYCDSHSE----LDMSTVRILMQ*ILQGIAYCH 76536 Query 123 SRNIFHRDLKPQNILVDPKENIKLADFGLGRAAGIPLRTYTTEVVTLWYRPPELLLGCKY 182 + I HRDLKP N+L+ K +KLADFGL RA G+P+R+Y+ EVVTLWYR P++LLG K Sbjct 76535 QKRILHRDLKP*NLLISKKLELKLADFGLSRAFGVPVRSYSNEVVTLWYRAPDVLLGNKS 76356 Query 183 YDASVDVWSAACIMAEVVLMRPFFPGDSEIDQLFRIFKVLGTPNNSRWSNVENFPN 238 YD S+D+WS CIM E+V RP FPG S D L +IF +LG+PN + W + PN Sbjct 76355 YDTSIDIWSIGCIMGEMVNNRPVFPGTSVND*LHKIF*ILGSPNQTVWPGYDKLPN 76188
В данной сборке, видимо, присутствуют несколько гомологов циклин-зависимой киназы 1:
Length=296 Score E Sequences producing significant alignments: (Bits) Value scaffold-22 265 2e-80 scaffold-359 264 3e-80 scaffold-693 228 7e-68 scaffold-158 228 9e-68 scaffold-423 220 7e-65