pano

Поиск гомологов белков в неаннотированном геноме

При помощи запроса

taxonomy:microsporidia AND reviewed:yes
я нашел все аннотированные вручную записи белков в UniProt из микроспоридий – близких родственников группы Aphelida, к которой принадлежит Amoeboaphelidium protococcarum, в чьём геноме предстоит искать гомологи некоторых белков. При помощи команды

seqret sw:{AC} -filter &> {AC}.fasta

где {AC} – это какой-то из трёх AC: HSP82_ENCCU, CDK1_ENCCU, ACT_ENCCU, я загрузил на kodomo последовательности белков HSP90 (один из белков теплового шока), циклин-зависимой киназы 1 и актина, соответственно. Все три белка принадлежат микроспоридии Encephalitozoon cuniculi.

Далее при помощи команды

makeblastdb -dbtype nucl -in /P/y20/term3/X5.fasta -out Amoeboaphelidium -parse_seqids

я проиндексировал геном Amoeboaphelidium protococcarum для дальнейшего поиска в нём гомологов, который я осуществил с помощью tblastn и команды

tblastn -query {AC}.fasta -db Amoeboaphelidium -out {AC}_res.txt

где {AC} – это какой-то из трёх AC: HSP82_ENCCU, CDK1_ENCCU, ACT_ENCCU.

Гомологи всех трёх белков, по-видимому, представлены в сборке. Актин, будучи очень консервативным белком, достоверно нашёлся со 100% покрытием в локальном выравнивании и 79% идентичности при e-value, отражающемся равным 0.0 (ниже приведён фрагмент выдачи).

>scaffold-17 
Length=2125590

 Score = 637 bits (1643),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 297/375 (79%), Positives = 333/375 (89%), Gaps = 0/375 (0%)
 Frame = -3

Query  1       MSEIVQALVIDIGSGVVKSGFAGDDAPRAVFPSIVGFPKHKGVMVGMGQKDAYVGDEAQT  60
               M + V ALVID GSG+ K+GFAGDDAPRAVFPSIVG P+H+GVMVGMGQKD+YVGDEAQ+
Sbjct  893374  MEDEVAALVIDNGSGMCKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQS  893195

Query  61      KRGILHIKYPIEHGIVNNWDDMEKIWHHTFYNELRVAPEEHPVLLTEAPLNPKANREKIT  120
               KRGIL +KYPIEHGIV NWDDMEKIWHHTFYNELRVAPEEHPVL TEAPLNPKANREK+T
Sbjct  893194  KRGILTLKYPIEHGIVTNWDDMEKIWHHTFYNELRVAPEEHPVLCTEAPLNPKANREKMT  893015

Query  121     QIMFETFNVPSFYISIQAVLSLYASGRTTGIVFDSGDGVSHVVPIYEGYSLPYAINRIDL  180
               QIMFETFNVP+FY++IQAVLSLYASGRTTGIV DSGDGVSH VPIYEGY+LP+AI R+DL
Sbjct  893014  QIMFETFNVPAFYVAIQAVLSLYASGRTTGIVLDSGDGVSHTVPIYEGYALPHAILRLDL  892835

Query  181     AGRDLTDYLQLILTESGNSFTTTAEREIVRDIKEKLCYVSLNYEEDMRNTEHLASITKTY  240
               AGRDLTDYL  ILTE G SFTTTAEREIVRDIKEKLCYV+L++E +M+     +++ K+Y
Sbjct  892834  AGRDLTDYLMKILTERGYSFTTTAEREIVRDIKEKLCYVALDFE*EMQTASTSSALEKSY  892655

Query  241     EMPDGQVISIGNERFRAPELLFQPKLRGLELKGIHQNIYDSIMKCDVDIRKELYGNIVLS  300
               E+PDGQVI+IGNERFR PE LFQP   G+E  G+H+  Y+SIMKCDVDIRK+LY NIVLS
Sbjct  892654  ELPDGQVITIGNERFRCPEALFQPSFLGMEAAGVHETTYNSIMKCDVDIRKDLYANIVLS  892475

Query  301     GGTTMYPGLAERILNEIKALAPPVIKIGVVAPPERKYSVWIGGSILASLSTFQQMWVSKA  360
               GGTTMYPG+A+R+  EI ALAP  +KI VVAPPERKYSVWIGGSILASLSTFQQMW+SK 
Sbjct  892474  GGTTMYPGIADRVQKEITALAPSSMKIKVVAPPERKYSVWIGGSILASLSTFQQMWISKQ  892295

Query  361     EYQEHGPSIVHRKCF  375
               EY E GPSIVHRKCF
Sbjct  892294  EYDESGPSIVHRKCF  892250

Гомологи HSP90 находятся в геноме с меньшими значениями идентичности и неполным покрытием запроса. Однако значения процента идентичности выше 40 и высокая протяженность локального выравнивания (оно состоит из двух отдельных протяженных частей и небольшим фрагментом между ними, находящихся на одном скаффолде и не на его краях, а расстояние между протяженными частями в скаффолде в 1.4 раза больше, чем в последовательности запроса) дают нам веский повод говорить о наличии гомологов HSP90 в данной сборке. Наличие трёх отдельных частей выравнивания может объясняться неконсервативностью участка между двумя длинными частями. Ниже приведена находка с самым высоким весом в битах (308) и e-value, равным 5e-90, а также другие два фрагмента выравнивания, расположенные на сравнимом расстоянии друг от друга и в белке, и в скаффолде, что даёт основания полагать их принадлежность к рассматриваемому белку.

>scaffold-100 
Length=762135

 Score = 308 bits (788),  Expect = 5e-90, Method: Compositional matrix adjust.
 Identities = 175/409 (43%), Positives = 261/409 (64%), Gaps = 9/409 (2%)
 Frame = +1

Query  274     EQINVEKPLWKRNIKEVPEEELKSFYKTVSGDWDDFLAVDFWHIEGLLSIELLMFIPKRA  333
               E++N  KP+W RN  ++  EE  +FYK++S DW+D LAV  + +EG L    +++IPKRA
Sbjct  245353  EELNKTKPIWTRNPNDITNEEYAAFYKSLSNDWEDHLAVKHFSVEGQLEFRAILYIPKRA  245532

Query  334     RFDMFnknkknnniklycknVFVTDDFGDAIPEWMSFVSGVVASDDIPMNISREMIQGTN  393
                FDMF + KK NNIKLY + VF+ DD  D IPEWMSFV GVV S+D+P+NISREM+Q   
Sbjct  245533  PFDMFEQKKKRNNIKLYVRRVFIMDDCEDLIPEWMSFVKGVVDSEDLPLNISREMLQ*NK  245712

Query  394     VMKLVKKTLPQKIFEMIGKLALDAEKYKTFYKEFGNCLKMAIGEASEGQQDGYAKCLRYF  453
               ++K+++K + +K+ EM  ++A D E +K FY+ F   +K+ I E S  +    A  LRY+
Sbjct  245713  ILKVIRKNIVKKVLEMFSEIAEDKENFKKFYENFSKNIKLGIHEDSTNRAK-LADLLRYY  245889

Query  454     TTKSGEEAISLDTYVERMAPNQKQIYVITGLSKEQVKSNPALDAFQK--YEVIYMHEVMD  511
               +TKSGEE +SL  YV RM   Q  IY +TG S++ V+  P L+  +K  +EV++M + +D
Sbjct  245890  STKSGEEMVSLKEYVTRMPEKQ*DIYFVTGESRQAVEHAPFLERLKKKGFEVLFMVDPID  246069

Query  512     EVMLRGLKKYKGHTIQRITSEGVELP---EDEASNEEVVKSFEEFCKKVKDILSSKVEKV  568
               E  ++ LK+Y+GH +  +T EG+ELP   E++   EE  K +E+ CK VKDIL SKVEKV
Sbjct  246070  EYSVQ*LKEYEGHKLVSVTKEGLELPEDEEEKKQFEEEKKQYEDLCKTVKDILGSKVEKV  246249

Query  569     TVNPRLVSVPAVISTTKYSLSGTMENIMKSQPVTEANPFAAMTAVSKKIFEMNPNHQLVK  628
                ++ R+V  P V+ T ++  S  M  IMKSQ + ++     M   SKK  E+N  H ++K
Sbjct  246250  VISNRIVDSPCVLVTGQFGWSANMSRIMKSQVLKDS*MSTYME--SKKTMELNSQHSIIK  246423

Query  629     NLKALFDSNEIEK-MNRILEVFFETVLIHNGFVLSDPKGFCANVFDFLC  676
                LK   ++++ +K +  ++ + FET L+++GF L DP  F   +   L 
Sbjct  246424  ALKQKVEADKNDKSVKDLVYLLFETSLLNSGFSLEDPSSFAGRIHRILS  246570


 Score = 177 bits (449),  Expect = 4e-46, Method: Compositional matrix adjust.
 Identities = 103/216 (48%), Positives = 147/216 (68%), Gaps = 8/216 (4%)
 Frame = +1

Query  12      KIKDKHSETHGFEVDVNQMMDTMIKSVYSSKELFLRELVSNSSDACDKLKALYFQLREKG  71
               +I DK +ET  F  +++Q+M  +I + YS+KE+FLREL+SN+SDA DK++   ++     
Sbjct  244531  RITDKMAETFAF*AEISQLMSLIINTFYSNKEIFLRELISNASDALDKIR---YESLTDP  244701

Query  72      CVLDPVTSLGIEIIPNKDNRTLTIKDNGIGMTKPDLMNFIGTIASSGTKKFREEMKEKGN  131
                 LD    L I IIP+++N+ L I+D+GIGMTK DL+N +GTIA SGTK F E ++    
Sbjct  244702  SKLDSGKELFIRIIPDRENKILAIRDSGIGMTKADLVNNLGTIAKSGTKAFMEHLQA---  244872

Query  132     SADASNLIGQFGLGFYSSYLVAERVDLITKHPSDEALVWTSTGRDVYTI-EEYDGEPFAH  190
                AD S +IGQFG+GFYS+YLVA++V +ITKH  DE  +W S     +TI ++   E    
Sbjct  244873  GADIS-MIGQFGVGFYSAYLVADKVQVITKHNDDEQYIWESAAGGSFTITQDTVNESIGR  245049

Query  191     GTSLVLYIKEGEEEFLDPKRISEIVKKYSLFVFYPI  226
               GT + LY+KE + E+L+ K+I EIVKK+S F+ YPI
Sbjct  245050  GTEIRLYMKEDQTEYLEEKKIKEIVKKHSEFIGYPI  245157


 Score = 51.6 bits (122),  Expect = 1e-06, Method: Compositional matrix adjust.
 Identities = 27/66 (41%), Positives = 41/66 (62%), Gaps = 10/66 (15%)
 Frame = -1

Query  119     TKKFREEMKEKGNSADASNLIGQFGLGFYSSYLVAERVDLITKHPSDE---------ALV  169
               TK++ ++ +E+G S  + ++IG FG+GFYS+YLVA++V  ITKH  DE          L 
Sbjct  241677  TKRY-QQTEEQGLSV*SVSMIG*FGVGFYSAYLVADKVQFITKHNEDE*YVR*YPPCLLH  241501

Query  170     WTSTGR  175
               W + G 
Sbjct  241500  WATAGH  241483

Гомологи циклин-зависимой киназы 1 в этой сборке, видимо, тоже присутствуют, так как лучшей находке соответствует локальное выравнивание с весом в битах 265, e-value равным 2e-80 и довольно высоким процентом идентичности (54%). Процент покрытия составляет 79.7.

>scaffold-22 
Length=180604

 Score = 265 bits (676),  Expect = 2e-80, Method: Compositional matrix adjust.
 Identities = 128/236 (54%), Positives = 166/236 (70%), Gaps = 4/236 (2%)
 Frame = -3

Query  3      ESFQKLEKIGEGTYGVVYKARERNTNRVVALKKIRLENENEGIPATTIREILLLKNLKHS  62
              E +QK+EK+GEGTYGVVYKA  R T  +VALK+IRL+NE EGIP T IREI LLK L+H 
Sbjct  76883  EKYQKVEKLGEGTYGVVYKA*NRIT*EIVALKRIRLDNEEEGIPCTAIREIALLKELRHP  76704

Query  63     TIVELSDVIYNNNKMYLVFEYVELDLRRYLDRMSDEGRLVEEGFVRKMSQQLLTAMEYCH  122
               IV L DV++   K+ LVFEY++ DL++Y D  S+    ++   VR + Q +L  + YCH
Sbjct  76703  NIVRLMDVLHTEKKLTLVFEYLDSDLKKYCDSHSE----LDMSTVRILMQ*ILQGIAYCH  76536

Query  123    SRNIFHRDLKPQNILVDPKENIKLADFGLGRAAGIPLRTYTTEVVTLWYRPPELLLGCKY  182
               + I HRDLKP N+L+  K  +KLADFGL RA G+P+R+Y+ EVVTLWYR P++LLG K 
Sbjct  76535  QKRILHRDLKP*NLLISKKLELKLADFGLSRAFGVPVRSYSNEVVTLWYRAPDVLLGNKS  76356

Query  183    YDASVDVWSAACIMAEVVLMRPFFPGDSEIDQLFRIFKVLGTPNNSRWSNVENFPN  238
              YD S+D+WS  CIM E+V  RP FPG S  D L +IF +LG+PN + W   +  PN
Sbjct  76355  YDTSIDIWSIGCIMGEMVNNRPVFPGTSVND*LHKIF*ILGSPNQTVWPGYDKLPN  76188

В данной сборке, видимо, присутствуют несколько гомологов циклин-зависимой киназы 1:

Length=296
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

scaffold-22                                                           265     2e-80
scaffold-359                                                          264     3e-80
scaffold-693                                                          228     7e-68
scaffold-158                                                          228     9e-68
scaffold-423                                                          220     7e-65