ГАВРИШ ОЛЬГА

ФББ - 1 курс - группа 102
Детали
Практики

Практика №7:Blast.

1. Результаты поиска гипотетических гомологов белка.




Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"
1. Лучшая находка
Accession Q08787.2 2VSQ_A NP_388233.2
E-value 0.0 0.0 0.0
Вес (в битах) 6860 6836 6860
Процент идентичности 100% 99% 100%
2. Сколько хороших кандидатов в гомологи найдено? 484 47 20000 (ограничено максимальным выводом Blast)
3. "Худшая из удовлетворительных" находка
Номер находки в списке описаний 637 62 Так как больше 20000 находок Blast не выдает, рассмотрен последний из выданных.
Accession Q7Z5M8.1 1VLG_A YP_567720.1
E-value 0.8 0.46 6e-15
Вес (в битах) 87 76 1381
Процент идентичности 36% 37% 33%
Процент сходства 59% 52% 52%
Длина выравнивания 51 301 1062
Координаты выравнивания 1098-1145
61-111
612-880
95-352
10-947
3593-4475
Число гэпов 3 75 51


• Удалось найти исходный белок в Swiss-Prot и "nr", и его структуру в PDB
• Количество гомологов зависит от величины базы данных, то есть в nr их значительно больше
• 1.swiss-prot – всего находок -643 (ограничено e-value)
• 2.pdb – всего находок – 69 ( ограничено e-value)
• 3.nr – всего находок – 20000(ограничено пределльным размером выдачи)

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.



Поиск по Swiss-Prot
Таксон, в котором был найден гомолог Eucaryota
Номер находки в списке описаний 1
Accession P27742.2
E-value 3e-119
Вес (в битах) 1104
Процент идентичности 29%
Процент сходства 49%
Длина выравнивания 1095
Координаты выравнивания 11-1065
946-2026
Число гэпов 54

Очень далекий таксон, e-value очень маленькое, но не смотря на это этот гомолог кажется несколько более ближе, чем то, что получилось в первом задании.

3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями


 Blast:                                                                          
Query  11    DMYYLSPMQEGMLFHAILNPGQS-FYLEQITMKVKGSLNIKCLEESMNVIMDRYDVFRTV  69         
             ++Y  + +Q+G ++  + N G+S  Y+ Q  ++   ++N    +++   +       R               
Sbjct  946   NVYLANSLQQGFVYQFLKNMGRSEAYVMQSVLRYDVNINPDLFKKAWKQVQHMLPTLRLR  1005       
                                                                                      
Query  70    FIHEKVKRPVQVVLKKRQFHIEEIDLTHLTGSEQTAKINEYKEQDKIRGFDLTRDIPMRA  129        
             F  +  +  +QV+ + +  +   + L   +   +  K+ E + +D    +DL      R              
Sbjct  1006  F--QWGQDVLQVIDEDQPLNWWFLHLADDSALPEEQKLLELQRRDLAEPYDLAAGSLFRI  1063       
                                                                                      
Query  130   AIFKKAEESFEWVWSYHHIILDGWCFGIVVQDLFKVYNALREQKPYSLPPVK-PYKDYIK  188        
              + + +   F  ++S HH ILDGW   ++ +     Y  L     +SL  ++ PY+   +             
Sbjct  1064  YLIEHSSTRFSCLFSCHHAILDGWSLPLLFRKTHGTY--LHLLHGHSLRTLEDPYRQSQQ  1121       
                                                                                      
Query  189   WLEKQDKQASLRYWREYLEGFEGQT---TFAEQRKKQK------DGYEPKELLFSLSEAE  239        
             +L+   ++  LRYW   +   E +        +R + K      D  E ++ L +L+  +             
Sbjct  1122  YLQDH-REDHLRYWAGIVNQIEERCDMNALLNERSRYKIQLADYDKVEDQQQL-TLTVPD  1179       
                                                                                      
Query  240   TKAFTEL---AKSQHTTLSTALQAVWSVLISRYQQSGDLAFGTVVSGRPAEIKGVEHMVG  296        
                 ++L     +Q  TL + LQ VW  ++  Y        GT +SGR   + G+E  VG             
Sbjct  1180  ASWLSKLRQTCSAQGITLHSILQFVWHAVLHAYGGGTHTVTGTTISGRNLPVSGIERSVG  1239       
                                                                                      
Query  297   LFINVVPRRVK--LSEGITFNGLLKRLQEQSLQSEPHQYVPLYDIQSQADQPKLIDHIIV  354        
             L+IN +P  +     +  T    ++ +Q           V L  +Q    +  L D + V             
Sbjct  1240  LYINTLPLVINQLAYKNKTVLEAIRDVQAIVNGMNSRGNVELGRLQKNELKHGLFDSLFV  1299       
                                                                                      
Query  355   FENYPLQDAKNEESSENGFDMVDVHVFEKSNYDLNLMASPGD---EMLIKLAYNENVFDE  411        
              ENYP+ D   E   ++          EK +Y L ++A   D        + Y   +FDE             
Sbjct  1300  LENYPILDKSEEMRQKSELKYTIEGNIEKLDYPLAVIAREVDLTGGFTFTICYARELFDE  1359       
                                                                                      
Query  412   AFILRLKSQLLTAIQQLIQNPDQPVSTINLVDDREREFLLTGLNPPAQAHETKPLTYWFK  471        
               I  L   +   + Q+ ++ D PV ++  +   +   L       A+  +T     + K             
Sbjct  1360  IVISELLQMVRDTLLQVAKHLDDPVRSLEYLSSAQMAQLDAWNATDAEFPDTTLHAMFEK  1419       
                                                                                      
Query  472   EAVNANPDAPALTYSGQTLSYRELDEEANRIARRLQKHGAGK-GSVVALYTKRSLELVIG  530        
             EA    PD  A+ Y  ++L+YR+L+E ANR+A +L+   + K  S++AL   +S  ++               
Sbjct  1420  EAAQ-KPDKVAVVYEQRSLTYRQLNERANRMAHQLKSDISPKPNSIIALVVDKSEHMIAT  1478       
                                                                                      
Query  531   ILGVLKAGAAYLPVDPKLPEDRISYMLADSAAACLLTHQEMKEQAAELPYTGTTLF---I  587        
             IL V K G AY+P+DP+ P+DRI Y+L D++A  +++      +  EL      L+   I             
Sbjct  1479  ILAVWKTGGAYVPIDPEYPDDRIRYILEDTSAIAVISDACYLSRIQELAGESVRLYRSDI  1538       
                                                                                      
Query  588   DDQTRFEEQASDPATAIDPNDPAYIMYTSGTTGKPKGNITTH---ANIQGLVKHVDYMAF  644        
               QT      S+PA +    D AYI+YTSGTTGKPKG +  H    N+Q  +     +               
Sbjct  1539  STQTDGNWSVSNPAPSSTSTDLAYIIYTSGTTGKPKGVMVEHHGVVNLQISLSKTFGLRD  1598       
                                                                                      
Query  645   SDQDTFLSVSNYAFDAFTFDFYASMLNAARLIIADEHTLLDTERLTDLILQENVNVMFAT  704        
             +D +  LS SNY FD F      ++LN   L++ ++    D ERL   I    V  +  T             
Sbjct  1599  TDDEVILSFSNYVFDHFVEQMTDAILNGQTLVMLNDAMRSDKERLYQYIETNRVTYLSGT  1658       
                                                                                      
Query  705   TALFNLLTDAG-EDWMKGLRCILFGGERASVPHVRKALRIMGPGKLINCYGPTEGTVFAT  763        
              ++ ++   +  +D ++ + C+   GE  S P V   +R    G +IN YGPTE ++  T             
Sbjct  1659  PSVISMYEFSRFKDHLRRVDCV---GEAFSQP-VFDQIRDTFQGLIINGYGPTEISI-TT  1713       
                                                                                      
Query  764   AHVVHDLPDSISSLPIGKPISNASVYILNEQSQLQPFGAVGELCISGMGVSKGYVNRADL  823        
                ++  P+  +   IG+ I N++ Y+LN   +  P GAVGEL + G GV++GY NR ++             
Sbjct  1714  HKRLYPFPERRTDKSIGQQIGNSTSYVLNADMKRVPIGAVGELYLGGEGVARGYHNRPEV  1773       
                                                                                      
Query  824   TKEKFIENPFKP--------GETLYRTGDLARWLP--DGTIEYAGRIDDQVKIRGHRIEL  873        
             T E+F+ NPF+            LYRTGDL RW+P  +G IEY GR D QVKIRG RIEL             
Sbjct  1774  TAERFLRNPFQTDSERQNGRNSRLYRTGDLVRWIPGSNGEIEYLGRNDFQVKIRGLRIEL  1833       
                                                                                      
Query  874   EEIEKQLQEYPGVKDAVVVADRHESGDAS-INAYLVNRTQLSAEDVKAHLKKQLPAYMVP  932        
              EIE  +  +P +K +VV+A   + GD   +  Y V  + LS   ++  ++ +LP YM+P             
Sbjct  1834  GEIEAVMSSHPDIKQSVVIAKSGKEGDQKFLVGYFVASSPLSPGAIRRFMQSRLPGYMIP  1893       
                                                                                      
Query  933   QTFTFLDELPLTTNGKVNKRLLPKPDQDQLAEEWIGPRNEMEETIAQIWSEVL--GRKQI  990        
              +F  +  LP+T +GK++ + LP  ++   A   + PRNE+E  +  IW+ +L    + I             
Sbjct  1894  SSFIPISSLPVTPSGKLDTKALPTAEEKG-AMNVLAPRNEIESILCGIWAGLLDISAQTI  1952       
                                                                                      
Query  991   GIHDDFFALGGHSLKAMTAASRIKKELGIDLPVKLLFEAPTIAGISAYLKNGGSDGLQDV  1050       
             G   DFF LGG SLK+   + +I +  G  + V  LF   TI  ++  + N   D +Q++             
Sbjct  1953  GSDSDFFTLGGDSLKSTKLSFKIHEVFGRTISVSALFRHRTIESLAHLIMNNVGD-IQEI  2011       
                                                                                      
Query  1051  TIMNQDQEQIIFAFP  1065                                                    
             T ++ D  + I   P                                                          
Sbjct  2012  TPVDYDNRRKIAVSP  2026                                                    
                                    
Needle посмотреть файл
Length: 3813
# Identity: 365/3813 ( 9.6%)
# Similarity: 612/3813 (16.1%)
# Gaps: 2581/3813 (67.7%)
# Score: 1081.0

Water посмотреть файл
# Length: 1094
# Identity: 320/1094 (29.3%)
# Similarity: 534/1094 (48.8%)
# Gaps: 52/1094 ( 4.8%)
# Score: 1142.0
Абсолютно совпадает с тем, что выдал Blast. Значения в таблицах выше отличны друг от друга, этом может быть связано с тем что Blast накладывает штраф "за удлиннение пробела", и на первый гэп. Сами же выравнивания одинаковы.



© by OlGavrish, 2010