Программа BLAST
  1. Поиск гипотетических гомологов DhbE в разных банках данных.

  Поиск по "nr" Поиск по Swiss-Prot Поиск по PDB
Лучшая находка
Accession NP_391078.1 P40871.2 1MDB_A
E-value 0.0 0.0 0.0
вес (в битах) 1110 1110 1103
процент идентичности 100% 100% 100%
Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1e-10)
 > 20000 425 38
"Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 20000 586 48
Accession EDN59693.1 Q10777 2RF5_A
E-value 6e-11 0.83 0.51
Вес (в битах) 73.9 35.8 32.3
% идентичности 122/542 (23%) 21/86 (24%) 27/108 (25%)
% сходства 206/542 (38%) 39/86 (45%) 40/108 (37%)
Длина выравнивания 542 86 108
Координаты выравнивания (от-до, в запросе и в находке) 52-532; 124-650 47-132; 64-149 149-249; 120-223
Число гэпов 76/542 (14%) 0/86 (0%) 11/108 (10%)

Комментарий:

Удалось найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB.

Число явных гомологов (E-value < 1e-10) пропорционально размерам бд.


Поиск с настройками по умолчанию(E-value=10, лимит выдачи = 100.)

  Поиск по "nr" Поиск по Swiss-Prot Поиск по PDB
Всего находок 100 100 62
E-value последней 1e-178 5e-28 8.8
Число находок лимитировано размером выдачи размером выдачи E-value




  1. Поиск гипотетических гомологов DhbE с фильтром по таксонам

Номер находки в списке описаний 1
Accession P41636.1
Организм Pinus taeda
= Сосна ладанная
E-value 2e-39
Вес (в битах) Score = 162 bits (411)
% идентичности 146/524 (28%)
% сходства 243/524 (46%)
Длина выравнивания 524
Координаты выравнивания
(от-до, в запросе и в находке)
33-532, 33-537
Число гэпов 43/524 (8%)


  1. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями

Выравнивание, выданное BLASTP


>sp|P41636.1|4CL_PINTA RecName: Full=4-coumarate--CoA ligase; Short=4CL; AltName: 
Full=4-coumaroyl-CoA synthase
Length=537

 Score =  162 bits (411),  Expect = 2e-39, Method: Compositional matrix adjust.
 Identities = 146/524 (28%), Positives = 243/524 (46%), Gaps = 43/524 (8%)

Query  33   DRAAKYGDRIAITCGNTH--WSYRELDTRADRLAAGFQKLGIQQMDRVVVQLPNIKEFFE  90
            +R A++ DR  +  G T   + + E++  + ++AAG  KLG+QQ   V++ LPN  EF  
Sbjct  33   ERVAEFADRPCLIDGATDRTYCFSEVELISRKVAAGLAKLGLQQGQVVMLLLPNCIEFAF  92

Query  91   VIFALFRLGALPVFALPSHRSSEITYFCEFAEAAAYIIPDAY----SGFDYRSLARQVQS  146
            V       GA+   A P ++  EI    + A A   +   AY    +      +      
Sbjct  93   VFMGASVRGAIVTTANPFYKPGEIAKQAKAAGARIIVTLAAYVEKLADLQSHDVLVITID  152

Query  147  KLPT--LKNIIVAGEAEEFLPLEDLHAEPVKLPEVK--SSDVAFLQLSGGSTGLSKLIPR  202
              P    ++I V  EA+E            + P VK    DV  L  S G+TGL K +  
Sbjct  153  DAPKEGCQHISVLTEADE-----------TQCPAVKIHPDDVVALPYSSGTTGLPKGVML  201

Query  203  THDDYIYSLKRSVE----VCWLDHSTVYLAALPMAHNYPLSSPGVLGVLYAGGRVVLSPS  258
            TH   + S+ + V+      +     V L  LP+ H Y L+S  +L  L AG   ++   
Sbjct  202  THKGLVSSVAQQVDGENPNLYFHSDDVILCVLPLFHIYSLNSV-LLCALRAGAATLIMQK  260

Query  259  PSPDDAFPLIEREKVTITALVPPLAMVWMDAASSRRDDLSSLQVLQVGGAKFSAEAA---  315
             +      LI++ KVT+  +VPP+ +    +    + D+SS++++  G A    E     
Sbjct  261  FNLTTCLELIQKYKVTVAPIVPPIVLDITKSPIVSQYDVSSVRIIMSGAAPLGKELEDAL  320

Query  316  --RRVKAVFGCTLQQVFGMAEG----LVNYTRLDDPEEIIVNTQGKPMSPYDEMRVWDDH  369
              R  KA+FG    Q +GM E      +N     +P  +   + G  +    ++++ D  
Sbjct  321  RERFPKAIFG----QGYGMTEAGPVLAMNLAFAKNPFPVKSGSCGTVVR-NAQIKILDTE  375

Query  370  DRDVKP-GETGHLLTRGPYTIRGYYKAEEHNAASFTEDGFYRTGDIVRLTRDGYIVVEGR  428
              +  P  + G +  RGP  ++GY    E  AA+  E+G+  TGD+  +  D  I +  R
Sbjct  376  TGESLPHNQAGEICIRGPEIMKGYINDPESTAATIDEEGWLHTGDVEYIDDDEEIFIVDR  435

Query  429  AKDQINRGGEKVAAEEVENHLLAHPAVHDAAMVSMPDQFLGERSCVFIIPRDEAPKAAEL  488
             K+ I   G +VA  E+E  L+AHP++ DAA+V    +  GE    F++   E  +  E+
Sbjct  436  VKEIIKYKGFQVAPAELEALLVAHPSIADAAVVPQKHEEAGEVPVAFVVKSSEISE-QEI  494

Query  489  KAFLRERGLAAYKIPDRVEFVESFPQTGVGKVSKKALREAISEK  532
            K F+ ++ +  YK   RV FV++ P++  GK+ +K LR  ++ K
Sbjct  495  KEFVAKQ-VIFYKKIHRVYFVDAIPKSPSGKILRKDLRSRLAAK  537


Полное выравнивание, выданное программой needle


# Aligned_sequences: 2
# 1: DHBE_BACSU
# 2: 4CL_PINTA
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 575
# Identity:     151/575 (26.3%)
# Similarity:   249/575 (43.3%)
# Gaps:          74/575 (12.9%)
# Score: 407.0
# 
#
#=======================================

DHBE_BACSU         1 MLKGFTPWPDELAETYRKNGCWAGETFGDL-----------LRDRAAKYG     39
                                :|...:|..........|:           ..:|.|::.
4CL_PINTA          1 -----------MANGIKKVEHLYRSKLPDIEISDHLPLHSYCFERVAEFA     39

DHBE_BACSU        40 DRIAITCGNTHWSY--RELDTRADRLAAGFQKLGIQQMDRVVVQLPNIKE     87
                     ||..:..|.|..:|  .|::..:.::|||..|||:||...|::.|||..|
4CL_PINTA         40 DRPCLIDGATDRTYCFSEVELISRKVAAGLAKLGLQQGQVVMLLLPNCIE     89

DHBE_BACSU        88 FFEVIFALFRLGALPVFALPSHRSSEITYFCEFAEAAAYIIPDAYSGFDY    137
                     |..|.......||:...|.|.::..||....:.|.|...:...||     
4CL_PINTA         90 FAFVFMGASVRGAIVTTANPFYKPGEIAKQAKAAGARIIVTLAAY-----    134

DHBE_BACSU       138 RSLARQVQSKLPTLKNIIVAGEAEEFLPLED-------LHAEPVKLPEVK    180
                            ..||..|::..|.....:..|.|.       ..|:..:.|.||
4CL_PINTA        135 -------VEKLADLQSHDVLVITIDDAPKEGCQHISVLTEADETQCPAVK    177

DHBE_BACSU       181 --SSDVAFLQLSGGSTGLSKLIPRTHDDYIYSLKRSVE----VCWLDHST    224
                       ..||..|..|.|:|||.|.:..||...:.|:.:.|:    ..:.....
4CL_PINTA        178 IHPDDVVALPYSSGTTGLPKGVMLTHKGLVSSVAQQVDGENPNLYFHSDD    227

DHBE_BACSU       225 VYLAALPMAHNYPLSSPGVLGVLYAGGRVVLSPSPSPDDAFPLIEREKVT    274
                     |.|..||:.|.|.|:|. :|..|.||...::....:......||::.|||
4CL_PINTA        228 VILCVLPLFHIYSLNSV-LLCALRAGAATLIMQKFNLTTCLELIQKYKVT    276

DHBE_BACSU       275 ITALVPPLAMVWMDAASSRRDDLSSLQVLQVGGAKFSAE-----AARRVK    319
                     :..:|||:.:....:....:.|:||::::..|.|....|     ..|..|
4CL_PINTA        277 VAPIVPPIVLDITKSPIVSQYDVSSVRIIMSGAAPLGKELEDALRERFPK    326

DHBE_BACSU       320 AVFGCTLQQVFGMAEG----LVNYTRLDDPEEIIVNTQGKPMSPYDEMRV    365
                     |:||    |.:||.|.    .:|.....:|..:...:.|..:. ..::::
4CL_PINTA        327 AIFG----QGYGMTEAGPVLAMNLAFAKNPFPVKSGSCGTVVR-NAQIKI    371

DHBE_BACSU       366 WDDHDRDVKP-GETGHLLTRGPYTIRGYYKAEEHNAASFTEDGFYRTGDI    414
                     .|....:..| .:.|.:..|||..::||....|..||:..|:|:..|||:
4CL_PINTA        372 LDTETGESLPHNQAGEICIRGPEIMKGYINDPESTAATIDEEGWLHTGDV    421

DHBE_BACSU       415 VRLTRDGYIVVEGRAKDQINRGGEKVAAEEVENHLLAHPAVHDAAMVSMP    464
                     ..:..|..|.:..|.|:.|...|.:||..|:|..|:|||::.|||:|...
4CL_PINTA        422 EYIDDDEEIFIVDRVKEIIKYKGFQVAPAELEALLVAHPSIADAAVVPQK    471

DHBE_BACSU       465 DQFLGERSCVFIIPRDEAPKAAELKAFLRERGLAAYKIPDRVEFVESFPQ    514
                     .:..||....|::...|..: .|:|.|:.:: :..||...||.||::.|:
4CL_PINTA        472 HEEAGEVPVAFVVKSSEISE-QEIKEFVAKQ-VIFYKKIHRVYFVDAIPK    519

DHBE_BACSU       515 TGVGKVSKKALREAISEKLLAGFKK    539
                     :..||:.:|.||..::.|       
4CL_PINTA        520 SPSGKILRKDLRSRLAAK-------    537




Частичное выравнивание, выданное программой water


# Aligned_sequences: 2
# 1: DHBE_BACSU
# 2: 4CL_PINTA
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 525
# Identity:     148/525 (28.2%)
# Similarity:   243/525 (46.3%)
# Gaps:          45/525 ( 8.6%)
# Score: 431.0
# 
#
#=======================================

DHBE_BACSU        33 DRAAKYGDRIAITCGNTHWSY--RELDTRADRLAAGFQKLGIQQMDRVVV     80
                     :|.|::.||..:..|.|..:|  .|::..:.::|||..|||:||...|::
4CL_PINTA         33 ERVAEFADRPCLIDGATDRTYCFSEVELISRKVAAGLAKLGLQQGQVVML     82

DHBE_BACSU        81 QLPNIKEFFEVIFALFRLGALPVFALPSHRSSEITYFCEFAEAAAYIIPD    130
                     .|||..||..|.......||:...|.|.::..||....:.|.|...:...
4CL_PINTA         83 LLPNCIEFAFVFMGASVRGAIVTTANPFYKPGEIAKQAKAAGARIIVTLA    132

DHBE_BACSU       131 AYSGFDYRSLARQVQSKLPTLKNIIVAGEAEEFLPLED-------LHAEP    173
                     ||            ..||..|::..|.....:..|.|.       ..|:.
4CL_PINTA        133 AY------------VEKLADLQSHDVLVITIDDAPKEGCQHISVLTEADE    170

DHBE_BACSU       174 VKLPEVK--SSDVAFLQLSGGSTGLSKLIPRTHDDYIYSLKRSVE----V    217
                     .:.|.||  ..||..|..|.|:|||.|.:..||...:.|:.:.|:    .
4CL_PINTA        171 TQCPAVKIHPDDVVALPYSSGTTGLPKGVMLTHKGLVSSVAQQVDGENPN    220

DHBE_BACSU       218 CWLDHSTVYLAALPMAHNYPLSSPGVLGVLYAGGRVVLSPSPSPDDAFPL    267
                     .:.....|.|..||:.|.|.|:|. :|..|.||...::....:......|
4CL_PINTA        221 LYFHSDDVILCVLPLFHIYSLNSV-LLCALRAGAATLIMQKFNLTTCLEL    269

DHBE_BACSU       268 IEREKVTITALVPPLAMVWMDAASSRRDDLSSLQVLQVGGAKFSAE----    313
                     |::.|||:..:|||:.:....:....:.|:||::::..|.|....|    
4CL_PINTA        270 IQKYKVTVAPIVPPIVLDITKSPIVSQYDVSSVRIIMSGAAPLGKELEDA    319

DHBE_BACSU       314 -AARRVKAVFGCTLQQVFGMAEG----LVNYTRLDDPEEIIVNTQGKPMS    358
                      ..|..||:||    |.:||.|.    .:|.....:|..:...:.|..:.
4CL_PINTA        320 LRERFPKAIFG----QGYGMTEAGPVLAMNLAFAKNPFPVKSGSCGTVVR    365

DHBE_BACSU       359 PYDEMRVWDDHDRDVKP-GETGHLLTRGPYTIRGYYKAEEHNAASFTEDG    407
                      ..::::.|....:..| .:.|.:..|||..::||....|..||:..|:|
4CL_PINTA        366 -NAQIKILDTETGESLPHNQAGEICIRGPEIMKGYINDPESTAATIDEEG    414

DHBE_BACSU       408 FYRTGDIVRLTRDGYIVVEGRAKDQINRGGEKVAAEEVENHLLAHPAVHD    457
                     :..|||:..:..|..|.:..|.|:.|...|.:||..|:|..|:|||::.|
4CL_PINTA        415 WLHTGDVEYIDDDEEIFIVDRVKEIIKYKGFQVAPAELEALLVAHPSIAD    464

DHBE_BACSU       458 AAMVSMPDQFLGERSCVFIIPRDEAPKAAELKAFLRERGLAAYKIPDRVE    507
                     ||:|....:..||....|::...|..: .|:|.|:.:: :..||...||.
4CL_PINTA        465 AAVVPQKHEEAGEVPVAFVVKSSEISE-QEIKEFVAKQ-VIFYKKIHRVY    512

DHBE_BACSU       508 FVESFPQTGVGKVSKKALREAISEK    532
                     ||::.|::..||:.:|.||..::.|
4CL_PINTA        513 FVDAIPKSPSGKILRKDLRSRLAAK    537




Комментарий:

Сравнительная таблица

  blastp needle water
score 411 407 431
Длина выравнивания 524 575 525
% идентичности 28% 26.3% 28.2%
% сходства 46% 43.3% 46.3%

Полное выравнивание needle содержит в себе частичное выравнивание water.

Частичные выравнивания, выданные blastp и water, совпадают по координатам начала и конца, незначительно отличаются на всём протяжении (смещение гэпов на 3-4 остатка в сторону), кроме участка с примерно 130ых остатков и до 185ых.



  1. Поиск в BLAST с изменёнными параметрами.

При выполнении задания 1, я ставила разные значения E-value и максимального размера выдачи, чтобы номер последнего белка в списке совпал с количеством "хороших" гомологов.



  1. Является ли данная находка (E-value > 1) гомологом белка DhbE?

E-value показывает ожидаемое количество сходств, таких же или лучше исходного, которые могли бы быть получены случайным образом в базе данных заданного размера.

Выравнивание очень короткое (20 остатков), и хотя идентичность составляет 57%, это, вероятнее всего, является результатом случайного сходства. Функции белков также отличаются. Однако, нельзя исключать и далёкого родства, в случае которого мог сохраниться какой-нибудь высококонсерванивный нуклеотидтрифосфатсвязывающий кусок или что-то вроде того...


 pdb|1SH0|A Structure related to 1SH0_A Chain A, 
 Crystal Structure Of Norwalk Virus Polymerase (Triclinic)

 Length=510

 Score = 30.8 bits (68),  Expect = 1.4, 
 Method: Compositional matrix adjust.
 Identities = 12/21 (57%), Positives = 15/21 (71%), Gaps = 0/21 (0%)

Query  17   RKNGCWAGETFGDLLRDRAAK  37
            RKN CW GE+F   L D+A+K
Sbjct  126  RKNDCWNGESFTGKLADQASK  146




  1. Разные интерфейсы BLAST.

на сайте EBI и на сайте Expasy

Краткий комментарий

EBI: среди бд нет nr, при поиске нельзя просто ввести acsession number, по умолчанию не стоит фильтр.

Expasy: оооочень медленный, выбор бд неочевидный, но результаты представлены удачно(только не пронумерованы, арр) и цветовая шкала логичная.




© Eugenia Zotova