Программа BLAST

Главная

Поиск гипотетических гомологов изучаемого белка в разных банках


Зашла на http://blast.ncbi.nlm.nih.gov/
В разделе Basic BLAST перешла по гиперссылке protein blast.
Провела поиск гомологов в банке Swiss-Prot и заплнила первый столбец таблицы.
Затем провела поиск по банкам PDB (Protein Data Bank proteins) и "nr" (Non-redundant protein sequences) и заполнила остальные столбцы.

Таблица 1. Результаты поиска гипотетических гомологов белка DACC_BACSU

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (в принципе должна соответствовать заданному белку)

Accession P39045.1 2WKE_A EHA30535.1
E-value 1e-111 2e-113 0.0
Вес (в битах) 347 347 995
Процент идентичности 46% 46% 100%
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1e-10)
4 4 76

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 5 5 100
Accession Q86I79.1 3A3D_A ZP_04585510.1
E-value 7e-15 2e-35 9e-52
Вес (в битах) 80.5 138 192
% идентичности 24% 26% 29%
% сходства 83% 85% 97%
Длина выравнивания 522 453 474
Координаты выравнивания (от-до, в запросе и в находке) 77-485
90-494
51-470
13-424
11-489
5-457
Число гэпов 56/435 (13%) 28/430 (7%) 28/480 (6%)

Мне удалось найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB
Так как nr включает все белковые последовательности, то число явных гомологов при использовании nr больше, чем при поиске в други базах данных (Swiss-Prot, PDB).
Всего нахдок в Swiss-Prot - 9 (E-value самой последней находки - 8.3),PDB - 13(E-value самой последней находки 8.3), nr - 100(E-value самой последней находки 9e-52 ).
Заданный по умолчанию предельный размер выдачи - 100, следовательно, в Swiss-Prot и PDB число находок лимитирвано значением E-value,а в nr заданным по умолчанию предельным размером выдачи(т.к. если выбрать,например, размер выдачи - 10000, то число находок равно 1679).

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Нужно найти для изучаемого белка 'B. subtilis' лучшего гомолога в организмах таксона, филогенетически как можно более далекого.
Я нашла в другом царстве ('Eukaryota').
Номер находки в списке описаний 1
Accession Q86I79.1
E-value 4e-18
Вес (в битах) 80.5
% идентичности 24
% сходства 83
Длина выравнивания 522
Координаты выравнивания (от-до, в запросе и в находке) 77-485
90-494
Число гэпов 56/435 (13%)

3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями


Выбрала одно из выравниваний BLASTp, полученных при выполнении предыдущего задания. Сравнила это выравнивание
а) с оптимальным частичным выравниванием;
б) с оптимальным полным выравниванием последовательностей тех же белков.
Для сравнения использую выравнивание BLASTp последовательностей белка DACC_BACSU (P39844) и белка PSCA_DICDI(Q86I79.1).
>sp|Q86I79.1|PSCA_DICDI  RecName: Full=Penicillin-sensitive carboxypeptidase A
Length=522

 Score = 80.5 bits (197),  Expect = 4e-18, Method: Compositional matrix adjust.
 Identities = 106/435 (24%), Positives = 181/435 (42%), Gaps = 56/435 (13%)

Query  77   MRPASSLKLLTAAAALSVLGENYSFTTEVRTDGTLKGKKLNGN------LYLKGKGDPTL  130
              PAS+ KL T  +     GE++   T   TD          +      + +KG GDP++
Sbjct  90   FTPASNTKLFTTISIFYTFGEDFKVFTPFFTDKPFNSVSGGSSNSELDFICVKGMGDPSM  149

Query  131  LPSDFDKMAEILKHSGVKVIKGNLIGDDTWHD-----DMRLSPDMPWSDEYTYYGAPISA  185
               +  + A+    +        L+ D ++++     D  +     W D  + YG+  + 
Sbjct  150  SIDNLIEAAKFFSSNPTMKKVNKLLLDTSFYNIGNGVDGNIPSAWEWEDLTSTYGSIPTP  209

Query  186  LTASPNEDYDAGTVIVEVTPNQKEGEEPAVSV--SPKTDY--ITIKNDAKTTAAGSEKDL  241
            L  + N      T+ + +TP+   G +P  S   S +  Y  + I     TT+  S   L
Sbjct  210  LIINEN------TMDIYITPSNVIGGKPTASFKYSGEDKYLPVIILATTTTTSNSSTSTL  263

Query  242  TIEREHGTNTITIEGSVPVDANKTKEWISVWEPAGYALDLFKQSLKKQGI----TVKGDI  297
                +  + +I I G+  ++       + + +P  Y L +F

 
Для построения оптимального полного выравнивания использовала команду: needle sw:P39844 sw:Q86I79.1 DACC_BACSU-PSCA_DICDI .needle -gapopen 11 -gapextend 1
Полученное выравнивание:
DACC_BACSU         1 MKKSIKLYVAVLLLFVVASVPYMHQAALAAEKQDALSGQ-----IDKILA     45
                      .|:.|:...:|::.::.::...::.:|......:...|     |:.||.
PSCA_DICDI         1 -MKNYKIITLLLIISILFNIIRSNKISLKDSDSGSNGNQDIQILINDILN     49

DACC_BACSU        46 DHPALE---------GAMAGITVRSAETGAVLYEHSGDTRMRPASSLKLL     86
                     :..:.|         |.:|.|...|......::..:......|||:.||.
PSCA_DICDI        50 NCSSSESSSCFGTQWGVVADIYTPSNGEFTNIFSLNELQAFTPASNTKLF     99

DACC_BACSU        87 TAAAALSVLGENYSFTTEVRTD---GTLKGKKLNGNL---YLKGKGDPTL    130
                     |..:.....||::...|...||   .::.|...|..|   .:||.|||::
PSCA_DICDI       100 TTISIFYTFGEDFKVFTPFFTDKPFNSVSGGSSNSELDFICVKGMGDPSM    149

DACC_BACSU       131 LPSDFDKMAEILKHSGVKVIKGNLIGDDTWHD-----DMRLSPDMPWSDE    175
                     ...:..:.|:....:........|:.|.::::     |..:.....|.|.
PSCA_DICDI       150 SIDNLIEAAKFFSSNPTMKKVNKLLLDTSFYNIGNGVDGNIPSAWEWEDL    199

DACC_BACSU       176 YTYYGAPISALTASPNEDYDAGTVIVEVTPNQKEGEEPAVS--VSPKTDY    223
                     .:.||:..:.|..:.|      |:.:.:||:...|.:|..|  .|.:..|
PSCA_DICDI       200 TSTYGSIPTPLIINEN------TMDIYITPSNVIGGKPTASFKYSGEDKY    243

DACC_BACSU       224 --ITIKNDAKTTAAGSEKDLTIEREHGTNTITIEGSVPVDANKTKEWISV    271
                       :.|.....||:..|...|....:..:.:|.|.|:..::.......:.:
PSCA_DICDI       244 LPVIILATTTTTSNSSTSTLNYSFKMSSQSIYITGNCDINGGIQIITVPI    293

DACC_BACSU       272 WEPAGYALDLFKQSLKKQGI----TVKGDIK-TGEAPSSSDVLLSHRSMP    316
                     .:|..|.|.:|...|:..|:    |..|... ||....|.:|:    |..
PSCA_DICDI       294 LDPEQYFLTVFSALLEDGGVEISQTAIGSCNYTGMDYKSFEVI----SPE    339

DACC_BACSU       317 LSKLFVPFMKLSNNGHAEVLVKEMG----KVKKGEGSWEKGLEVLNSTLP    362
                     ||::....:..|||.:||..:::||    ...:...:::.|||.:..|| 
PSCA_DICDI       340 LSEMLNYTLLTSNNLYAETFLRQMGTFNSAASESTPTYQAGLEYIQQTL-    388

DACC_BACSU       363 EFGVDSKSLVLRDGSGISHIDAVSSDQLSQLLYDIQDQSWFSA--YLNSL    410
                       .:.:......||||:|..:.::...|..::.::........  |::.|
PSCA_DICDI       389 --SIPTSLYTQVDGSGLSRNNFITPKSLITVIENVYTNVGDPQHDYISYL    436

DACC_BACSU       411 PVAGNPDRMVGGTLRNRMKGTPAQGKVRAKTGSLSTVSSLSGY-----AE    455
                     |||.     :.|||..|...|||.|.|.|||||::.|:||:|.     ..
PSCA_DICDI       437 PVAS-----LSGTLSKRFINTPASGIVHAKTGSMTGVNSLTGVILPNGLS    481

DACC_BACSU       456 TKSGKKLVFSILLNGL-IDEEDGKDIEDQIAVILANQ----    491
                     ......:.|||:.|.. ....|..||.|||.::|...    
PSCA_DICDI       482 DDQQNSIFFSIIANNSPAQNTDIIDIIDQIVILLTKFILSS    522


#---------------------------------------
#---------------------------------------


Для построения оптимального частичного выравнивания использовала команду: water sw:P39844 sw:Q86I79.1 DACC_BACSU-PSCA_DICDI .water -gapopen 11 -gapextend 1
Полученное выравнивание:
DACC_BACSU        79 PASSLKLLTAAAALSVLGENYSFTTEVRTD---GTLKGKKLNGNL---YL    122
                     |||:.||.|..:.....||::...|...||   .::.|...|..|   .:
PSCA_DICDI        92 PASNTKLFTTISIFYTFGEDFKVFTPFFTDKPFNSVSGGSSNSELDFICV    141

DACC_BACSU       123 KGKGDPTLLPSDFDKMAEILKHSGVKVIKGNLIGDDTWHD-----DMRLS    167
                     ||.|||::...:..:.|:....:........|:.|.::::     |..:.
PSCA_DICDI       142 KGMGDPSMSIDNLIEAAKFFSSNPTMKKVNKLLLDTSFYNIGNGVDGNIP    191

DACC_BACSU       168 PDMPWSDEYTYYGAPISALTASPNEDYDAGTVIVEVTPNQKEGEEPAVS-    216
                     ....|.|..:.||:..:.|..:.|      |:.:.:||:...|.:|..| 
PSCA_DICDI       192 SAWEWEDLTSTYGSIPTPLIINEN------TMDIYITPSNVIGGKPTASF    235

DACC_BACSU       217 -VSPKTDY--ITIKNDAKTTAAGSEKDLTIEREHGTNTITIEGSVPVDAN    263
                      .|.:..|  :.|.....||:..|...|....:..:.:|.|.|:..::..
PSCA_DICDI       236 KYSGEDKYLPVIILATTTTTSNSSTSTLNYSFKMSSQSIYITGNCDINGG    285

DACC_BACSU       264 KTKEWISVWEPAGYALDLFKQSLKKQGI----TVKGDIK-TGEAPSSSDV    308
                     .....:.:.:|..|.|.:|...|:..|:    |..|... ||....|.:|
PSCA_DICDI       286 IQIITVPILDPEQYFLTVFSALLEDGGVEISQTAIGSCNYTGMDYKSFEV    335

DACC_BACSU       309 LLSHRSMPLSKLFVPFMKLSNNGHAEVLVKEMG----KVKKGEGSWEKGL    354
                     :    |..||::....:..|||.:||..:::||    ...:...:::.||
PSCA_DICDI       336 I----SPELSEMLNYTLLTSNNLYAETFLRQMGTFNSAASESTPTYQAGL    381

DACC_BACSU       355 EVLNSTLPEFGVDSKSLVLRDGSGISHIDAVSSDQLSQLLYDIQDQSWFS    404
                     |.:..||   .:.:......||||:|..:.::...|..::.::.......
PSCA_DICDI       382 EYIQQTL---SIPTSLYTQVDGSGLSRNNFITPKSLITVIENVYTNVGDP    428

DACC_BACSU       405 A--YLNSLPVAGNPDRMVGGTLRNRMKGTPAQGKVRAKTGSLSTVSSLSG    452
                     .  |::.||||.     :.|||..|...|||.|.|.|||||::.|:||:|
PSCA_DICDI       429 QHDYISYLPVAS-----LSGTLSKRFINTPASGIVHAKTGSMTGVNSLTG    473

DACC_BACSU       453 Y-----AETKSGKKLVFSILLNGL-IDEEDGKDIEDQIAVIL    488
                     .     ........:.|||:.|.. ....|..||.|||.::|
PSCA_DICDI       474 VILPNGLSDDQQNSIFFSIIANNSPAQNTDIIDIIDQIVILL    515


#---------------------------------------
#---------------------------------------


Вес оптимального частичного выравнивния немного больше,чем оптимального полного.
Выравнивания почти полностью отличаются друг от друга.

Дополнительные задания


1. Дополнила страницу описаний программ, раздел "пакет EMBOSS".
Ссылка
Новые программы - seqret (очень полезная!), matcher, stretcher, needle, water
©Eliseeva Julia