Blast

Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (в принципе должна соответствовать заданному белку)

Accession P39625.1 1VLI_A NP_391666.1
E-value 0.0 0.0 0.0
Вес (в битах) 770 725 720
Процент идентичности 100% 99% 97%

2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)

3 4 1000

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 4 4 1000
Accession Q1GV83.1 3G8R_A ABI32358.1
E-value 0.82 5e-25 7e-31
Вес (в битах) 35.0 104 129
% идентичности 26 28 29
% сходства 46 45 47
Длина выравнивания 134 327 378
Координаты выравнивания (от-до, в запросе и в находке) запрос 179-310,
находка 76-206
запрос 16-338,
находка 6-304
запрос 1-375,
находка 1-344
Число гэпов 5 32 37

Комментарии к таблице:
Во всех поисках удалось найти свой белок, в результате он выдается как лучшая находка (и AC в Swiss-Prot и PDB именно моего белка)
Число явных гомологов в Swiss-Prot и PDB примерно совпадает. Так как в банке Non-redundant protein sequences содержатся все последовательности во всех банках, то и находок явных гомологов там значительно больше. В этом банке всего находок более 1000, и последний явный гомолог ограничен предельным значением выдачи - 1000. E-value 1000-ной находки - 7e-31, что значительно меньше требуемого даже в явные гомологи
В Swiss-Prot - всего находок 10, и E-value последней - 9.9, в PDB всего находок 11, и E-value последней - 8.1. В этих двух банках значение E-value последней находки не лимитировано предельным значением выдачи

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам


Ура, явный гомолог нашелся сразу в царстве Eucaryota (правда, единственный). Этот белок - N-acetylneuraminic acid synthase, из организма Homo sapiens
Номер находки в списке описаний 1
Accession Q9NR45.2
E-value 1e-37
Вес (в битах) 134
% идентичности 30
% сходства 45
Длина выравнивания 348
Координаты выравнивания (от-до, в запросе и в находке) запрос 9-352,
находка 11-329
Число гэпов 33

3.Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.


Выравнивание, выданное программой BLASTP:


>sp|Q9NR45.2|SIAS_HUMAN  RecName: Full=Sialic acid synthase; AltName: Full=N-acetylneuraminate 
synthase; AltName: Full=N-acetylneuraminate-9-phosphate 
synthase; AltName: Full=N-acetylneuraminic acid phosphate 
synthase; AltName: Full=N-acetylneuraminic acid synthase
Length=359

 GENE ID: 54187 NANS | N-acetylneuraminic acid synthase [Homo sapiens]
(Over 10 PubMed links)

 Score =  134 bits (337),  Expect = 1e-37, Method: Compositional matrix adjust.
 Identities = 105/348 (30%), Positives = 156/348 (45%), Gaps = 33/348 (9%)

Query  9    KTVGKDAPVFIIAEAGINHDGKLDQAFALIDAAAEAGFTADAVKFQM----FQADRMYQK  64
            + VG   P FIIAE G NH G LD A  +I  A E G  AD  KFQ     F+ +R   +
Sbjct  11   RWVGGQHPCFIIAEIGQNHQGDLDVAKRMIRMAKECG--ADCAKFQKSELEFKFNRKALE  68

Query  65   DPGLYKTAAGKDVSIFSLVQSMEMPAEWILPLLDYCREKQVIFTFLSTVCDEGSADLLQS  124
             P   K + GK        + +E   +    L  Y  E  + FT  ++  DE + + L  
Sbjct  69   RPYTSKHSWGKTYGEHK--RHLEFSHDQYRELQRYAEEVGIFFT--ASGMDEMAVEFLHE  124

Query  125  TSPSAFKIASYEINHLPLLKYVARLNRPMIFSTAGAEISDVHEFTAWRTIRAEGNNQIAI  184
             +   FK+ S + N+ P L+  A+  RPM+ S+    +  + +   ++ ++   N     
Sbjct  125  LNVPFFKVGSGDTNNFPYLEKTAKKGRPMVISSGMQSMDTMKQ--VYQIVKPL-NPNFCF  181

Query  185  MHCVAKYPAPPEYSNLSVIPMLAAAFPEAVIGFSDHSEHPTEAPFTCAAVRLGAKLIEKH  244
            + C + YP  PE  NL VI      FP+  IG+S H    T    + AAV LGAK++E+H
Sbjct  182  LQCTSAYPLQPEDVNLRVISEYQKLFPDIPIGYSGHE---TGIAISVAAVALGAKVLERH  238

Query  245  FTIDKNLPGADHSFALNPDELKEMVDGIRKTEAELKQGITKPVSEFTKLLGSSYKTTTAI  304
             T+DK   G+DHS +L P EL E+V  +R  E               + LGS  K     
Sbjct  239  ITLDKTWKGSDHSASLEPGELAELVRSVRLVE---------------RALGSPTKQLLPC  283

Query  305  EGEIRNFAYRGIFTTAPIQKGEAFSEDNIAVLRPGQKPQGLHPRFFFT  352
            E        + +     I +G   + D + V + G+ P+G  P   F 
Sbjct  284  EMACNEKLGKSVVAKVKIPEGTILTMDMLTV-KVGE-PKGYPPEDIFN  329 

Выравнивание, построенное программой needle


########################################
# Program: needle
# Rundate: Fri 30 Mar 2012 01:20:52
# Commandline: needle
#    [-asequence] SPSE.fasta
#    [-bsequence] SIAS.fasta
#    [-outfile] alignmentneedle.txt
#    -gapopen 11
#    -gapextend 1
# Align_format: srspair
# Report_file: alignmentneedle.txt
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: SPSE_BACSU
# 2: SIAS_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 386
# Identity:     108/386 (28.0%)
# Similarity:   167/386 (43.3%)
# Gaps:          40/386 (10.4%)
# Score: 346.0
# 
#
#=======================================

SPSE_BACSU         1 --MAAFQIANKTVGKDAPVFIIAEAGINHDGKLDQAFALIDAAAEAGADA     48
                       :.......:.||...|.|||||.|.||.|.||.|..:|..|.|.|||.
SIAS_HUMAN         1 MPLELELCPGRWVGGQHPCFIIAEIGQNHQGDLDVAKRMIRMAKECGADC     50

SPSE_BACSU        49 VKFQM----FQADRMYQKDPGLYKTAAGKDVSIFSLVQSMEMPAEWILPL     94
                     .|||.    |:.:|...:.|...|.:.||......  :.:|...:....|
SIAS_HUMAN        51 AKFQKSELEFKFNRKALERPYTSKHSWGKTYGEHK--RHLEFSHDQYREL     98

SPSE_BACSU        95 LDYCREKQVIFLSTVCDEGSADLLQSTSPSAFKIASYEINHLPLLKYVAR    144
                     ..|..|..:.|.::..||.:.:.|...:...||:.|.:.|:.|.|:..|:
SIAS_HUMAN        99 QRYAEEVGIFFTASGMDEMAVEFLHELNVPFFKVGSGDTNNFPYLEKTAK    148

SPSE_BACSU       145 LNRPMIFSTAGAEISDVHEAWRTIRAEGNNQIAIMHCVAKYPAPPEYSNL    194
                     ..|||:.|:....:..:.:.::.::.. |.....:.|.:.||..||..||
SIAS_HUMAN       149 KGRPMVISSGMQSMDTMKQVYQIVKPL-NPNFCFLQCTSAYPLQPEDVNL    197

SPSE_BACSU       195 SVIPMLAAAFPEAVIGFSDHSEHPTEAPCAAVRLGAKLIEKHFTIDKNLP    244
                     .||......||:..||:|.| |.......|||.||||::|:|.|:||...
SIAS_HUMAN       198 RVISEYQKLFPDIPIGYSGH-ETGIAISVAAVALGAKVLERHITLDKTWK    246

SPSE_BACSU       245 GADHSFALNPDELKEMVDGIRKTEAELKQGITKPVSEKLLGSSYKTTTAI    294
                     |:|||.:|.|.||.|:|..:|             :.|:.|||..|.....
SIAS_HUMAN       247 GSDHSASLEPGELAELVRSVR-------------LVERALGSPTKQLLPC    283

SPSE_BACSU       295 EGEIRNFAYRGIFTTAPIQKGEAFSEDNIAVLRPGQKPQGLHPR-FFELL    343
                     |........:.:.....|.:|...:.|.:.| :.|: |:|..|. .|.|:
SIAS_HUMAN       284 EMACNEKLGKSVVAKVKIPEGTILTMDMLTV-KVGE-PKGYPPEDIFNLV    331

SPSE_BACSU       344 TSGVRAVRDIPADTGIVWDDILLKDSPFHE------    373
                     ...|...        :..||.::::...:.      
SIAS_HUMAN       332 GKKVLVT--------VEEDDTIMEELVDNHGKKIKS    359


#---------------------------------------
#---------------------------------------
 

Выравнивание, построенное программой water

 ########################################
# Program: water
# Rundate: Fri 30 Mar 2012 01:21:52
# Commandline: water
#    [-asequence] SPSE.fasta
#    [-bsequence] SIAS.fasta
#    [-outfile] alignmentwater.txt
#    -gapopen 11
#    -gapextend 1
# Align_format: srspair
# Report_file: alignmentwater.txt
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: SPSE_BACSU
# 2: SIAS_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 331
# Identity:     103/331 (31.1%)
# Similarity:   153/331 (46.2%)
# Gaps:          23/331 ( 6.9%)
# Score: 363.0
# 
#
#=======================================

SPSE_BACSU        11 VGKDAPVFIIAEAGINHDGKLDQAFALIDAAAEAGADAVKFQM----FQA     56
                     ||...|.|||||.|.||.|.||.|..:|..|.|.|||..|||.    |:.
SIAS_HUMAN        13 VGGQHPCFIIAEIGQNHQGDLDVAKRMIRMAKECGADCAKFQKSELEFKF     62

SPSE_BACSU        57 DRMYQKDPGLYKTAAGKDVSIFSLVQSMEMPAEWILPLLDYCREKQVIFL    106
                     :|...:.|...|.:.||......  :.:|...:....|..|..|..:.|.
SIAS_HUMAN        63 NRKALERPYTSKHSWGKTYGEHK--RHLEFSHDQYRELQRYAEEVGIFFT    110

SPSE_BACSU       107 STVCDEGSADLLQSTSPSAFKIASYEINHLPLLKYVARLNRPMIFSTAGA    156
                     ::..||.:.:.|...:...||:.|.:.|:.|.|:..|:..|||:.|:...
SIAS_HUMAN       111 ASGMDEMAVEFLHELNVPFFKVGSGDTNNFPYLEKTAKKGRPMVISSGMQ    160

SPSE_BACSU       157 EISDVHEAWRTIRAEGNNQIAIMHCVAKYPAPPEYSNLSVIPMLAAAFPE    206
                     .:..:.:.::.::.. |.....:.|.:.||..||..||.||......||:
SIAS_HUMAN       161 SMDTMKQVYQIVKPL-NPNFCFLQCTSAYPLQPEDVNLRVISEYQKLFPD    209

SPSE_BACSU       207 AVIGFSDHSEHPTEAPCAAVRLGAKLIEKHFTIDKNLPGADHSFALNPDE    256
                     ..||:|.| |.......|||.||||::|:|.|:||...|:|||.:|.|.|
SIAS_HUMAN       210 IPIGYSGH-ETGIAISVAAVALGAKVLERHITLDKTWKGSDHSASLEPGE    258

SPSE_BACSU       257 LKEMVDGIRKTEAELKQGITKPVSEKLLGSSYKTTTAIEGEIRNFAYRGI    306
                     |.|:|..:|             :.|:.|||..|.....|........:.:
SIAS_HUMAN       259 LAELVRSVR-------------LVERALGSPTKQLLPCEMACNEKLGKSV    295

SPSE_BACSU       307 FTTAPIQKGEAFSEDNIAVLRPGQKPQGLHP    337
                     .....|.:|...:.|.:.| :.|: |:|..|
SIAS_HUMAN       296 VAKVKIPEGTILTMDMLTV-KVGE-PKGYPP    324


#---------------------------------------
#---------------------------------------

Комментарий: Использовались параметры, стандартные для BLAST - BLOSUM62, Gap costs: existence 11, extension 1.
Выравнивание, выполненное Blastp, почти совпадает с частичным выравниванием, выполненным командой water (правда, water приводит выравнивание в координатах 11-337 и 13-324, в то время как Blastp выравнивает в координатах 9-352 и 11-329). При этом вес отличается (363 у water против 337), и процентное содержание гэпов в blastp больше (9% против 6,9%). В этих двух выравниваниях отсутствует выравнивание начал и концов белков, которые плохо выравниваются.
При использовании команды needle выровнялись целиковые последовательности (1-373 и 1-359). Вес получился меньше, чем при частичном выравнивании (гэпов больше).

Cсылки на выравнивания:
C помощью команды needle
C помощью команды water