Программа BLASTP



Страница запроса BLASTP

1.
  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД P35340 1HYU NP_286333.1
E-value 0.0 0.0 0.0
Вес (в битах) 1068 1011 1069
% идентичности 100% 95%  
Найдены ли другие белки с теми же значениями E-value и веса в битах? Белков с таким же весом не обнаружено, зато есть ещё 5 с нулевым E-value. ID самого близкого по весу (1011) - P19480 (AHPF_Salty) 2 белка с нулевым E-value, из которых вес второго - 630 (1FL2 - AHPF_Ecoli) 148 белков с нулевым E-value, из них два с весом 1068. Пример - YP_001461770.1 (AHPF_Ecoli)
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) 163 18 4999
2. "Худшая" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний (Descriptions) 433 91 9386
Идентификатор БД A5E8G8 1ZMC (P09622) YP_151868.1 (Q5PF36)
E-value 0.98 0.64 0.99
Вес (в битах) 35 31.6 39.3
% идентичности 50% 42% 25%
% сходства 64% 60% 44%
Длина выравнивания 34 40 160
Координаты выравнивания (номера первых и последних а.о.) 212-245 AHPF_Ecoli, 7-40 MNMG_Brasb 214-251 AHPF_Ecoli, 8-47 DLDH_Human 348-498 AHPF_Ecoli, 134-288 NORW_Salpa
% гэпов 0% 5% 8%

Мы видим, что, чем объёмней банк (в порядке убывания числа последовательностей - "nr">SwissProt>PDB), тем больше будет номер "худшего" выравнивания, а E-value его ближе к, собственно, единице. Относительно низкое E-value для PDB-банка объясняется тем, что результатов в принципе немного и разброс величин E-value для них велик. Так что что следующий, не вошедший в список результат просто больше единицы.

2.Гомолог моего белка у человека: Q96NN9 (AIFM3_Human)
E-value 3e-06
Вес 50.4
Идентичность 23%
Сходство 42%
Длина выравнивания 297
Координаты 214-493 AHPF_Ecoli, 196_472 AIFM3_Human
Гэпы 12%

3.Результаты поиска белка в Swiss-Prot по фрагменту последовательности
  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки Q5HRY2 (AHPF_STAEQ) Q5HRY2 (AHPF_STAEQ)
E-value 3e-15 0.0
Вес (в битах) 78.7 1035
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Да, белок AHPF_STAES, тот же самый, но из другого штамма Staphylococcus epidermidis 7 белков с нулевым E-value. Вес выравнивания с AHPF_Staes - 1034

Разница между значениями весов и E-value для выравниваний участков и полных последовательностей объясняется разницей длин. Маленький участок имеет меньшую длину (что уменьшает E), но и меньший вес (что значитительно увеличивает E, т.к. вес стоит в показателе степени e со знаком "-") Соответственно, выравнивание полных последовательностей со значительно большим весом будет иметь гораздо меньшее E-value.

Выравнивание AHPF_Staeq (query 1) с моим белком (sbjct 1)
Query  1    MLNADLKQQLQQLLELMEGDVEFVASLGSDDKSNELKELLNEMAEMSAHITITE-KSLK-  58
            ML+ ++K QL+  LE +   VE +A+L    KS E+KELL E+AE+S  +T  E  SL  
Sbjct  1    MLDTNMKTQLKAYLEKLTKPVELIATLDDSAKSAEIKELLAEIAELSDKVTFKEDNSLPV  60

Query  59   RTPSFSVNRPGEETGITFAGIPLGHEFNSLVLAILQVSGRAPKEKQSIIDQIKGLEGPFH  118
            R PSF +  PG   G  FAG PLGHEF SLVLA+L   G   KE QS+++QI+ ++G F 
Sbjct  61   RKPSFLITNPGSNQGPRFAGSPLGHEFTSLVLALLWTGGHPSKEAQSLLEQIRHIDGDFE  120

Query  119  FETFVSLTCQKCPDVVQALNLMSVINPNITHTMIDGAVFREE--SENIMAVPAVFLDGQE  176
            FET+ SL+C  CPDVVQALNLMSV+NP I HT IDG  F+ E    N+M VPAVF++G+E
Sbjct  121  FETYYSLSCHNCPDVVQALNLMSVLNPRIKHTAIDGGTFQNEITDRNVMGVPAVFVNGKE  180

Query  177  FGNGRMTVQDILTKL---GSTQDASEFNDKDPYDVLIVGGGPASGSAAIYTARKGLRTGI  233
            FG GRMT+ +I+ K+      + A E N +D YDVLIVG GPA  +AAIY+ARKG+RTG+
Sbjct  181  FGQGRMTLTEIVAKIDTGAEKRAAEELNKRDAYDVLIVGSGPAGAAAAIYSARKGIRTGL  240

Query  234  VADRIGGQVNDTAGIENFITVKETTGSEFSSNLAEHIAQYDIDTMTGIRATNIEKTDSAI  293
            + +R GGQ+ DT  IEN+I+V +T G + +  L  H+ +YD+D +    A+ +    +A+
Sbjct  241  MGERFGGQILDTVDIENYISVPKTEGQKLAGALKVHVDEYDVDVIDSQSASKL--IPAAV  298

Query  294  -----RVTLENDAVLESKTVIISTGASWRKLNIPGEDRLINKGVAFCPHCDGPLFENKDV  348
                 ++   + AVL+++++I++TGA WR +N+PGED+   KGV +CPHCDGPLF+ K V
Sbjct  299  EGGLHQIETASGAVLKARSIIVATGAKWRNMNVPGEDQYRTKGVTYCPHCDGPLFKGKRV  358

Query  349  AVIGGGNSGVEAAIDLAGIVKHVTLFEYASELKADSVLQERLRSLPNVDIKTSAKTTEVI  408
            AVIGGGNSGVEAAIDLAGIV+HVTL E+A E+KAD VLQ++LRSL NVDI  +A+TTEV 
Sbjct  359  AVIGGGNSGVEAAIDLAGIVEHVTLLEFAPEMKADQVLQDKLRSLKNVDIILNAQTTEVK  418

Query  409  GD-DYVTGISYEDMTTGESQVVNLDGIFVQIGLVPNTSWLQNAVELNERGEVMINRDNAT  467
            GD   V G+ Y D  +G+   + L GIFVQIGL+PNT+WL+ AVE N  GE++I+    T
Sbjct  419  GDGSKVVGLEYRDRVSGDIHNIELAGIFVQIGLLPNTNWLEGAVERNRMGEIIIDAKCET  478

Query  468  NVPGIFAAGDVTDQKNKQIIISMGAGANAALNAFDYIIR  506
            NV G+FAAGD T    KQIII+ G GA A+L+AFDY+IR
Sbjct  479  NVKGVFAAGDCTTVPYKQIIIATGEGAKASLSAFDYLIR  517


Выравнивание, сделанное мной прежде в домашней работе (153-175 AHPF_Ecoli, 151-173 AHPF_Staeq)


Видим, что выравнивания различаются положением гэпа. А вот в случае с выравниванием участка наблюдаем следующее
Query  2    IDGAVFREE-SE-NIMAVPAVF  21
            IDG  F+ E ++ N+M VPAVF
Sbjct  154  IDGGTFQNEITDRNVMGVPAVF  175


Здесь сразу два гэпа. С другой стороны, замены серина на треонин и глутаминовой кислоты на аспарагиновую имеют положительный вес, а вот серина на изолейцин и глутаминовой к-ты на треонин - отрицательный (замены S и E на D и R имеют нулевой вес, так что разница в положении, указанная выше, имеет смысл).
Таким образом, видим, что вес выравнивания, сделанного мной, - наименьший из трёх (причина в том, что вес любой близкородственной замены мы принимали равным за единицу - разумеется, BLASTP использовал более адекватные числа).

3.Выравнивания AHPF_Ecoli и TRXB_Bacsu (штраф за открытие гэпа - 11, за протяжённость - 1)
- BLASTP (207-515 AHPF_Ecoli, 1-305 TRXB_Bacsu, вес - 466)
Query  207  LNKRDAYDVLIVGSGPAGAAAAIYSARKGIRTGLMGERF--GGQILDTVDIENYISVPKT  264
            +++   YDV+I+G+GPAG  AA+Y++R  + T LM ER   GGQ+ +T D+ENY      
Sbjct  1    MSEEKIYDVIIIGAGPAGMTAAVYTSRANLST-LMIERGIPGGQMANTEDVENYPGFESI  59

Query  265  EGQKLAGALKVHVDEYDVDVIDSQSASKLIPAAVEGGLHQIETASGAVLKARSIIVATGA  324
             G +L+  +  H  ++      ++ A   I   ++G  +++  A     KAR++I+A GA
Sbjct  60   LGPELSNKMFEHAKKFG-----AEYAYGDIKEVIDGKEYKVVKAGSKEYKARAVIIAAGA  114

Query  325  KWRNMNVPGEDQYRTKGVTYCPHCDGPLFKGKRVAVIGGGNSGVEAAIDLAGIVEHVTLL  384
            +++ + VPGE +   +GV+YC  CDG  FKGK + V+GGG+S VE  + L      VT++
Sbjct  115  EYKKIGVPGEKELGGRGVSYCAVCDGAFFKGKELVVVGGGDSAVEEGVYLTRFASKVTIV  174

Query  385  EFAPEMKADQVLQDKLRSLKNVDIILNAQTTEVKGDGSKVVGLEYRDRVSGDIHNIELAG  444
                +++A  +LQ +    + VD + N    E+  +  KV  +   D V+G+    +  G
Sbjct  175  HRRDKLRAQSILQARAFDNEKVDFLWNKTVKEIHEENGKVGNVTLVDTVTGEESEFKTDG  234

Query  445  IFVQIGLLPNTNWLEGAVERNRMGEIIIDAKCETNVKGVFAAGDCTTVPYKQIIIATGEG  504
            +F+ IG+LP +   E     N  G I  + + ET V+G+FAAGD      +QI+ ATG+G
Sbjct  235  VFIYIGMLPLSKPFENLGITNEEGYIETNDRMETKVEGIFAAGDIREKSLRQIVTATGDG  294

Query  505  AKASLSAFDYL  515
            + A+ S   Y+
Sbjct  295  SIAAQSVQHYV  305
- глобальное (1-521 AHPF_Ecoli, 1-316 TRXB_Bacsu, вес - 248)
               10        20        30        40        50
AHPF_E MLDTNMKTQLKAYLEKLTKPVELIATLDDSAKSAEIKELLAEIAELSDKV
       : .           ::.
TRXB_B MSE-----------EKI---------------------------------


               60        70        80        90       100
AHPF_E TFKEDNSLPVRKPSFLITNPGSNQGPRFAGSPLGHEFTSLVLALLWTGGH

TRXB_B --------------------------------------------------


              110       120       130       140       150
AHPF_E PSKEAQSLLEQIRHIDGDFEFETYYSLSCHNCPDVVQALNLMSVLNPRIK

TRXB_B --------------------------------------------------


              160       170       180       190       200
AHPF_E HTAIDGGTFQNEITDRNVMGVPAVFVNGKEFGQGRMTLTEIVAKIDTGAE

TRXB_B --------------------------------------------------


              210       220       230       240
AHPF_E KRAAEELNKRDAYDVLIVGSGPAGAAAAIYSARKGIRTGLMGERF--GGQ
                   :::.:.:.::::  ::.:..:  . : :: ::   :::
TRXB_B ------------YDVIIIGAGPAGMTAAVYTSRANLST-LMIERGIPGGQ
                     10        20        30         40

      250       260       270       280       290
AHPF_E ILDTVDIENYISVPKTEGQKLAGALKVHVDEYDVDVIDSQSASKLIPAAV
       . .: :.:::       : .:.  .  :  ..  .      :   :   .
TRXB_B MANTEDVENYPGFESILGPELSNKMFEHAKKFGAEY-----AYGDIKEVI
            50        60        70             80

      300       310       320       330       340
AHPF_E EGGLHQIETASGAVLKARSIIVATGAKWRNMNVPGEDQYRTKGVTYCPHC
       .:  ...  :     :::..:.: ::... . :::: .   .::.::  :
TRXB_B DGKEYKVVKAGSKEYKARAVIIAAGAEYKKIGVPGEKELGGRGVSYCAVC
       90       100       110       120       130

      350       360       370       380       390
AHPF_E DGPLFKGKRVAVIGGGNSGVEAAIDLAGIVEHVTLLEFAPEMKADQVLQD
       ::  :::: . :.:::.: ::  . :      ::..    ...:  .::
TRXB_B DGAFFKGKELVVVGGGDSAVEEGVYLTRFASKVTIVHRRDKLRAQSILQA
      140       150       160       170       180

      400       410       420       430       440
AHPF_E KLRSLKNVDIILNAQTTEVKGDGSKVVGLEYRDRVSGDIHNIELAGIFVQ
       .    . :: . :    :.  .  ::  .   : :.:.    .  :.:.
TRXB_B RAFDNEKVDFLWNKTVKEIHEENGKVGNVTLVDTVTGEESEFKTDGVFIY
      190       200       210       220       230

      450       460       470       480       490
AHPF_E IGLLPNTNWLEGAVERNRMGEIIIDAKCETNVKGVFAAGDCTTVPYKQII
       ::.:: .   :     :  : :  . . :: :.:.:::::      .::.
TRXB_B IGMLPLSKPFENLGITNEEGYIETNDRMETKVEGIFAAGDIREKSLRQIV
      240       250       260       270       280

      500       510       520
AHPF_E IATGEGAKASLSAFDYLIRTKTA-----
        :::.:. :. :   :.   .
TRXB_B TATGDGSIAAQSVQHYVEELQETLKTLK
      290       300       310
- локальное (207-515 AHPF_Ecoli, 1-305 TRXB_Bacёsu, вес - 478)
        210       220       230       240         250
AHPF_E LNKRDAYDVLIVGSGPAGAAAAIYSARKGIRTGLMGERF--GGQILDTVD
       ...   :::.:.:.::::  ::.:..:  . : :: ::   :::. .: :
TRXB_B MSEEKIYDVIIIGAGPAGMTAAVYTSRANLST-LMIERGIPGGQMANTED
               10        20        30         40

          260       270       280       290       300
AHPF_E IENYISVPKTEGQKLAGALKVHVDEYDVDVIDSQSASKLIPAAVEGGLHQ
       .:::       : .:.  .  :  ..  .      :   :   ..:  ..
TRXB_B VENYPGFESILGPELSNKMFEHAKKFGAEY-----AYGDIKEVIDGKEYK
      50        60        70             80        90

          310       320       330       340       350
AHPF_E IETASGAVLKARSIIVATGAKWRNMNVPGEDQYRTKGVTYCPHCDGPLFK
       .  :     :::..:.: ::... . :::: .   .::.::  :::  ::
TRXB_B VVKAGSKEYKARAVIIAAGAEYKKIGVPGEKELGGRGVSYCAVCDGAFFK
          100       110       120       130       140

          360       370       380       390       400
AHPF_E GKRVAVIGGGNSGVEAAIDLAGIVEHVTLLEFAPEMKADQVLQDKLRSLK
       :: . :.:::.: ::  . :      ::..    ...:  .:: .    .
TRXB_B GKELVVVGGGDSAVEEGVYLTRFASKVTIVHRRDKLRAQSILQARAFDNE
          150       160       170       180       190

          410       420       430       440       450
AHPF_E NVDIILNAQTTEVKGDGSKVVGLEYRDRVSGDIHNIELAGIFVQIGLLPN
        :: . :    :.  .  ::  .   : :.:.    .  :.:. ::.::
TRXB_B KVDFLWNKTVKEIHEENGKVGNVTLVDTVTGEESEFKTDGVFIYIGMLPL
          200       210       220       230       240

          460       470       480       490       500
AHPF_E TNWLEGAVERNRMGEIIIDAKCETNVKGVFAAGDCTTVPYKQIIIATGEG
       .   :     :  : :  . . :: :.:.:::::      .::. :::.:
TRXB_B SKPFENLGITNEEGYIETNDRMETKVEGIFAAGDIREKSLRQIVTATGDG
          250       260       270       280       290

          510
AHPF_E AKASLSAFDYL
       . :. :   :.
TRXB_B SIAAQSVQHYV
          300

Никаких разительных отличий не наблюдается: программой BLASTP рассмотрен тот же участок, что и WATER, отличается лишь положение самого большого гэпа - 282-286 AHPF_Ecoli (в двух последних выравниваниях его позиции - 285-289)
В выравнивании BLASTP аланин сопоставлен не серину, а валину, глутаминовая к-та не аспарагиновой, а глутамину, лизин не серину, а валину. Если рассматривать BLOSUM62, то замены эти по весу одинаковы. Думаю, их вес приблизительно одинаков и для программы BLASTP. В данном случае, скорее всего, это различие - случайность.

К перечню исследовательских работ
На главную