Задание1. Поиск гипотетических гомологов изучаемого белка в разных банках

Таблица 1. Результаты поиска гипотетических гомологов белка YFIT_BACSU

  Поиск по Swiss-Prot Поиск по "nr" Поиск по PDB
1. Лучшая находка
Accession O31562.1  NP_388720.1  1RXQ_A 
E-value 9e-102  2e-100  1e-99 
Вес (в битах) 368 bits  368 bits  358 bits 
Процент идентичности 100%  100%  98% 
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1e-10)
18  100 
3. "Худшая из хороших" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 22  100 
Accession B5EEL9.1  YP_003672464.1  2YQY_A 
E-value 0.91  1e-34  0.87 
Вес (в битах) 33.1 bits  149 bits  29.6 bits 
% идентичности 35%  42%  27% 
% сходства 57%  58%  37% 
Длина выравнивания 51  177  166 
Координаты выравнивания (от-до, в запросе и в находке) 90-140
11-63 
1-177
1-178 
19-165
2-160 
Число гэпов 26 

  • В первых двух базах данных удалось найти исходный белок, когда же в последней нет, лишь его ближайший гомолог из того же организма.
    В выравнивании последовательности ?того белка с исходной все аа совпадают, кроме 2 пар, представленных как М-Х (в двух местах выравнивания), Х - ?то некая аминокислота, не расшифрованная в ходе рентгеноструктурного анализа. Ввиду сказанного можно предположить, что предложенная BLASTом из PDB последовательность все-таки является исходной.
  • Число явных гомологов, выданных из разных банков, значительно различается. Из "nr" было представлено 100 (хотя их гораздо больше, но по умолчанию BLAST ограничивает выдачу до 100 последовательностей): такое большое число объясняется природой самого банка "nr". Ведь, по замыслу, он включает в себя все белковые последовательности из всевозможных источников (в первую очередь Swiss-Prot и аннотации кодирующих участков генов в GenBank).
    Небольшой результат в поиске по PDB обусловлен вообще небольшим числом белков,подвергшихся рентгеноструктурному анализу для выяснения пространственной организации.
  • В SwissProt было представлено 36 находок, e-value последнего 9,8. В PDB - 17 находок, e-value последнего - 8.5.(Число находок лимитировано значением E-value=10.)
    B "nr" - 100 находок, e-value последнего 1e-34. (Лимитирующий фактор - заданный по умолчанию предельный размер выдачи 100)

    Задание 2. Поиск гипотетического гомолога изучаемого белка с фильтром по таксонам

    Лучший гомолог - Putative metal-dependent hydrolase GWCH70_0602 - из рода Geobacillus (в семействе Bacillaceae). Организм Geobacillus sp.

    Номер находки в списке описаний
    Accession C5D6I2.1 
    E-value 5e-44 
    Вес (в битах) 169 bits 
    % идентичности 42% 
    % сходства 66% 
    Длина выравнивания 173 
    Координаты выравнивания (от-до, в запросе и в находке) 6-178
    4-176 
    Число гэпов

    Задание 3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

    Выравнивание от BLAST
    
    Query  6    LSYPIGEYKPRESISKEQKDKWIQVLEEVPAKLKQAVEVMTDSQLDTPYRDGGWTVRQVV  65
                + YPIG+++   +  +E   +WI  + ++PAKL +AV  + + QL+TPYRDGGWTV QVV
    Sbjct  4    IRYPIGKFQAPAAFCEEDAKQWISDIRQIPAKLWEAVSGLNEEQLNTPYRDGGWTVAQVV  63
    
    Query  66   HHLADSHMNSYIRFKLSLTEETPAIRPYDEKAWSELKDSKTADPSGSLALLQELHGRWTA  125
                HH+AD+ MN+++R K +LTE+ P+I+P++E  W++  ++++     SL LL+ LH RW  
    Sbjct  64   HHIADASMNAFLRTKWTLTEDVPSIKPFEENDWAKTTEARSLHIEPSLQLLEGLHERWAH  123
    
    Query  126  LLRTLTDQQFKRGFYHPDTKEIITLENALGLYVWHSHHHIAHITELSRRMGWS  178
                LL +++   F+R FYH  TKE + L   + ++ WH  HH A I  L +R GW+
    Sbjct  124  LLESMSSDDFQRNFYHEGTKENVPLYVLIAMHAWHGKHHTAQIVSLRQRKGWN  176
    
    Length: 173
    Identities: 73/173 (42%)
    Positives: 115/173 (66%)
    Gaps: 0/173 (0%)
    Score: 427
    Оптимальное частичное выравнивание от Water
    YFIT_BACSU         6 LSYPIGEYKPRESISKEQKDKWIQVLEEVPAKLKQAVEVMTDSQLDTPYR     55
                         :.||||:::...:..:|...:||..:.::||||.:||..:.:.||:||||
    Y602_GEOSW         4 IRYPIGKFQAPAAFCEEDAKQWISDIRQIPAKLWEAVSGLNEEQLNTPYR     53
    
    YFIT_BACSU        56 DGGWTVRQVVHHLADSHMNSYIRFKLSLTEETPAIRPYDEKAWSELKDSK    105
                         ||||||.|||||:||:.||:::|.|.:|||:.|:|:|::|..|::..:::
    Y602_GEOSW        54 DGGWTVAQVVHHIADASMNAFLRTKWTLTEDVPSIKPFEENDWAKTTEAR    103
    
    YFIT_BACSU       106 TADPSGSLALLQELHGRWTALLRTLTDQQFKRGFYHPDTKEIITLENALG    155
                         :.....||.||:.||.||..||.:::...|:|.|||..|||.:.|...:.
    Y602_GEOSW       104 SLHIEPSLQLLEGLHERWAHLLESMSSDDFQRNFYHEGTKENVPLYVLIA    153
    
    YFIT_BACSU       156 LYVWHSHHHIAHITELSRRMGWS    178
                         ::.||..||.|.|..|.:|.||:
    Y602_GEOSW       154 MHAWHGKHHTAQIVSLRQRKGWN    176
    Length: 173
    Identity: 73/173 (42.2%)
    Similarity: 115/173 (66.5%)
    Gaps: 0/173 ( 0.0%)
    Score: 436.0
    Оптимальное полное выравнивание от Needle
    YFIT_BACSU         1 MTSVNLSYPIGEYKPRESISKEQKDKWIQVLEEVPAKLKQAVEVMTDSQL     50
                           ...:.||||:::...:..:|...:||..:.::||||.:||..:.:.||
    Y602_GEOSW         1 --MDEIRYPIGKFQAPAAFCEEDAKQWISDIRQIPAKLWEAVSGLNEEQL     48
    
    YFIT_BACSU        51 DTPYRDGGWTVRQVVHHLADSHMNSYIRFKLSLTEETPAIRPYDEKAWSE    100
                         :||||||||||.|||||:||:.||:::|.|.:|||:.|:|:|::|..|::
    Y602_GEOSW        49 NTPYRDGGWTVAQVVHHIADASMNAFLRTKWTLTEDVPSIKPFEENDWAK     98
    
    YFIT_BACSU       101 LKDSKTADPSGSLALLQELHGRWTALLRTLTDQQFKRGFYHPDTKEIITL    150
                         ..::::.....||.||:.||.||..||.:::...|:|.|||..|||.:.|
    Y602_GEOSW        99 TTEARSLHIEPSLQLLEGLHERWAHLLESMSSDDFQRNFYHEGTKENVPL    148
    
    YFIT_BACSU       151 ENALGLYVWHSHHHIAHITELSRRMGWS    178
                         ...:.::.||..||.|.|..|.:|.||:
    Y602_GEOSW       149 YVLIAMHAWHGKHHTAQIVSLRQRKGWN    176
    Length: 178
    Identity: 73/178 (41.0%)
    Similarity: 115/178 (64.6%)
    Gaps: 2/178 ( 1.1%)
    Score: 432.0
  • Все сопоставления, вес, процент сходства и идентичности в выравниваниях BLAST и Water одинаковы (их высокое сходство и ожидалось, так как обе программы основаны на алгоритмах для частичных выравниваний). Matcher дает такие же результаты.
  • По результатам сравнения выравниваний BLAST и Needle (частичного и полного соответственно) можно говорить, что все сопоставления одинаковы. Меньший вес в Needle (по сравнению с Water) объясняется необходимостью сдвига второй последовательности относительно первой, за что в полном выравнивании накладывается штраф.
  • Интересно, что программа полного выравнивания Stretcher, основываясь на другом алгоритме, пошла иным путем, нежели Needle. Она ввела два г?па не в начале второй последовательности, а дальше, стремясь сопоставить первые метионины. Можно предположить, что данная программма стремится на наибольшей идентичности, а не большему весу. Так, сопоставив одинаковые остатки, программа сохранила прежним число сходных остатков, но - главное - их вес стал меньше, что и отразилось в общем весе выравнивания.
  • Оптимальное частичное выравнивание от Matcher
            10        20        30        40        50     
    YFIT_B LSYPIGEYKPRESISKEQKDKWIQVLEEVPAKLKQAVEVMTDSQLDTPYR
           . ::::...   .  .:   .::  . ..:::: .::  . . ::.::::
    Y602_G IRYPIGKFQAPAAFCEEDAKQWISDIRQIPAKLWEAVSGLNEEQLNTPYR
                10        20        30        40        50   
    
              60        70        80        90       100     
    YFIT_B DGGWTVRQVVHHLADSHMNSYIRFKLSLTEETPAIRPYDEKAWSELKDSK
           :::::: :::::.::. ::...: : .:::. :.:.:..:  :..  ...
    Y602_G DGGWTVAQVVHHIADASMNAFLRTKWTLTEDVPSIKPFEENDWAKTTEAR
                60        70        80        90       100   
    
             110       120       130       140       150     
    YFIT_B TADPSGSLALLQELHGRWTALLRTLTDQQFKRGFYHPDTKEIITLENALG
           .     :: ::. :: ::  :: ...   :.: :::  ::: . :   . 
    Y602_G SLHIEPSLQLLEGLHERWAHLLESMSSDDFQRNFYHEGTKENVPLYVLIA
               110       120       130       140       150   
    
             160       170        
    YFIT_B LYVWHSHHHIAHITELSRRMGWS
           .. ::  :: : :  : .: ::.
    Y602_G MHAWHGKHHTAQIVSLRQRKGWN
               160       170      
    
    Length: 173
    Identity: 73/173 (42.2%)
    Similarity: 115/173 (66.5%)
    Gaps: 0/173 ( 0.0%)
    Score: 436
    Оптимальное полное выравнивание от Stretcher
                   10        20        30        40        50
    YFIT_B MTSVNLSYPIGEYKPRESISKEQKDKWIQVLEEVPAKLKQAVEVMTDSQL
           :  .   ::::...   .  .:   .::  . ..:::: .::  . . ::
    Y602_G MDEIR--YPIGKFQAPAAFCEEDAKQWISDIRQIPAKLWEAVSGLNEEQL
                     10        20        30        40        
    
                   60        70        80        90       100
    YFIT_B DTPYRDGGWTVRQVVHHLADSHMNSYIRFKLSLTEETPAIRPYDEKAWSE
           .:::::::::: :::::.::. ::...: : .:::. :.:.:..:  :..
    Y602_G NTPYRDGGWTVAQVVHHIADASMNAFLRTKWTLTEDVPSIKPFEENDWAK
           50        60        70        80        90        
    
                  110       120       130       140       150
    YFIT_B LKDSKTADPSGSLALLQELHGRWTALLRTLTDQQFKRGFYHPDTKEIITL
             ....     :: ::. :: ::  :: ...   :.: :::  ::: . :
    Y602_G TTEARSLHIEPSLQLLEGLHERWAHLLESMSSDDFQRNFYHEGTKENVPL
          100       110       120       130       140        
    
                  160       170        
    YFIT_B ENALGLYVWHSHHHIAHITELSRRMGWS
              . .. ::  :: : :  : .: ::.
    Y602_G YVLIAMHAWHGKHHTAQIVSLRQRKGWN
          150       160       170      
    Length: 178
    Identity: 74/178 (41.6%)
    Similarity: 116/178 (65.2%)
    Gaps: 2/178 ( 1.1%)
    Score: 430

    Задание 1*. Изменение параметров BLAST

  • При изменении системы штрафов за г?пы от 11-1 на 8-2 получена худшая из хороших находка e-value 0,85 всместо прежнего значения 0,91, а результатов стало меньше на 4 (32 вместо 36).
  • При изменении матрицы на BLOSUM80 худшая из хороших находок имеет с e-value 0,69, а все число находок исчисляется 28.

    Задание 2*

    Рассмотрю находку Protein TIF31 homolog с e-value 1.4 (выдача BLASTа с Gap Costs: Existence 11 Extension 1 и BLOSUM62)

    Выравнивание от BLAST
    Query  21   KEQKDKWIQVLEEVPAKLKQAVEVMTDSQLDTPYRDGGWTV  61
                +E+ +K++Q  +EVP+KLK+ ++ +  + L  P R+ G TV
    Sbjct  715  QEEINKYVQQGKEVPSKLKEQIQ-LDKADLKEPVRNEGCTV  754
    
    Length: 41
    Identities: 15/41 (37%)
    Positives: 28/41 (68%)
    Gaps: 0/173 1/41 (2%)
    Score: 32.3 bits (72)
    Оптимальное частичное выравнивание от Water
    YFIT_BACSU        21 KEQKDKWIQVLEEVPAKLKQAVEVMTDSQLDTPYRDGGWTV     61
                         :|:.:|::|..:|||:|||:.:: :..:.|..|.|:.|.||
    TIF31_KLULA      715 QEEINKYVQQGKEVPSKLKEQIQ-LDKADLKEPVRNEGCTV    754
    Length: 41
    Identity: 15/41 (36.6%)
    Similarity: 28/41 (68.3%)
    Gaps: 1/41 ( 2.4%)
    Score: 68.0
    Оптимальное полное выравнивание от Needle (значащий участок
    - по длине первого белка)
                                                              
    
    YFIT_BACSU                                                 MTSVNLSY---P      9
                                                               :...|..|   .
    TIF31_KLULA      651 TDLFHTNGVNMRYLGKAIEFVKAKYEDQKQERAKYLSKIEQENKEYQDWE    700
    
    YFIT_BACSU        10 IGEYKPRESISKEQKD---KWIQVLEEVPAKLKQAVEVMTDSQLDTPYRD     56
                         .|.....|.:.||:::   |::|..:|||:|||:.:: :..:.|..|.|:
    TIF31_KLULA      701 TGYLVKVEKLIKERQEEINKYVQQGKEVPSKLKEQIQ-LDKADLKEPVRN    749
    
    YFIT_BACSU        57 GGWTVR--QVVHHLADSHMN------SYIRFKLSLTEETPAIRPYDEKAW     98
                         .|.||.  |....:|...:.      .:|..:.|....:|.:.|:....:
    TIF31_KLULA      750 EGCTVEVDQFEGLIAVCELEMIARSIKHIFRQQSKKLSSPTLVPHLVAFF    799
    
    YFIT_BACSU        99 SEL------KDSKTADPSGSLALLQELH-GRWTALLRTLTDQ---QFKRG    138
                         ..|      .:|.|.:...:|..:.||. .::|.  ..|.::   |.|..
    TIF31_KLULA      800 LNLLFGKSYNESVTVENLDALFDINELEFAQYTR--EQLIEEVRVQAKLR    847
    
    YFIT_BACSU       139 FYHPDTKEIITL-ENALGLYVWHSHHHIAHITELSRRMGWS---------    178
                         |.:..|.|...: |.....|        |.|..::::.|..         
    TIF31_KLULA      848 FRYDLTSEWFDINEKRFSKY--------ALIRAIAQKFGIQLINKEYFFT 
    Length: 178
    Identity: 44/1280 ( 3.4%)
    Similarity: 81/1280 ( 6.3%)
    Gaps: 1113/1280 (87.0%)
    Score: 21.0
    Длина последовательности данного ?укариотического белка гораздо больше, нежели прокариотического. Глобальное выравнивание показало, что последовательность бактерии сходна (имеет идентичные и сходные пары) с центральным участком ?укариотической последовательности. Можно предположить, что в результате, к примеру, кроссинговера, горизонтального переноса генов в ходе ?волюции и пр. ген данного бактериального белка оказался частью гена данного ?укариотического белка. ?то можно попытаться подтвердить наличием нескольких идентичных и сходных участков, например
    EVPAKLK
    |||:|||
    EVPSKLK. 

    Но, строго говоря, приведенные предположения являются большей частью умозрительными, так как использованные методы выравнивания на сегодняшний момент считаются далеко не ведущими. По-моему, о гомологии можно будет судить лишь после проведения структурного выравнивания (SSM).
    Bacillus subtilis (Prokariota), имеющая белок YFIT_BACSU

    Kluyveromyces lactis (Fungi, Eukariota), имеющая белок TIF31_KLULA

    Задание 3*

  • Интерфейс BLAST на сайте EBI весьма компактен и от ?того более удобен. Также участок с дополнительными опциями находится на виду. Из всех трех интерфейсов ?тому я отдаю первое место.
  • Интерфейс на SIB как-то размашист. В дополнение, дизайн сайта уступает остальным из-за своей простоты.
    ©Vakil Takhaveev