WELCOME MY FRIEND!


Программа BLASTP.

  1. Поиск гипотетических гомологов изучаемого белка в разных БД.
  2. Подала на вход программе BLASTP код доступа изучаемого белка, провела поиск гомологов в банке Swiss-Prot и заполнила первый столбец таблички. Затем провела поиск по банкам PDB и "nr" и заполнила остальные столбцы.

    Таблица 1. Результаты поиска гипотетических гомологов белка MENC_ECOLI

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (соответствует заданному белку)
    Идентификатор БД MENC_ECOLI 1FHV, 1FHU NP_416764.1; 1FHV(pdb)
    E-value 0 0.0 0.0
    Вес (в битах) 647 647 647
    % идентичности 320/320 (100%) 320/320 (100%) 320/320 (100%)
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Указываем общее число и один идентификатор, желательно Swiss-Prot
    С теми же значениями E-value - да: 10, например MENC_ECO24 - с самым большим весом: 643, с тем же значением веса в битах белков не найдено. С теми же значениями E-value: 4 (включая 2 обозначения определяемого белка 1FHU и 1FHV), с тем же значением веса в битах - 1FHV, т.о. 2 белка с одинаковым весом. С теми же значениями E-value: 13 (включая 2 обозначения определяемого белка NP_416764.1 и 1FHV), с тем же значением веса в битах - 1FHV, т.о. 2 белка с одинаковым весом.
    2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) 11, включая заданный белок. всё те 4 белка, включая 2 обозначения заданного + 2OZT с значением E-value = 1e-04 = 5 белков. 13, включая заданный.
    2. "Худшая" находка (последняя в выдаче с E-value < 1)
    Номер находки в списке описаний (Descriptions) 57 31 594
    Идентификатор БД MNMA_METPB 2ZC8 YP_001470352.1
    E-value 0.71 0.46 0.99
    Вес (в битах) 34.7 31.2 38.5
    % идентичности 25/74 (33%) 42/153 (27%) 65/284 (22%)
    % сходства 37/74 (50%) 62/153 (40%) 113/284 (39%)
    Длина выравнивания 74 153 284
    Координаты выравнивания (номера первых и последних а.о.) Query: 164 - 235;
    Sbjct: 153 - 222
    Query: 142 - 289;
    Sbjct: 169 - 310
    Query: 27 - 279;
    Sbjct: 29 - 307
    % гэпов 6/74 (8%) 16/153 (10%) 36/284 (12%)
    Краткий комментарий к таблице:

    • Удалось ли найти изучаемый белок в Swiss-Prot и "nr", а его структуру в PDB? Да, удалось. Структура в PDB - 1FHV, 1FHU.

    • Сравним параметры выравнивания изучаемого белка с самим собой при поиске по разным БД. Вообще-то параметры не отличаются. Во всех трёх местах мы видим

      Score = 647 bits (1669), Expect = 0.0, Method: Compositional matrix adjust. Identities = 320/320 (100%), Positives = 320/320 (100%), Gaps = 0/320 (0%). Несколько различается содержание исходных данных о белке:

      БД Swiss-Prot: sp|P29208.2|MENC_ECOLI RecName: Full=o-succinylbenzoate synthase; Short=OSB synthase; Short=OSBS; AltName: Full=4-(2'-carboxyphenyl)-4-oxybutyric acid synthase; AltName: Full=o-succinylbenzoic acid synthase Length=320

      БД PDB: pdb|1FHU|A Related structures Chain A, Crystal Structure Analysis Of O-Succinylbenzoate Synthase From E. Coli Length=320

      БД "nr":14 more sequence titles Length=320 GENE ID: 946734 menC | o-succinylbenzoyl-CoA synthase [Escherichia coli str. K12 substr. MG1655]

    • Сравним число потенциальных гомологов при поиске по разным БД

    • БД Swiss-Prot: 10 БД PDB: 2
      БД "nr": 11
      Различия обусловлены охватом разных данных этими БД. Например, в Swiss-Prot попадают только белки с проверенной последовательностью, в PDB - с известной пространственной структурой, в "nr" - с непроверенными данными.

    • Сравним "худшие" находки при поиске по разным БД: совпадают ли они?
      БД Swiss-Prot: средние значения параметров сходства, средние из 3х значение длины выравнивания, вес.
      БД PDB: самые низкие показатели по длине выравнивания, весу, процентам сходства и идентичности и пр.; самый маленький номер
      БД "nr": самый большой номер, самые большие вес, проценты идентичности, схожести, самые протяжённые координаты, 0% гэпов.
      Самой хорошей из худших получается находка в БД "nr". Это обусловлено большим количеством белков этой базе данных, большей обширностью данных. В PDB относительно мало белков по сравнению с ней - соответственно, меньший номер и низкие показатель. Swiss-Prot демонстрирует некоторое "совмещение количества и качества".

  3. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
  4. Задача — для изучаемого белка E. coli найти лучшего гомолога в организмах таксона, филогенетически как можно более далекого от E. coli.
    Для исследования предлагаются следующие таксоны: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae (приведены в порядке приближения к E. coli). В этом же порядке проверяем на наличие гипотетического гомолога (критерий: E-value<0,001). Как только найден первый такой гомолог, прекращаем поиск. Опишем результаты поиска по той же схеме, по которой описывали "худшую" находку в табл.1:
    2. Гипотетические гомологи (E-value<0,001).
    Организм Homo sapiens Archaea Actinobacteria Alteromonadales Vibrionaceae
    Номер находки в списке описаний (Descriptions) единственная находка, E-value = 5.3 - нам не подходит нет находок с E-value<0,001; расписывать, как с человеком не буду 1, 2, 3, 4 с E-value<0,001 всё, подходящий гомолог найден.)
    Идентификатор БД YS047_HUMAN - MENC_MYCLE -
    E-value 5.3 - нам не подходит - 2e-06 -
    Вес (в битах) 28.5 - 48.1 -
    % идентичности 19/69 (27%) - 49/159 (30%) -
    % сходства 32/69 (46%) - 73/159 (45%) -
    Длина выравнивания 69 - 159 -
    Координаты выравнивания (номера первых и последних а.о.) Query: 171 - 239;
    Sbjct: 263 - 329
    - Query: 121 - 272;
    Sbjct: 95 - 243
    -
    % гэпов 2/69 (2%) - 17/159 (10%) -

  5. Поиск белка по его фрагменту
  6. На первом занятии блока мы сравнивали фрагмент заданного белка с фрагментом неизвестного белка. Сейчас наша задача — определить, из какого белка был взят второй фрагмент, и получить его полную последовательность в формате FASTA.
    Для этого на страничке запроса BLASTP вводим в окошко "Query sequence" нужный фрагмент и проводим поиск по Swiss-Prot, по результатам поиска заполняем первый столбец табл.2
    Затем получаем полную последовательность найденного белка любым уже известным нам способом: с помощью SRS или с помощью программы seqret. Последовательность можно получить также прямо cо странички выдачи BLAST.
    Swiss-Prot ID: CP001139
    AC: CP001139
    Проведём поиск полной полученной последовательности в Swiss-Prot и заполним второй столбец.
    Различия между результатами поиска по полной последовательности и по ее фрагменту: в случае полной последовательноти уже круг найденных белков с хорошим E-value, отличаются вес и E-value у первого белка списка выдачи - того, которому принадлежит фрагмент. В поиске по фрагменту эти значения на порядок меньше, ибо чем меньше последовательность, тем больше вероятность её случайного совпадения с другими последовательностями банка, следовательно, хотя E-value, выдаваемое для белка, найденного по фрагменту достаточно мало, оно всё же далеко от нуля, который выдаётся при задании полной последовательности.
    Нашла на листе выдачи последнего поиска выравнивание с изучаемым белком из E. coli.

    Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки MENC_VIBFM, (MENC_VIBF1 - такие же параметры) MENC_VIBFM, (MENC_VIBF1)
    E-value 9e-15 0.0
    Вес (в битах) 77.0 664
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    да, указала этот белок в скобках да, указала этот белок в скобках

  7. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

  8. Оптимальное глобальное выравнивание, needle:
    MENC_VIBFM         1 MKTAKIYQYQLPMDSGVILREQRLQQRDGLVIELSDGIHTARGEVAPLPE     50
                         |::|::|::|:|||:||:||::||:.||||.:.|.:|.....||::|||.
    MENC_ECOLI         1 MRSAQVYRWQIPMDAGVVLRDRRLKTRDGLYVCLREGEREGWGEISPLPG     50
    
    MENC_VIBFM        51 FSQETLEQAREDLISLTQSWLNNE-ELDLDSNCPSVAFGFSMALLELEKQ     99
                         |||||.|:|:..|::...:||..: ||   ...||||||.|.||.||...
    MENC_ECOLI        51 FSQETWEEAQSVLLAWVNNWLAGDCEL---PQMPSVAFGVSCALAELTDT     97
    
    MENC_VIBFM       100 LPQEGNYQAAPLCSGDPDDLVVKLNEMSGKKIAKIKVGLYEPIRDGMVVN    149
                         |||..||:|||||:||||||::||.:|.|:|:||:||||||.:|||||||
    MENC_ECOLI        98 LPQAANYRAAPLCNGDPDDLILKLADMPGEKVAKVKVGLYEAVRDGMVVN    147
    
    MENC_VIBFM       150 MFLELISDLSLRLDANRGWTTKKAEQFANYIHPQFRSRIEFLEEPCTTPE    199
                         :.||.|.||.|||||||.||..|.:|||.|::|.:|.||.||||||.|.:
    MENC_ECOLI       148 LLLEAIPDLHLRLDANRAWTPLKGQQFAKYVNPDYRDRIAFLEEPCKTRD    197
    
    MENC_VIBFM       200 ESLAFSKATNIAIAWDETVRDDGFTVETQEGVAAIVIKPTLVGSVEKCIS    249
                         :|.||::.|.|||||||::|:..|....:|||.|:||||||.||:||...
    MENC_ECOLI       198 DSRAFARETGIAIAWDESLREPDFAFVAEEGVRAVVIKPTLTGSLEKVRE    247
    
    MENC_VIBFM       250 LIEQAHQLGMQAVISSSIESSLALTQLARLAAWKTPETIPGLDTIDLFKM    299
                         .::.||.||:.|||||||||||.||||||:|||.||:|||||||:||.:.
    MENC_ECOLI       248 QVQAAHALGLTAVISSSIESSLGLTQLARIAAWLTPDTIPGLDTLDLMQA    297
    
    MENC_VIBFM       300 QLDTSWPNCDLPVAQLADLEVIWEN    324
                         |....||...|||.::..||.:.  
    MENC_ECOLI       298 QQVRRWPGSTLPVVEVDALERLL--    320


    Локальное выравнивание, water:
    MENC_VIBFM         1 MKTAKIYQYQLPMDSGVILREQRLQQRDGLVIELSDGIHTARGEVAPLPE     50
                         |::|::|::|:|||:||:||::||:.||||.:.|.:|.....||::|||.
    MENC_ECOLI         1 MRSAQVYRWQIPMDAGVVLRDRRLKTRDGLYVCLREGEREGWGEISPLPG     50
    
    MENC_VIBFM        51 FSQETLEQAREDLISLTQSWLNNE-ELDLDSNCPSVAFGFSMALLELEKQ     99
                         |||||.|:|:..|::...:||..: ||   ...||||||.|.||.||...
    MENC_ECOLI        51 FSQETWEEAQSVLLAWVNNWLAGDCEL---PQMPSVAFGVSCALAELTDT     97
    
    MENC_VIBFM       100 LPQEGNYQAAPLCSGDPDDLVVKLNEMSGKKIAKIKVGLYEPIRDGMVVN    149
                         |||..||:|||||:||||||::||.:|.|:|:||:||||||.:|||||||
    MENC_ECOLI        98 LPQAANYRAAPLCNGDPDDLILKLADMPGEKVAKVKVGLYEAVRDGMVVN    147
    
    MENC_VIBFM       150 MFLELISDLSLRLDANRGWTTKKAEQFANYIHPQFRSRIEFLEEPCTTPE    199
                         :.||.|.||.|||||||.||..|.:|||.|::|.:|.||.||||||.|.:
    MENC_ECOLI       148 LLLEAIPDLHLRLDANRAWTPLKGQQFAKYVNPDYRDRIAFLEEPCKTRD    197
    
    MENC_VIBFM       200 ESLAFSKATNIAIAWDETVRDDGFTVETQEGVAAIVIKPTLVGSVEKCIS    249
                         :|.||::.|.|||||||::|:..|....:|||.|:||||||.||:||...
    MENC_ECOLI       198 DSRAFARETGIAIAWDESLREPDFAFVAEEGVRAVVIKPTLTGSLEKVRE    247
    
    MENC_VIBFM       250 LIEQAHQLGMQAVISSSIESSLALTQLARLAAWKTPETIPGLDTIDLFKM    299
                         .::.||.||:.|||||||||||.||||||:|||.||:|||||||:||.:.
    MENC_ECOLI       248 QVQAAHALGLTAVISSSIESSLGLTQLARIAAWLTPDTIPGLDTLDLMQA    297
    
    MENC_VIBFM       300 QLDTSWPNCDLPVAQLADLE    319
                         |....||...|||.::..||
    MENC_ECOLI       298 QQVRRWPGSTLPVVEVDALE    317


    Выравнивание MENC_ECOLI с MENC_VIBFM c помощью BLASTP:
    Query  1    MRSAQVYRWQIPMDAGVVLRDRRLKTRDGLYVCLREGEREGWGEISPLPGFSQETWEEAQ  60
                M++A++Y++Q+PMD+GV+LR++RL+ RDGL + L +G     GE++PLP FSQET E+A+
    Sbjct  1    MKTAKIYQYQLPMDSGVILREQRLQQRDGLVIELSDGIHTARGEVAPLPEFSQETLEQAR  60
    
    Query  61   SVLLAWVNNWLAGDCEL---PQMPSVAFGVSCALAELTDTLPQAANYRAAPLCNGDPDDL  117
                  L++   +WL  + EL      PSVAFG S AL EL   LPQ  NY+AAPLC+GDPDDL
    Sbjct  61   EDLISLTQSWLNNE-ELDLDSNCPSVAFGFSMALLELEKQLPQEGNYQAAPLCSGDPDDL  119
    
    Query  118  ILKLADMPGEKVAKVKVGLYEAVRDGMVVNLLLEAIPDLHLRLDANRAWTPLKGQQFAKY  177
                ++KL +M G+K+AK+KVGLYE +RDGMVVN+ LE I DL LRLDANR WT  K +QFA Y
    Sbjct  120  VVKLNEMSGKKIAKIKVGLYEPIRDGMVVNMFLELISDLSLRLDANRGWTTKKAEQFANY  179
    
    Query  178  VNPDYRDRIAFLEEPCKTRDDSRAFARETGIAIAWDESLREPDFAFVAEEGVRAVVIKPT  237
                ++P +R RI FLEEPC T ++S AF++ T IAIAWDE++R+  F    +EGV A+VIKPT
    Sbjct  180  IHPQFRSRIEFLEEPCTTPEESLAFSKATNIAIAWDETVRDDGFTVETQEGVAAIVIKPT  239
    
    Query  238  LTGSLEKVREQVQAAHALGLTAVISSSIESSLGLTQLARIAAWLTPDTIPGLDTLDLMQA  297
                L GS+EK    ++ AH LG+ AVISSSIESSL LTQLAR+AAW TP+TIPGLDT+DL + 
    Sbjct  240  LVGSVEKCISLIEQAHQLGMQAVISSSIESSLALTQLARLAAWKTPETIPGLDTIDLFKM  299
    
    Query  298  QQVRRWPGSTLPVVEVDALE  317
                Q    WP   LPV ++  LE
    Sbjct  300  QLDTSWPNCDLPVAQLADLE  319
    

    Сопоставление аминокислотных остатков во всех трёх выравниваниях совпадает. Единственное отличие - выравнивание, сделанное программой needle, включает в себя все остатки обеих последовательностей и поэтому длиннее на 5 колонок, чем 2 других. Дело в том, что needle - программа полного выравнивания, тогда как water и blastp - частичного.



К блоку
Ко 2му семестру
На главную



© Шишкова Настя, 2008