Учебный сайт Смирновой Виктории

Главная Проекты Семестры


Программа BLASTP

web-интерфейс к BLASTP на сервере NCBI: http://www.ncbi.nlm.nih.gov/blast/.
  1. Поиск гипотетических гомологов изучаемого белка в разных БД.

    Таблица 1. Результаты поиска гипотетических гомологов белка GLUQ_ECOLI

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (в принципе должна соответствовать заданному белку)
    Идентификатор БД GLUQ_ECOLI 1NZJ NP_414686.2
    E-value 2e-175 1e-176 3e-174
    Вес (в битах) 614 614 614
    % идентичности 100% 100% 100%
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
    Нет Нет Нет
    2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 595 7 2072
    2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
    Номер находки в списке описаний (Descriptions) 668 17 2782
    Идентификатор БД SYQ_XANCP 1IQ0 ZP_02007183.1
    E-value 0.66 0.73 1.0
    Вес (в битах) 34.7 30.4 38.1
    % идентичности 24% 39% 29%
    % сходства 40% 52% 49%
    Длина выравнивания 105 63 65
    Координаты выравнивания (номера первых и последних а.о.) 9 - 113 13 - 73 7 - 71
    % гэпов 0% 7% 0%

    Мой белок нашелся во всех трех БД. Видно, что вес и длина его выравнивания с самим собой, естественно, одинаковые, но различаются значения E-value.
    E = K*l*L*n-λS,
    где S - вес выравнивания (Score), l - длина последовательности, L - объем банка, параметры К и λ - натуральные величины, характеризующие размер области поиска и систему оценки соответственно. Т. е. значения E-value получились разными из-за различного размера баз данных.
    Количество гомологов для каждой из БД также различно, что тоже связано с их размерами: nr - самая большая БД, SwissProt - довольно обширная, но гораздо меньше, т. к. в ней содержатся только проверенные данные, PDB - самая маленькая БД, т. к. точная третичная структура известна для сравнительно небольшого числа белков. Опять же из-за разных размеров области поиска не совпадают и "худшие" находки: с одной стороны, потому что они находились по E-value (разница в разных БД уже обсуждалась выше), с другой стороны, потому что найденный в одной БД белок может просто отсутствовать в другой.
    Лучшими из худших я бы считала находки из SwissProt и nr. Первое выравнивание имеет наибольшую длину, не сильно меньший по сравнению с другими вес и ни одного гэпа. У находки из nr наибольшие вес, идентичность и сходство, также нет гэпов, но длина выравнивания вдвое меньше.

  2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

    Гомологи были найдены во всех таксонах.

    Таблица 2. Результаты поиска гомологов белка в различных таксонах.

    Таксон Homo sapiens Archaea Actinobacteria Alteromonadales Vibrionaceae
    Идентификатор БД SYEM_HUMAN SYE_META3 GLUQ_COREF GLUQ_SHEAM SYE_VIBHB
    E-value 1e-34 4e-25 3e-46 1e-87 2e-38
    Вес (в битах) 143 110 180 317 139
    % идентичности 35% 30% 44% 55% 32%
    % сходства 51% 46% 59% 71% 48%
    Длина выравнивания 249 297 252 285 301
    Координаты выравнивания (номера первых и последних а.о.) 9 - 232 7 - 276 8 - 238 1 - 284 9 - 292
    % гэпов 10% 12% 11% 2% 6%


  3. Поиск белка по его фрагменту.

    С помошью BLASTP был определен белок, из которого был взят фрагмент. Его AC - A6VCH9, ID в UniProt - GLUQ_PSEA7.
    Полная последовательность в формате fasta.

    Таблица 3. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки GLUQ_PSEA7 GLUQ_PSEA7
    E-value 3e-12 6e-167
    Вес (в битах) 68.5 586
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Да, еще 3, например, GLUQ_PSEPK Нет


    Фрагмент белка был найден в нескольких последовательностях. Среди них нет совпадающих, поэтому поиск по полной последовательности дал только один лучший результат. Значение E-value при поиске по полной последовательности резко уменьшилось за счет возрастания веса (т. к. E = K*l*L*nS).

    Выравнивание найденного белка с моим:
    
    	Query  3    SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREVPGAQRAILET  62
    	            + Y+GRFAP+PSG LHFGSL+AA+ SYL ARA  GRWLVR+ED+DPPREVPGA   IL  
    	Sbjct  4    TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAETILRQ  63
    	
    	Query  63   LERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTCSRKQLEDFAGIYPGFCRDAG  122
    	            LE YG  WDG V  QS+R  AY   +  L   GL+Y CTC+R +++   GIY G CR   
    	Sbjct  64   LEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRARIQSIGGIYDGHCRVLH  123
    	
    	Query  123  HARDDAAIRLRVPELEYRFVDRVQGEVC--QHLGREVGDFVIQRRDGLYAYQLAVVLDDA  180
    	            H  D+AA+R+R      +F D+++G +   + L RE  DF+I RRDGL+AY LAVV+DD 
    	Sbjct  124  HGPDNAAVRIRQQHPVTQFTDQLRGIIHADEKLARE--DFIIHRRDGLFAYNLAVVVDDH  181
    	
    	Query  181  WQGITDIVRGADLLDSTPRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAE  240
    	            +QG+T+IVRGADL++ T RQ+ L +L G   P Y+H+PL + P G KL K   +P LP  
    	Sbjct  182  FQGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKG  241
    
    	Query  241  QAAVPLTRALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATL  288
    	                 L  AL+ LGQ+  A   + S  + L   V +W  T +P  A +
    	Sbjct  242  DPRPVLIAALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIV  289
    
    
    Мое пробное выравнивание:
    	
    
    
    Жирным шрифтом я выделила фрагмент, который выравнивала в прошлый раз. Выравнивания полностью совпадают.

  4. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

    При помощи needle было получено глобальное выравнивание тех же белков, с помощью water - локальное (штраф за открытие пропуска - 11.0, за продолжение - 1.0, как и в BLASTP). Сравним три выравнивания:
    
    needle
    
     Length: 300
     Identity:     142/300 (47.3%)
     Similarity:   185/300 (61.7%)
     Gaps:           9/300 ( 3.0%)
     Score: 688.0 
    
    
    	GLUQ_PSEA7         1 MT-SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPP     49
    	                     || :.|:|||||:|||.||||||:||:.|||.|||..||||||:||:|||
    	GLUQ_ECOLI         1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP     50
    
    	GLUQ_PSEA7        50 REVPGAQRAILETLERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYA     99
    	                     ||||||...||..||.||..|||.|..||:|..||...:..|...||:|.
    	GLUQ_ECOLI        51 REVPGAAETILRQLEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYY    100
    
    	GLUQ_PSEA7       100 CTCSRKQLEDFAGIYPGFCRDAGHARDDAAIRLRVPELEYRFVDRVQG--    147
    	                     |||:|.:::...|||.|.||...|..|:||:|:|......:|.|:::|  
    	GLUQ_ECOLI       101 CTCTRARIQSIGGIYDGHCRVLHHGPDNAAVRIRQQHPVTQFTDQLRGII    150
    
    	GLUQ_PSEA7       148 EVCQHLGREVGDFVIQRRDGLYAYQLAVVLDDAWQGITDIVRGADLLDST    197
    	                     ...:.|.||  ||:|.|||||:||.||||:||.:||:|:|||||||::.|
    	GLUQ_ECOLI       151 HADEKLARE--DFIIHRRDGLFAYNLAVVVDDHFQGVTEIVRGADLIEPT    198
    
    	GLUQ_PSEA7       198 PRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAEQAAVPLT    247
    	                     .||:.|.:|.|...|.|:|:||.:.|.|.||.|...:|.||.......|.
    	GLUQ_ECOLI       199 VRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKGDPRPVLI    248
    
    	GLUQ_PSEA7       248 RALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATLPEESL----    293
    	                     .||:.|||:..|...:.|..:.|...|.:|..|.:|..|.:.....    
    	GLUQ_ECOLI       249 AALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIVNSTFSNASC    298
    
    
    
    water
    
     Length: 286
     Identity:     140/286 (49.0%)
     Similarity:   182/286 (63.6%)
     Gaps:           4/286 ( 1.4%)
     Score: 696.0
    
    
    	GLUQ_PSEA7         3 SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREV     52
    	                     :.|:|||||:|||.||||||:||:.|||.|||..||||||:||:||||||
    	GLUQ_ECOLI         4 TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREV     53
    
    	GLUQ_PSEA7        53 PGAQRAILETLERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTC    102
    	                     |||...||..||.||..|||.|..||:|..||...:..|...||:|.|||
    	GLUQ_ECOLI        54 PGAAETILRQLEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTC    103
    
    	GLUQ_PSEA7       103 SRKQLEDFAGIYPGFCRDAGHARDDAAIRLRVPELEYRFVDRVQG--EVC    150
    	                     :|.:::...|||.|.||...|..|:||:|:|......:|.|:::|  ...
    	GLUQ_ECOLI       104 TRARIQSIGGIYDGHCRVLHHGPDNAAVRIRQQHPVTQFTDQLRGIIHAD    153
    
    	GLUQ_PSEA7       151 QHLGREVGDFVIQRRDGLYAYQLAVVLDDAWQGITDIVRGADLLDSTPRQ    200
    	                     :.|.||  ||:|.|||||:||.||||:||.:||:|:|||||||::.|.||
    	GLUQ_ECOLI       154 EKLARE--DFIIHRRDGLFAYNLAVVVDDHFQGVTEIVRGADLIEPTVRQ    201
    
    	GLUQ_PSEA7       201 LYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAEQAAVPLTRAL    250
    	                     :.|.:|.|...|.|:|:||.:.|.|.||.|...:|.||.......|..||
    	GLUQ_ECOLI       202 ISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKGDPRPVLIAAL    251
    
    	GLUQ_PSEA7       251 RALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRA    286
    	                     :.|||:..|...:.|..:.|...|.:|..|.:|..|
    	GLUQ_ECOLI       252 QFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESA    287
    
    
    
    BLASTP
    
     Length: 288
     Identity:   140/288 (48%)
     Similarity: 184/288 (63%)
     Gaps:         4/288 (1%)
     Score: 270 bits (689)
    
    
    	Query  3    SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREVPGAQRAILET  62
    	            + Y+GRFAP+PSG LHFGSL+AA+ SYL ARA  GRWLVR+ED+DPPREVPGA   IL  
    	Sbjct  4    TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAETILRQ  63
    
    	Query  63   LERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTCSRKQLEDFAGIYPGFCRDAG  122
    	            LE YG  WDG V  QS+R  AY   +  L   GL+Y CTC+R +++   GIY G CR   
    	Sbjct  64   LEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRARIQSIGGIYDGHCRVLH  123
    
    	Query  123  HARDDAAIRLRVPELEYRFVDRVQGEVC--QHLGREVGDFVIQRRDGLYAYQLAVVLDDA  180
    	            H  D+AA+R+R      +F D+++G +   + L RE  DF+I RRDGL+AY LAVV+DD 
    	Sbjct  124  HGPDNAAVRIRQQHPVTQFTDQLRGIIHADEKLARE--DFIIHRRDGLFAYNLAVVVDDH  181
    
    	Query  181  WQGITDIVRGADLLDSTPRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAE  240
    	            +QG+T+IVRGADL++ T RQ+ L +L G   P Y+H+PL + P G KL K   +P LP  
    	Sbjct  182  FQGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKG  241
    
    	Query  241  QAAVPLTRALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATL  288
    	                 L  AL+ LGQ+  A   + S  + L   V +W  T +P  A +
    	Sbjct  242  DPRPVLIAALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIV  289
    
    
    В первую очередь, все три выравнивания отличаются длиной. Самое длинное - проведенное программой needle глобальное выравнивание. В выравнивании BLASTP нет первых двух и последних 9 колонок. Заметим, что в выравнивании needle только в этих колонках содержится 5 гэпов, а остальные 4 находятся в части выравнивания, присутствующей в выравнивании BLASTP, в котором также 4 гэпа. Столько же гэпов и в выравнивании water, которое короче выравнивания BLASTP на 2 последних колонки.
    Выравнивания удобно сравнивать, если найти эти самые 4 гэпа. Во всех трех вариантах выравнивания 2 из этих гэпов вставлены в одну последовательность, 2 - в другую. Если выделить область, слева ограниченную самым первым из пропусков (первый пропуск из двух пробелов в последовательности GLUQ_PSEA7 в water и needle) и включающую его, а справа - первым пропуском в BLASTP, также включающую его. Второй пропуск во всех вариантах расположен в одном месте, поэтому вправо и влево от выделенной области выравнивания идентичны за исключением "обрезанных" частей.
    Теперь сравним выделенные участки. Различия в них могут определяться только положением пропуска. Этот пропуск из двух пробелов в последовательности GLUQ_PSEA7 в water и needle вставлен на 3 буквы раньше, чем в BLASTP, из-за чего и возникают расхождения - "сдвиг" участка последовательности GLUQ_PSEA7 на 2 вправо по сравнению с ее положением в BLASTP, который затем компенсируется вставкой такого же пропуска. Т. к. сдвигается совсем небольшой участок - 3 буквы - разница получается всего в одну замену V-I, которая есть в варианте BLASTP и отсутствует в двух других. Такое незначительное расхождение выравниваний говорит о высоком сходстве белков.
    Основное же различие в численных параметрах выравниваний - весе, сходстве, идентичности - обусловлены различной длиной выравнивания.


© Smirnova Victoriya, 2008