vkВконтакте
kodomoallakarpova@kodomo.fbb.msu.ru
GMailvseokeyboss@gmail.com
Учебный сайт
   Карповой Аллы
Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку ybbD_BACSU


Сравнение матриц аминокислотных замен.

Матрицы весов аминокислотных замен позволяют оценить насколько хорошо то или иное выравнивание. Они строятся на основе баз данных аминокислотных последовательностей. Положительные числа в матрице указывают на высокую вероятность такой замены, отрицательные - на низкую.
Существуют несколько матриц. Матрица BLOSUM62 создана по базе данных BLOCKS, где собраны в основном цитоплазматические белки. Число 62, так называемый порог кластеризации, показывает, начиная с какого процента схожести, последовательности считаются идентичными, их объединяют в кластеры и рассматривают в едином кластере, чтобы не сдвинуть вероятности.
Мембранные белки обладают иным содержанием аминокислот, следовательно матрица BLOSUM62 плохо описывает выравнивания таких белков. Так была создана матрица PHAT, основанная на встречаемости аминокислот в трансмембранных белках.

На основе базы данных BLOCKS мною была реконструированна матрица BLOSUM. Все рассчеты и последовательно полученные матрицы можно посмотреть здесь. В целом матрицы (моя и BLOSUM62) очень схожи. Положительные значения одной соответствуют положительным значениям другой, отрицательные - отрицательным. Для наглядности рассмотрим веса замен аспарагина на другие аминокислоты по трем матрицам (Табл.1)
Таблица весов замен ASN Табл.1. Сравнение весов замен аминокислот из матриц BLOSUM62, PHAT и из личной.

  1. Вес замены аспарагина на самого себя по таблице PHAT отличается от веса по таблицам BLOSUM (62 и моей) почти в 2 раза (11 и 6 соответственно). Таблица PHAT составляется для трансмембранных белков, где, видимо, сильно сдвинута частота встречаемости и замены аминокислот и аспарагина в том числе. Видимо,наблюдаемая частота встречаемости аспарагина больше ожидаемой, значит аспарагин чаще заменяется на самого себя, вот и вес замены больше. Вообще трансмембранные белки консервативны в своей структуре, поэтому важно не принебрегать такой полярной и незаряженной аминокислотой, как аспарагин.
  2. Замена на схожие аминокислоты. Аспарагин по радикалу относится к незаряженным полярным аминокислотам. Вес замены на крайне похожий глютамин по матрицам blosum равен 0, а по матрице PHAT на 2 единицы больше. Опять-таки это можно связать с общей консервативностью структуры мембранных белков, для которых важно, чтобы полярная и незаряженная аминокислота заменилась на похожую да и ещё с такой же функциональной группой. Странно, но замена на Тирозин оказывается выгодной по матрице PHAT (2) и не выгодной по моей матрице (-1) и матрице blosum62 (-2). Asn и Tyr объединяет полярный радикал, но разнит ароматическое строение тирозина. Видимо, в трансмембранных белках важна полярность/гидрофобность, а не алифатичность/ароматичность. Замена на серин одинакова по blosum62 и PHAT (1) и равна 0 по моей матрице. На треонин аспарагин хуже заменять в трансмембранных белках, чем в цитоплазматических, может быть полярную -ОН группу треонина закрывает -СН3, что делает его чуть больше гидрофобным, чем ASN. Можно заметить, что на гистидин хорошо заменяется аспарагин. Я думаю, это связано с тем, что HIS незаряжен при клеточном рН (рК=6), следовательно, является полярной и незаряженной аминокислотой.
  3. Замена на противоположные по химическим свойствам аминокислоты. Замена на PHE (гидрофобная ароматика) не выгодна как по матрицам BLOSUM (-2), так и по PHAT (-4). По PHAT наименее выгодна, т.к. гидрофобная аминокислота не должна быть в гидрофильной части трансмембранного белка (где обычно располагается полярный аспарагин). Вредны для трансмембранных замены и на +заряженные лизин и аргинин. Вес замены по матрцам BLOSUM равен 0 (по моей матрице вес замены на аргинин -1), а по PHAT вес замены на лизин и аргинин равен -2 и -3 соответственно. Появление + вместо нулевого заряда может помешать (почти всегда)белку встроиться в мембрану и выполнять свою функцию. Для цитоплазматических это может быть не так критично, если замена произошла не в стратегически важном месте, конечно.

Вообще различия между моей матрицей и матрицей BLOSUM62 незначительны, если судить по заменам аспарагина. Для 12 аминокислот веса замен одинаковы, для всех остальных отличаются на единицу, за исключением цистеина. BLOSUM62 составлась давно, много белков с тех пор описано и геномов секвенировано, из-за новых данных изменилась встречаемость аминокислот. Расхождения возможны ещё и потому, что мы не рассчитывали вес для ГЭПов и B,Z,X, из-за чего вероятности исказились.

Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана

Алгоритм Нидлмана-Вунша направлен на выравнивание целой последовательности с нахождением наибольшего процента схожести. По этому алгоритму работает команда needle пакета EMBOSS.

Алгоритм Смита-Ватермана выравнивает куски последовательностей. Этот алгоритм реализует команда water пакета EMBOSS.
Обе команды имеют параметры штрафа за один ГЭП (от 0 до 100) и за последующие ГЭПы, если они идут непрерывно (от 0 до 10). По умолчанию первый параметр имеет значение 10, второй - 0,5. Для подсчета веса выравнивания по умолчанию используется матрица BLOSUM62.

Мною были получены при помощи скрипта evolve_protein.pl 3 изменных последовательности из 20 аминокислот из последоватльности белка ybbd_bacsu.

  • Change=0.6 Replace=0.6
    Выравнивание вручную:


    1) Length - 20 (645 в целом)
    2) Identity - 55% (1,7% в пересчете на длину белка)
    3) Similarity - 55% (1,7% в пересчете на длину белка)
    4) Score - 32.
    			
    Выравнивание needle

    YBBD_BACSU       451 KGSRILIVAPYEEQTASIEQTIHDLIKRKKIKPVSLSKMNFASQVFKTEH    500
                                                                          |
    generations=1      1 -------------------------------------------------H      1
    
    YBBD_BACSU       501 EKQ-VKEADYIIT--GSYVVKNDPVVNDGVIDDTISDSSKWATVFPRAVM    547
                         .|| .:|||.|.|  ..||                               
    generations=1      2 VKQRPEEADNINTCISMYV-------------------------------     20
    
    1)Length: 645
    2)Identity:      10/645 ( 1.6%)
    3)Similarity:    11/645 ( 1.7%)
    4)Gaps:         628/645 (97.4%)
    5)Score: 23.5
    			
    Выравнивание water

    YBBD_BACSU       500 HEKQ-VKEADYIIT    512
                         |.|| .:|||.|.|
    generations=1      1 HVKQRPEEADNINT     14
    
    1)Length: 14
    2)Identity:       8/14 (57.1%)
    3)Similarity:     9/14 (64.3%)
    4)Gaps:           1/14 ( 7.1%)
    5)Score: 24.0
    			
  • Change=0.6 Replace=0.8
    Выравнивание вручную:


    1) Length - 21 (642 в целом)
    2) Identity - 43% (1,4% в пересчете на длину белка)
    3) Similarity - 43% (1,4% в пересчете на длину белка)
    4) Score - 24.
    		   
    Выравнивание needle

    YBBD_BACSU       351 SVTSLKEEQKFARVIQALKEAVKNGDIPEQQINNSVERIISLKIKRGMYP    400
                              |:|.|...::..|.|.::..                         
    generations=1      1 -----KKEGKIQFMLMQLHEGIETM-------------------------     20
    
    1)Length: 642
    2)Identity:       5/642 ( 0.8%)
    3)Similarity:    10/642 ( 1.6%)
    4)Gaps:         622/642 (96.9%)
    5)Score: 21.0
    		   
    Выравнивание water

    YBBD_BACSU       356 KEEQKFARVIQALKEAVK    373
                         |:|.|...::..|.|.::
    generations=1      1 KKEGKIQFMLMQLHEGIE     18
    
    1)Length: 18
    2)Identity:       5/18 (27.8%)
    3)Similarity:    10/18 (55.6%)
    4)Gaps:           0/18 ( 0.0%)
    5)Score: 24.0
    		   
  • Change=0.4 Replace=0.8
    Выравнивание вручную:


    1) Length - 20 (644 в целом)
    2) Identity - 70% (2,2% в пересчете на длину белка)
    3) Similarity - 75% (2,3% в пересчете на длину белка)
    4) Score - 65.		   
    		   
    Выравнивание needle

    YBBD_BACSU       101 QTVQLTDDYQKASPKIPLMLSIDQEGGIV-TRLGEG-TNFPGNMALGAAR    148
                                             |.||||||| ||:.|| .||          
    generations=1      1 --------------------SCDQEGGIVRTRMIEGFLNF----------     20
    
    1)Length: 644
    2)Identity:      14/644 ( 2.2%)
    3)Similarity:    15/644 ( 2.3%)
    4)Gaps:         626/644 (97.2%)
    5)Score: 49.0
    		   
    Выравнивание water

    YBBD_BACSU       121 SIDQEGGIV-TRLGEG-TNF    138
                         |.||||||| ||:.|| .||
    generations=1      1 SCDQEGGIVRTRMIEGFLNF     20
    
    1)Length: 20
    2)Identity:      14/20 (70.0%)
    3)Similarity:    15/20 (75.0%)
    4)Gaps:           2/20 (10.0%)
    5)Score: 49.0
    		   

© Алла Карпова

Дата последнего редактирования: 01.04.2013

Valid HTML 4.01 Transitional Правильный CSS!