Мембранные белки

 
     

 

1. Построение парного выравнивания исследуемого белка и заданного прототипа

С помощью SRS в БД Uniprot по AC P04191 была найдена последовательность кальциевой АТФазы. В базе данных PDB была найдена последовательность этого же белка (pdb-код 1SU4), для которой приведены результаты рентгеноструктурного анализа. Эти последовательности не идентичны, как и предполагалось. Выравнивание приведено здесь
Процент идентичности - 99.2%. Как видно из выравнивания, последовательности отличаются лишь тем, что та, что дана в PDB, короче на 7 аминокислотных остатков (возможно, "хвост" оторвался в процессе экстракции белка), а также различаются 994й с начала аминокислотный остаток.
В БД Uniprot получила последовательность изучаемого белка - Q7ZXY6_XENLA (кальциевая АТФ-аза африканской когтистой лягушки Xenopus laevis).
Выравнивание было сделано с помощью программы needle со стандартными параметрами (штраф за открытие гэпа - 10, штраф за продолжение гэпа - 0,5). 89.3% - довольно большой процент сходства. Да и сами последовательности различаются по длине всего на 2 аминокислотных остатка.
Готовое выравнивание импортировала в GeneDoc и сохранила в файле под названием marking.msf

2,3. Разметка мембранных сегментов на выравнивании и предсказание топологии заданного белка с помощью программы TMHMM

В БД OPM (Orientations of Proteins in Membranes database) по pdb-коду белка-прототипа (1SU4) нашла описание ориентации белка в мембране . Он является трансмембраным белком, в его структуру входит альфа-спираль, относится к суперсемейству фосфорных АТФаз и семейству кальциевых АТФаз.

Данной программе на вход была подана последовательность моего белка в fasta-формате. Программа выдала следующий вариант локализации белка в мембране:

К выравниванию в файле marking.msf было добавлено еще 2 последовательности. Последовательность OPM представляет является предсказанием локализации моего белка в мембране по данным белка-прототипа, то есть описывает участки последовательности, находящиеся в мембране (мембранные сегменты показаны буквой H), цитоплазме (знаки +), или снаружи мембраны (знаки -). Последовательность TMHMM для изучаемого мною белка создана по данным сервера TMHMM. (опции по умолчанию) Участки белковой последовательности различной локализации указаны по тому же принципу, что и в последовательности OPM.

Ниже приведено выравнивание и последовательности OPM и TMHMM.

                                                                                                                                                                                                       
                                            *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0              
1 S U 4               :   M E A A H S K S T E E C L A Y F G V S E T T G L T P D Q V K R H L E K Y G H N E L P A E E G K S L W E L V I E Q F E D L L V R I L L L A A C I S F V L A W F E E G   :     8 1
Q 7 Z X Y 6 _ X E N   :   M E N A H A K T T E E C L A Y F G V N E N T G L S P E I V K K N F E K Y G P N E L P A E E G K S I W E L V A E Q F E D L L V R I L L L A A C I S F V L A W F E E G   :     8 1
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H - - - - -   :     2 0
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H - - -   :     1 9
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                          *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                
1 S U 4               :   E E T I T A F V E P F V I L L I L I A N A I V G V W Q E R N A E N A I E A L K E Y E P E M G K V Y R A D R K S V Q R I K A R D I V P G D I V E V A V G D K V P A D   :   1 6 2
Q 7 Z X Y 6 _ X E N   :   E E T V T A F V E P F V I L L I L I A N A V V G V W Q E R N A E D A I E A L K E Y E P E M G K V Y R S D R K S V Q R I K A R E I V P G D I V E V A V G D K V P A D   :   1 6 2
O P M                 :   - - - - - H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :     3 9
T M H M M             :   - - - - - - H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :     3 9
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                        *               1 8 0                   *               2 0 0                   *               2 2 0                   *               2 4 0                  
1 S U 4               :   I R I L S I K S T T L R V D Q S I L T G E S V S V I K H T E P V P D P R A V N Q D K K N M L F S G T N I A A G K A L G I V A T T G V S T E I G K I R D Q M A A T E   :   2 4 3
Q 7 Z X Y 6 _ X E N   :   I R L I S I K S T T L R I D Q S I L T G E S V S V I K H T E V V P D P R A V N Q D K K N M L F S G T N V G A G K A I G V V I A T G P N T E I G K I R D E M A A T E   :   2 4 3
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                      *               2 6 0                   *               2 8 0                   *               3 0 0                   *               3 2 0                    
1 S U 4               :   Q D K T P L Q Q K L D E F G E Q L S K V I S L I C V A V W L I N I G H F N D P V H G G S W I R G A I Y Y F K I A V A L A V A A I P E G L P A V I T T C L A L G T R   :   3 2 4
Q 7 Z X Y 6 _ X E N   :   Q D K T P L Q Q K L D E F G E Q L S K V I S L I C V A V W L I N I G H F N D P I H G G S W I K G A V Y Y F K I A V A L A V A A I P E G L P A V I T T C L A L G T R   :   3 2 4
O P M                 :   + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + +   :     7 3
T M H M M             :   + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + +   :     8 2
                                                                                              h                                                                                                        
                                                                                                                                                                                                       
                                    *               3 4 0                   *               3 6 0                   *               3 8 0                   *               4 0 0                      
1 S U 4               :   R M A K K N A I V R S L P S V E T L G C T S V I C S D K T G T L T T N Q M S V C K M F I I D K V D G D F C S L N E F S I T G S T Y A P E G E V L K N D K P I R S G   :   4 0 5
Q 7 Z X Y 6 _ X E N   :   R M A K K N A I V R S L P S V E T L G C T S V I C S D K T G T L T T N Q M S V C R M F V L D K V D G D I C S L N E F S I T G S T Y A P E G E V L K N D K T V K A G   :   4 0 5
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                  *               4 2 0                   *               4 4 0                   *               4 6 0                   *               4 8 0                        
1 S U 4               :   Q F D G L V E L A T I C A L C N D S S L D F N E T K G V Y E K V G E A T E T A L T T L V E K M N V F N T E V R N L S K V E R A N A C N S V I R Q L M K K E F T L E   :   4 8 6
Q 7 Z X Y 6 _ X E N   :   Q Y D G L V E L A T I C A L C N D S S L D F N E S K G V F E K V G E A T E T A L T T L V E K M N V F N T D V R S L S K V E R A N A C N S V I K Q L M K K E F T M E   :   4 8 6
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                *               5 0 0                   *               5 2 0                   *               5 4 0                   *               5 6 0                          
1 S U 4               :   F S R D R K S M S V Y C S P A K S S R A A V G N K M F V K G A P E G V I D R C N Y V R V G T T R V P M T G P V K E K I L S V I K E W G T G R D T L R C L A L A T R   :   5 6 7
Q 7 Z X Y 6 _ X E N   :   F S R D R K S M S V Y C T P A K A S R A A V G N K M F V K G A P E G V I D R C N Y V R V G T T R V P L T S A I K D T I L T V I K E W G T G R D T L R C L A L A T R   :   5 6 7
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                              *               5 8 0                   *               6 0 0                   *               6 2 0                   *               6 4 0                            
1 S U 4               :   D T P P K R E E M V L D D S S R F M E Y E T D L T F V G V V G M L D P P R K E V M G S I Q L C R D A G I R V I M I T G D N K G T A I A I C R R I G I F G E N E E V   :   6 4 8
Q 7 Z X Y 6 _ X E N   :   D T P P K R E D M V L E D S T K F V D Y E T D L T F V G C V G M L D P P R K E V M G S I K L C R E A G I R V I M I T G D N K G T A I A I C R R I G I F G E N D D V   :   6 4 8
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                            *               6 6 0                   *               6 8 0                   *               7 0 0                   *               7 2 0                              
1 S U 4               :   A D R A Y T G R E F D D L P L A E Q R E A C R R A C C F A R V E P S H K S K I V E Y L Q S Y D E I T A M T G D G V N D A P A L K K A E I G I A M G S G T A V A K T   :   7 2 9
Q 7 Z X Y 6 _ X E N   :   S R L A F T G R E F D D L P P A E Q R E A C K R A S C F A R V E P S H K S K I V E F L Q S F D E I T A M T G D G V N D A P A L K K A E I G I A M G S G T A V A K T   :   7 2 9
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                          *               7 4 0                   *               7 6 0                   *               7 8 0                   *               8 0 0                   *            
1 S U 4               :   A S E M V L A D D N F S T I V A A V E E G R A I Y N N M K Q F I R Y L I S S N V G E V V C I F L T A A L G L P E A L I P V Q L L W V N L V T D G L P A T A L G F N   :   8 1 0
Q 7 Z X Y 6 _ X E N   :   A S E M V L A D D N F S T I V A A V E E G R A I Y N N M K Q F I R Y L I S S N V G E V V C I F L T A A L G L P E A L I P V Q L L W V N L V T D G L P A T A L G F N   :   8 1 0
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - H H H H H H H H H H H H H H H H H H + + + +   :   1 1 1
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   1 0 5
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                        8 2 0                   *               8 4 0                   *               8 6 0                   *               8 8 0                   *              
1 S U 4               :   P P D L D I M D R P P R S P K E P L I S G W L F F R Y M A I G G Y V G A A T V G A A A W W F M Y A E D G P G V T Y H Q L T H F M Q C T E D H P H F E G L D C E I F   :   8 9 1
Q 7 Z X Y 6 _ X E N   :   P P D L D I M D R A P R S P K E P L I S G W L F F R Y L A I G A Y V G A A T V G A A A W W F M Y A D D G P E V T F Y Q L S H F M Q C T E E N V E F E G L E C E I F   :   8 9 1
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   1 3 1
T M H M M             :   - - - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :   1 2 8
                                                                        H H H H H H H H H H H H H H H H H H H H                                                                                        
                                                                                                                                                                                                       
                                      9 0 0                   *               9 2 0                   *               9 4 0                   *               9 6 0                   *                
1 S U 4               :   E A P E P M T M A L S V L V T I E M C N A L N S L S E N Q S L M R M P P W V N I W L L G S I C L S M S L H F L I L Y V D P L P M I F K L K A L D L T Q W L M V L K   :   9 7 2
Q 7 Z X Y 6 _ X E N   :   E S P V P M T M A L S V L V T I E M C N A L N S L S E N Q S L I R M P P W V N F W L L G S I C L S M S L H F L I L Y V D P L P M I F K L T P L D L T K W L V V L K   :   9 7 2
O P M                 :   - - - - - H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - H H H H H H H   :   1 7 6
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - H H H H H H H H   :   1 5 9
                                                                                                                                  H                                                                    
                                                                                     
                                    9 8 0                   *                        
1 S U 4               :   I S L P V I G L D E I L K F I A R N Y L E G - -   :   9 9 4
Q 7 Z X Y 6 _ X E N   :   I S I P V I L L D E L L K F V A R N Y L E E K K   :   9 9 6
O P M                 :   H H H H H H H H H H H H H H H + + + + + + + + +   :   1 9 1
T M H M M             :   H H H H H H H H H H H H H H H + + + + + + + + +   :   1 7 4
                                                                                     

Выравнивание также сохранено в формате clustal.

4. Оценка качества предсказания

Результаты предсказания топологии мембранного белка - кальциевой АТФазы (БД Uniprot по AC P04191 )

  Число а.к. остатков
Всего а.к. остатков 996
Остатки, предсказанные как локализованные в мембране (всего) 174
Правильно предсказали (true positives, TP) 81
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 38
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 767
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 55
Чувствительность (sensivity) = TP / (TP+FN) 0,595
Специфичность (specificity) =  TN / (TN+FP)  0,952
Точность (precision) = TP / (TP+FP)                        0,680
Сверхпредсказание = FP/ (FP+TP)      0,319
Недопредсказание = FN / (TN+FN)                                            0,067

Топология моего белка была предсказана с точностью 68%, что является средним показателем. Я бы сказала, что он далек от идеала, но приемлем.
Сверхпредсказание - 31,9%. На мой взгляд, в данном случае алгоритм программы явился далеко не идеальным для решения проблемы топологии данного мембранного белка. В идеальном варианте сверхпредсказание должно, конечно, равняться нулю.
Недопредсказание составило 6,7%. Достаточно значимый процент получился потому, что TMHMM пропустила 2 трансмембранных участка. Чувствительность - это доля правильно предсказанных остатков, среди тех, что на самом деле расположены в трансмембранных сегментах. В данном случае она составила 59,5%. Это низкий показатель. По выравниванию видно, что это результат того, что программой не было обнаружено 2 трансмембранных сегмента. А вот 95,2% специфичности - пожалуй, единственное реально хорошее значение в данном примере. Это означает, что лишнее TMHMM предсказывает редко. Как видно по выравниванию, в основном, это вариант, когда трансмембранные участки предсказываются длинее на несколько остатков, чем есть на самом деле (по данным OPM).


©Лозиер Екатерина