На главную страницу
На главную страницу четвертого семестра

Мембранные белки

Заданный белок-прототип: аквапорин (канал для воды) из шпината (Spinacia oleracea) (UniProt ID Q41372, PDB ID 2B5F) Исследуемый белой: O24050

Из разных БД (PDB и UniProt) получены последовательности белка-прототипа. Далее они были выравнены (вручную) и, как показало сравнение, в последовательности из UniProt отрезано 22 C-концевых остатка. Возможно, это ошибки, полученные при кристаллизации белка (PDB). Поэтому далее использовалась структура из PDB, так как номера остатков совпадают.

Последовательность исследуемого белка (UniProt) сравнена с последовательностью белка-прототипа. Использована программа emma (алгоритм ClustalW). Получено выравнивание (розовым окрашены похожие остатки) с характеристиками: Идентичность 80%, Схожесть 86%.

По данным OPM (Orientations of Proteins in Membranes database) размечена "мембранная топология" белка-прототипа (зеленым окрашены мембранные участки, красным участки с внешней стороны мембраны, голубам – с внутренней). Заметим, что реальная последовательность еще короче, чем по данным UniProt, белок заканчивается остатком Val263. Более того, он обрезан и с N-конца.
Далее, с помощью TMHMM предсказана топология исследуемого белка. Полученная топология также была нанесена на выравнивание и окрашена. Конечное выравнивание:

                                                                                                                                                                                                           
                                          *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                    
A q u a p o r i n   :   M S K E V S E E A Q - - A H Q H G K D Y V D P P P A P F F D L G E L K L W S F W R A A I A E F I A T L L F L Y I T V A T V I G - H S K E T V V C G S V G L L G I A W A F   :     8 1
O 2 4 0 5 0         :   M S K E V N E E A Q G L G H Q H G K D Y V D P P P A P L F D M G E L K L W S F Y R A L I A E F I A T L L F L Y V T I A T V V G N N K A D T G V C G G V G L L G I A W S F   :     8 4
O P M               :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + H H H H H H H   :     2 9
T M H M M           :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + H H H H H H H H H   :     3 2
                                                                                                                                                                                                           
                                                                                                                                                                                                           
                                  *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                            
A q u a p o r i n   :   G G M I F V L V Y C T A G I S G G H I N P A V T F G L F L A R K V S L L R A L V Y M I A Q C L G A I C G V G L V K A F M K G P Y N Q F G G G A N S V A L G Y N K G T A L   :   1 6 5
O 2 4 0 5 0         :   G G M I F I L V Y C T A G I S G G H I N P A V T F G L F L A R K V S L I R A V S Y M I A Q C L G A I C G V G L V K A F M K G Y Y N S V G G G A N S V A H G Y S K G T A L   :   1 6 8
O P M               :   H H H H H H H H H H H H + + + + + + + + H H H H H H H H H H + + + + H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + H H   :     7 5
T M H M M           :   H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + H H H H   :     7 3
                                                                                                                                                                                                           
                                                                                                                                                                                                           
                          *               1 8 0                   *               2 0 0                   *               2 2 0                   *               2 4 0                   *                
A q u a p o r i n   :   G A E I I G T F V L V Y T V F S A T D P K R S A R D S H V P I L A P L P I G F A V F M V H L A T I P I T G T G I N P A R S F G A A V I F N S N K V W D D Q W I F W V G P   :   2 4 9
O 2 4 0 5 0         :   G A E I I G T F V L V Y T V F S A T D P K R S A R D S H V P V L A P L P I G F A V F M V H L A T I P I T G T G I N P A R S F G A A V I F N S K K N W D D H W I F W V G P   :   2 5 2
O P M               :   H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H + + + + + + + + H H H H H H H H H H + + + + + + + + + H H H H H H H H   :   1 2 6
T M H M M           :   H H H H H H H H H H H H H H H H + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H   :   1 2 0
                                                                                                                H                                                               h                          
                                                                                                                                               
                                  2 6 0                   *               2 8 0                   *               3 0 0                        
A q u a p o r i n   :   F I G A A V A A A Y H Q Y V L R A A A I K A L G S F R S N P T N L E Q K L I S E E D L N S A V D H H H H H H   :   3 0 3
O 2 4 0 5 0         :   M V G A L A A A A Y H Q Y I L R A A A I K A L G S F R S N P T N - - - - - - - - - - - - - - - - - - - - - -   :   2 8 4
O P M               :   H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   1 3 8
T M H M M           :   H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + - - - - - - - - - - - - - - - - - - - - - -   :   1 3 5
                                            H                                                                                                  

Для оценки качества предсказания была использована программа, написаная на языке Java (текст).

Результаты предсказания топологии мембранного белка O24050
  Число а.к. остатков perwindow
Всего а.к. остатков 284 284
Остатки, предсказанные как локализованные в мембране (всего) 135 122
Правильно предсказали (true positives, TP) 117 90
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 18 32
Правильно не предсказали (не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 128 114
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 21 48
Чувствительность (sensivity) = TP / (TP+FN) 0.848 0.652
Специфичность (specificity) =  TN / (TN+FP)  0.877 0.781
Точность (precision) = TP / (TP+FP)                        0.867 0.738
Сверхпредсказание = FP/ (FP+TP)      0.133 0.262
Недопредсказание = FN / (TN+FN) 0.141 0.296

Таким образом, основные крупные внутримембранные участки предсказаны верно (с точностью до нескольких остатков), но неверно предсказана топология небольших участков цепи, оба конца которых находятся с одной стороны мембраны. Заметим, однако, что TMHMM не приспособлена для поиска таких фрагментов и может искать только трансмембранные цепи.


©Семенюк Павел