Мембранные белки

Для белка-прототипа CYB6_MASLA (цитохром b6 Mastigocladus laminosus) были даны AC Uniprot P83791 и идентификатор PDB 1VF5, с указанием рассматривать только цепь A. С помощью SRS была получена последовательность этого белка из Uniprot (запрос [uniprot-AccNumber:P83791*]). На сайте www.pdb.org с помощью опции Download Files → FASTA Sequence был получен файл, содержащий последовательности всех цепей в FASTA-формате. Из него была вырезана последовательность цепи А. После этого, импортировав файл, содержащий обе последовательности белка-прототипа, в GeneDoc, я убедилась, что они полностью совпадают и выравнивать их не надо:
                                                                                                                                                                                                           
                                            *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                  
1 V F 5 : A           :   M A N V Y D W F Q E R L E I Q A L A D D V T S K Y V P P H V N I F Y C L G G I T L T C F L I Q F A T G F A M T F Y Y K P T V T E A Y A S V Q Y I M N E V S F G W L I R   :     8 3
C Y B 6 _ M A S L A   :   M A N V Y D W F Q E R L E I Q A L A D D V T S K Y V P P H V N I F Y C L G G I T L T C F L I Q F A T G F A M T F Y Y K P T V T E A Y A S V Q Y I M N E V S F G W L I R   :     8 3
                          M A N V Y D W F Q E R L E I Q A L A D D V T S K Y V P P H V N I F Y C L G G I T L T C F L I Q F A T G F A M T F Y Y K P T V T E A Y A S V Q Y I M N E V S F G W L I R            
                                                                                                                                                                                                           
                                      *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                        
1 V F 5 : A           :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W I S G V I L A V I T V S F G V T G Y S L P W D Q V G Y W A V K I V S G V P E A I P V V G V L I S   :   1 6 6
C Y B 6 _ M A S L A   :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W I S G V I L A V I T V S F G V T G Y S L P W D Q V G Y W A V K I V S G V P E A I P V V G V L I S   :   1 6 6
                          S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W I S G V I L A V I T V S F G V T G Y S L P W D Q V G Y W A V K I V S G V P E A I P V V G V L I S            
                                                                                                                                       
                                *               1 8 0                   *               2 0 0                   *                      
1 V F 5 : A           :   D L L R G G S S V G Q A T L T R Y Y S A H T F V L P W L I A V F M L L H F L M I R K Q G I S G P L   :   2 1 5
C Y B 6 _ M A S L A   :   D L L R G G S S V G Q A T L T R Y Y S A H T F V L P W L I A V F M L L H F L M I R K Q G I S G P L   :   2 1 5
                          D L L R G G S S V G Q A T L T R Y Y S A H T F V L P W L I A V F M L L H F L M I R K Q G I S G P L            

В самом файле PDB отсутствуют координаты для первых 12 и 215 остатков. Но нумерация все равно такая же. как в UniProt, поэтому это обстоятельство можно не учитывать.
Для заданного белка CYB6_PINKO (цитохром b6 Pinus koraiensis ) с AC Uniprot Q85X07 аналогично белку-прототипу была получена последовательность из БД UniProt. Эта последовательность была выравнена с последовательностью белка-прототипа из БД PDB с помощью программы ClustalX. Последовательности прекрасно выравнились по всей длине без единого гэпа, несовпададающих позиций 34 из 215 (то есть ID 84%).
В БД OPM было найдено описание белка-прототипа c ID PDB 1VF5. Для цепи А в OPM описано 4 трансмембранных сегмента (33-53, 88-109, 115-134, 185-205). Этот белок расположен в мембране тилакоида, поэтому цитоплазматическими следует считать петли, находящиеся в строме(т.е. в цитоплазме для Mastigocladus laminosus, так как это цианобактерия и хлоропластов у нее нет, но для Pinus koraiensis это, конечно будут петли, находящиеся в строме хлоропласта). С помощью Jmol я посмотрела на расположение этого белка в мембране (в OPM в случае мембраны тилакоида синяя поверхность обозначает липидной слой мембраны, обращенный в строму, а красная - липидный слой, обращенный во внутреннее пространство тилакоида). Если воспользоваться опцией Hide и "спрятать" все цепи, кроме А (что очень удобно,так как всего в этой структуре 16 цепей и разобраться в них не так уж просто), то можно увидеть следующую картинку:

После этого уже легко определить, какие остатки составляют цитоплазматические петли, а какие - другие петли, простым щелканием мышки по ним. В итоге получаем: 1-32, 110-114, 206-215 - цитоплазматические петли, 54-87, 135-184 - нет. В файле с выравниванием белка-прототипа и заданного белка я добавила "последовательность" ОРМ, на которой аминокислотные остатки трансмембранных сегментов обозначены буквой Н, остатки цитоплазматических петель - знаком '+', все остальные остатки - знаком '-'.
Для этого же белка с помощью программы ТМНММ была предсказана топология расположения в мембране(см. здесь). Таким же образом, как данные ОРМ, результаты предсказания были добавлены к выравниванию (в этом случае цитоплазматическими считались петли, предсказанные как inside). Вот полученное выравнивание:
                                                                                                                                                                                                           
                                            *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                  
1 V F 5 _ A           :   M A N V Y D W F Q E R L E I Q A L A D D V T S K Y V P P H V N I F Y C L G G I T L T C F L I Q F A T G F A M T F Y Y K P T V T E A Y A S V Q Y I M N E V S F G W L I R   :     8 3
C Y B 6 _ P I N K O   :   M G K V Y D R F E E R L E I Q A I A D D I T S K Y V P P H V N I F Y C L G G I T L T C F L V Q V A T G F A M T F Y Y R P T V T E A F A S V Q Y L M T E V N F G W L I R   :     8 3
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     2 1
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     2 3
                                                                                                                                                                                                           
                                                                                                                                                                                                           
                                      *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                        
1 V F 5 _ A           :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W I S G V I L A V I T V S F G V T G Y S L P W D Q V G Y W A V K I V S G V P E A I P V V G V L I S   :   1 6 6
C Y B 6 _ P I N K O   :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W V T G V I L A V L T V S F G V T G Y S L P W D Q I G Y W A V K I V T G V P E A I P V I G S P L V   :   1 6 6
O P M                 :   - - - - H H H H H H H H H H H H H H H H H H H H H H + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     6 3
T M H M M             :   H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - -   :     6 9
                                                                                                                                                                                                           
                                                                                                                                       
                                *               1 8 0                   *               2 0 0                   *                      
1 V F 5 _ A           :   D L L R G G S S V G Q A T L T R Y Y S A H T F V L P W L I A V F M L L H F L M I R K Q G I S G P L   :   2 1 5
C Y B 6 _ P I N K O   :   E L L R G S V S V G Q S T L T R F Y S L H T F I L P L L T A V F M P M H F L M I R K Q G I S G P L   :   2 1 5
O P M                 :   - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + +   :     8 4
T M H M M             :   - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + +   :     9 2
                                                                                                                                       
Выравнивание в формате Clustal
После этого было оценено качество предсказания, что выразилось в подсчете 4-х чисел (TP,TN,FP,FN), описание которых дано в таблице. Для этого была использована программа, код которой можно увидеть здесь.

Результаты предсказания топологии мембранного белка CYB6_PINKO с помощью TMHMM

  Число а.к. остатков
Всего а.к. остатков 215
Остатки, предсказанные как локализованные в мембране (всего) 92
Правильно предсказали (true positives, TP) 78
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 14
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 117
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 6
Чувствительность (sensivity) = TP / (TP+FN) 0,929
Специфичность (specificity) =  TN / (TN+FP)  0,893
Точность (precision) = TP / (TP+FP)                        0,848
Сверхпредсказание = FP/ (FP+TP)      0,152
Недопредсказание = FN / (TN+FN)                                            0,049
На основе данной таблицы можно утверждать, что предсказание ТМНММ имеет высокое качество. Общее число ошибок (14+6=20 неправильно предсказанных позиций) составляет менее 10% от общего числа остатков исследованной последовательности (215 а.о.). Чуствительность - доля правильно предсказанных остатков среди тех, которые на самом деле входят в трансмембранные сегменты, специфичность - доля правильно предсказанных остатков среди тех, которые входят в состав петель. В данном случае чувствительность несколько больше, чем специфичность, что привело к большему значению сверхпредсказания по сравнению с недопредсказанием. То есть можно сказать, что ТМНММ редко пропускает действительно трансмембранные участки, но часто продолжает в одну или в обе стороны больше, чем надо. Наверно, у этой программы довольно "мягкие" требования к предполагаемым трансмембранным сегментам, что позволяет ей не пропускать спирали, но и дает возможность считать мембранными участки петель. Но в целом предсказание получается очень хорошее, так как, по-моему, лучше удлинить спираль на 2-3 остатка, чем пропустить какую-либо полностью.
На страницу 4-го семестра

© Моросанова Мария