Мембранные белки

Для того, чтобы проверить, выполняется ли правило фон Хейне, я сосчитала количество остатков лизина и аргинина во всех петлях структуры белка-прототипа по данным ОРМ и предсказанной ТМНММ структурой заданного белка. Количество этих аминокислот я считала по последовательности белка-прототипа для структуры ОРМ (так как в ОРМ описана именно его структура) и по последовательности заданного белка для структуры ТМНММ (так как предсказание делалось именно для него).
Структура Петля Цитоплазматическая? Количество остатков лизина и аргинина
ОРМ 1-32 да 2
54-87 нет 3
110-114 да 3
135-184 нет 3
206-215 да 2
TMHMM 1-31 да 4
55-83 нет 2
107-117 да 3
141-183 нет 3
207-215 да 2
Правило фон Хейне выполняется не во всех случаях. Например, если бы у этого белка был всего один трансмембранный участок(185-205 для ОРМ, например) и 2 петли (135-184 и 206-215), то формально пользуясь правилом фон Хейне, я бы получила предсказание, абсолютно противоположное реальности. Но если рассматривать весь белок в целом, то в цитоплазматических петлях содержится 9 остатков лизина и аргинина для ТМНММ и 7 - для ОРМ, а во внешних - всего 5 для ТМНММ и 6 для ОРМ. Не знаю, может ли это служить обоснованием того, что петли цитоплазматические, так как их 3, а внешних - 2, и большее количество аргинина и лизина может возникать из-за этого. Потом, в этом правиле следует использовать абсолютные значения количества остатков, а не процентное содержание в петле, что, на мой взгляд, неправильно. Например, в петлях 110-114 и 135-184 по данным ОРМ содержится по 3 положительно заряженных остатка. Но 3 положительно заряженных остатка в петле длиной 5 - это совсем не то же самое, что в петле длиной 50. В итоге можно сказать, что предсказание с помощью этого правила не является надежным.

Предсказание топологии белка CYB6_PINKO на основе его профиля гидрофобности

Значения для профиля гидрофобности (средние значения гидрофобности аминокислот в текущем окне) были получены с помощью программы pepwindow:
pepwindow -sequence inv.fasta -length 19 -graph data
В данной команде -length 19 значит, что выбран размер окна, равный 19 остаткам, а -graph data значит, что программа должна выдать данные для построения графика, а не сам график. После этого в Excel был построен профиль гидрофобности. трансмембранные сегменты предсказывались следующим образом: были выбраны пики на профиле со значением средней гидрофобности >1,7 (остатки 39,41,124,125,197,198) и области на 9 остатков вправо и влево (так как размер окна - 19 а.о.) считались трансмембранными. Таким образом было предсказано 3 трансмембранных участка: 30-50, 115-134 и 188-207. Для предсказания ориентации белка в мембране я воспользовалась правилом фон Хейне:
Петля Кол-во аргинина и лизина
1-29 4
51-114 7
135-187 3
208-215 1
Таким образом, цитоплазматическими петлями я выбрала 51-114 и 208-215, так как в них содержится больше положительно заряженных аминокислот, чем в двух других (8>7). Это предсказание я отметила в виде "последовательности" Manual на выравнивании:
                                                                                                                                                                                                           
                                            *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                  
1 V F 5 _ A           :   M A N V Y D W F Q E R L E I Q A L A D D V T S K Y V P P H V N I F Y C L G G I T L T C F L I Q F A T G F A M T F Y Y K P T V T E A Y A S V Q Y I M N E V S F G W L I R   :     8 3
C Y B 6 _ P I N K O   :   M G K V Y D R F E E R L E I Q A I A D D I T S K Y V P P H V N I F Y C L G G I T L T C F L V Q V A T G F A M T F Y Y R P T V T E A F A S V Q Y L M T E V N F G W L I R   :     8 3
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     2 1
M a n u a l           :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :     2 1
                                                                                                                                                                                                           
                                                                                                                                                                                                           
                                      *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                        
1 V F 5 _ A           :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W I S G V I L A V I T V S F G V T G Y S L P W D Q V G Y W A V K I V S G V P E A I P V V G V L I S   :   1 6 6
C Y B 6 _ P I N K O   :   S I H R W S A S M M V L M M I L H V F R V Y L T G G F K K P R E L T W V T G V I L A V L T V S F G V T G Y S L P W D Q I G Y W A V K I V T G V P E A I P V I G S P L V   :   1 6 6
O P M                 :   - - - - H H H H H H H H H H H H H H H H H H H H H H + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     6 3
M a n u a l           :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :     4 1
                                                                                                                                                                                                           
                                                                                                                                       
                                *               1 8 0                   *               2 0 0                   *                      
1 V F 5 _ A           :   D L L R G G S S V G Q A T L T R Y Y S A H T F V L P W L I A V F M L L H F L M I R K Q G I S G P L   :   2 1 5
C Y B 6 _ P I N K O   :   E L L R G S V S V G Q S T L T R F Y S L H T F I L P L L T A V F M P M H F L M I R K Q G I S G P L   :   2 1 5
O P M                 :   - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + +   :     8 4
M a n u a l           :   - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H + + + + + + + +   :     6 1
                                                                                                                                       
Выравнивание в формате Clustal
Числа TP,TN,FP,FN были вычислены так же, как и для предсказания ТМНММ.

Результаты предсказания топологии мембранного белка CYB6_PINKO с помощью поcтроения профиля гидрофобности

  Число а.к. остатков
Всего а.к. остатков 215
Остатки, предсказанные как локализованные в мембране (всего) 61
Правильно предсказали (true positives, TP) 56
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 5
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 126
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 28
Чувствительность (sensivity) = TP / (TP+FN) 0,667
Специфичность (specificity) =  TN / (TN+FP)  0,962
Точность (precision) = TP / (TP+FP)                        0,918
Сверхпредсказание = FP/ (FP+TP)      0,082
Недопредсказание = FN / (TN+FN)                                            0,182
Как видно из таблицы количество ошибок (FP+FN=33) составляет около 15% от общего числа остатков в последовательности. На первый взгляд, это всего лишь в полтора раза больше, чем у предсказания ТМНММ. Но на самом деле, основная масса этих ошибок заключается в том, что полностью не предсказана одна спираль. Это приводит к абсолютно неправильному предсказанию расположения белка в мембране. У этого метода довольно низкая чувствительность, то есть в таком предсказании легко пропускаются истинно мембранные остатки. Но сверхпредсказание оказывается меньше, чем у ТМНММ. Я думаю, что это скорее побочный положительный эффект основного недостатка метода - завышенных требований к трансмембранным участкам, таких, что не все действительно мембранные участки могут пройти этот "отбор" (выбирались пики с средней гидрофобностью больше 1,7, а пик, соответствующий пропущенной спирали, имеет значение 1,64). Поэтому маленькое значение сверхпредсказания вряд ли можно считать достоинством.
На страницу 4-го семестра

© Моросанова Мария