Перейти на страницу четвертого семестра

Мембранные белки


Q41372_SPIOL Amaranthaceae; Spinacia.

  1. Построение парного выравнивания исследуемого белка и заданного прототипа
  2. Для поиска белка прототипа Q41372_SPIOL (аквапорин из организмаSpinacia(сем. гвоздичные).) я воспользовался SRS (поиск велся по АС, а запрос выглядел так:[uniprot-AccNumber:Q0MX13*])
    Pdb был получен двумя способами из SRS и с сайта www.pdb.org с помощью опции Download Files > FASTA Sequence был получен файл, содержащий последовательности всех цепей в FASTA-формате, да и как оказалось FASTA-файл полученный на основе данных с двух разных сайтов оказались одинаковы. Fasta на основе pdb и последовательность белка были импортированы в GeneDoc и оказалось, что pdb почти совпадает с последовательностью белка, хотя и содержит 22 аминокислоты в конце последовательности(хотя конечно странно, что pdb содержит больше аминокислот, чем просто последовательность белка.), а еще pdb состоит из 4 одинаковых цепочек.Так что выравнивать не пpишлось.
    А выравнивание последовательности белка-прототипа из БД PDB с последовательностю белка-прототипа лежат здесь
    Аналагично я искал последовательность белка для исследования Q0MX13_VITVI(аквапорин vitis vinifera) по Ac Q0MX13.Эта последовательность была выравнена с последовательностью белка-прототипа из БД PDB с помощью программы ClustalX. Последовательности прекрасно выравнились по всей длинне, кроме торчащих в конце последовательности белка-прототипа из БД PDB 22 аминокислот, но все равно ID оказалось 80%.
    В силу идентичности цепей в fasta фаиле взятом для белка прототипа из бд pdb, вся работа проводилась для одной цепочки.

  3. Разметка мембранных сегментов на выравнивании
  4. В БД OPM было найдено описание белка-прототипа c ID PDB 2B5F, и было скачено pdb из этой базы данных(оно отличается от данных с других сайтов тем, что у него нет небольшого участка в начале последовательность и в конце, но номера остатков сохраняютяся и в остальном последовательност ничем ни отличается, отмечу, что среди отсутствующих участков нет мембранных фрагментов). На сайте были указанны мембранные участки их 8 и они пронумерованны 1(37-58), 2(75-93), 3(102-111), 4(116-137), 5(164-182), 6(199-214), 7(223-232), 8(242-261).
    Рассмотрев взятый на OPM PDB программой rasmol определил цитоплазматические и внеклеточные петли.
    Ну для начала были вырезаны (restrict not) цепи b,c и d, а так же покрашены и увеличены по одной аминокислоте лежашей перед первым мембранным участком и после последнего (соответсвенно желтым и зеленым цветом), это было сделанно для упрощения определения расположения трансмемебранных участков, а раскрашивание второй аминокислоты сделанно для проверки. Ниже приведена картинка из расмола.

    Снаружи от синей границы лежит внутриклеточная (цитоплазматическая) часть белка, между синей и красной лежит мемебранная часть, снаружи от красной внеклеточная часть.

  5. Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)
  6. Страничка с результатами предсказания программой TMHMM
    Готовое выравнивание.
    Выравнивание в формате Clustal
                                                                                                                                                                                                                                                                 
                                                *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                   *               1 0 0                            
    2 B 5 F : A           :   M S K E V S E E A Q A H Q H G K D Y V D P P P A P F F D L G E L K L W S F W R A A I A E F I A T L L F L Y I T V A T V I G H S K E T V V C G S V G L L G I A W A F G G M I F V L V Y C T A G I S G G H I N P A V T F G L   :   1 0 8
    Q 0 M X 1 3 _ V I T   :   M S K E V S E E - - G Q S H G K D Y V D P P P A P L I D I A E I K L W S F Y R A V I A E F I A T L L F L Y I T V A T V I G Y K K Q S D P C G G V G L L G V A W A F G G M I F I L V Y C T A G I S G G H I N P A V T F G L   :   1 0 6
    o p m                 :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H + + + + + + + + H H H H H H H   :     4 8
    t h p p m m           :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + +   :     4 6
                                                                                                            * * * * * *                                   * *               * *                                           * *                                    
                                                                                                                                                                                                                                                                 
                                *               1 2 0                   *               1 4 0                   *               1 6 0                   *               1 8 0                   *               2 0 0                   *                        
    2 B 5 F : A           :   F L A R K V S L L R A L V Y M I A Q C L G A I C G V G L V K A F M K G P Y N Q F G G G A N S V A L G Y N K G T A L G A E I I G T F V L V Y T V F S A T D P K R S A R D S H V P I L A P L P I G F A V F M V H L A T I P I   :   2 1 6
    Q 0 M X 1 3 _ V I T   :   F L A R K V S L I R A L A Y M V A Q C L G A I C G V G L V K A F M K S F Y N S L G G G A N S V A A G Y N K G T A L G A E I I G T F V L V Y T V F S A T D P K R S A R D S H V P V L A P L P I G F A V F M V H L A T I P I   :   2 1 4
    o p m                 :   H H H - - - - H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H + +   :   1 0 8
    t h p p m m           :   + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H   :   1 1 2
                                          * *                                           * *                                             * *                                     * *                     * *                             H                        
                                                                                                                                                                                                                       
                                2 2 0                   *               2 4 0                   *               2 6 0                   *               2 8 0                   *               3 0 0                  
    2 B 5 F : A           :   T G T G I N P A R S F G A A V I F N S N K V W D D Q W I F W V G P F I G A A V A A A Y H Q Y V L R A A A I K A L G S F R S N P T N L E Q K L I S E E D L N S A V D H H H H H H   :   3 0 3
    Q 0 M X 1 3 _ V I T   :   T G T G I N P A R S F G A A V I Y N N E K V W D D Q W I F W V G P F V G A L A A A A Y H Q Y I L R A A A I K A L G S F R S N P T N - - - - - - - - - - - - - - - - - - - - - -   :   2 7 9
    o p m                 :   + + + + + + H H H H H H H H H H - - - - - - - - - H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :   1 3 8
    t h p p m m           :   - - - - - - - - - - - - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?   :   1 3 5
                              * *                                               * *                                 H         * *                                                                                      

  7. Оценка качества предсказания

  8. Paccчеты проводились по современным технологиям с использованием Java программы код которой:
    
    
    package gene;
    import java.io.*;
    /**
     * Title:
     * Description:
     * Copyright: Copyright (c) 2007
     * Company:
     * @author not attributable
     * @version 1.0
     */
    
    public class pods4et {
      public pods4et() {
      }
      public static void main(String[] args) {
        pods4et pods4et1 = new pods4et();
        int TP = 0, TN = 0, FP = 0, FN = 0, H = 0,TNt=0,TNf=0;
         String istina =
             "++++++++++++++++++++++++++++++++++++HHHHHHHHHHHHHHHHHHHHHH--" +
             "--------------HHHHHHHHHHHHHHHHHHH++++++++HHHHHHHHHH----HHHHH" +
             "HHHHHHHHHHHHHHHHH++++++++++++++++++++++++++HHHHHHHHHHHHHHHHH" +
             "HH----------------HHHHHHHHHHHHHHHH++++++++HHHHHHHHHH--------" +
             "-HHHHHHHHHHHHHHHHHHHH++++++++++++++++++++"
             ;
    
         String l =
             "+++++++++++++++++++++++++++++++++++++++++HHHHHHHHHHHHHHHHHHH" +
             "HHHH---------HHHHHHHHHHHHHHHHHHHHHHH++++++++++++++++++++HHHH" +
             "HHHHHHHHHHHHHHHHHHH------------------------HHHHHHHHHHHHHHHHH" +
             "HHH++++++++++++HHHHHHHHHHHHHHHHHHHHHHH----------------------" +
             "---HHHHHHHHHHHHHHHHHHHHHHH+++++++++++++++"
            ;
    
         for (int i = 0; i < l.length(); i++) {
           char a = istina.charAt(i);
           char b = l.charAt(i);
           if (a == 'H') {
             if (b == 'H') {
               TP++;
               H++;
             }
             else FN++;
           }
           else
           if (b == 'H') {
             FP++;
             H++;
           }
           else {
             TN++;
             if(a ==b) TNt++;
             else TNf++;
    
           }
         }
         double sensivity = (double) (TP) / (TP + FN);
         double specificity = (double) (TN) / (TN + FP);
         double precision = (double) (TP) / (TP + FP);
         double over = (double) (FP) / (FP + TP);
         double inover = (double) (FN) / (TN + FN);
         System.out.println("Длина=" + l.length());
         System.out.println("TP=" + TP);
         System.out.println("TN=" + TN);
         System.out.println("FP=" + FP);
         System.out.println("FN=" + FN);
         System.out.println("TM=" + H);
         System.out.println("sensivity=" + sensivity);
         System.out.println("specificity=" + specificity);
         System.out.println("precision=" + precision);
         System.out.println("over=" + over);
         System.out.println("inover=" + inover);
    
      }
    
    }
    
    
    
      

    Результаты предсказания топологии мембранного белка Q41372_SPIOL

      Число а.к. остатков
    Всего а.к. остатков 281
    Остатки, предсказанные как локализованные в мембране (всего) 135
    Правильно предсказали (true positives, TP) 114
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 21
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 122
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 24
    Чувствительность (sensivity) = TP / (TP+FN) 0.8261
    Специфичность (specificity) =  TN / (TN+FP)  0.8531
    Точность (precision) = TP / (TP+FP)                        0.8444
    Сверхпредсказание = FP/ (FP+TP)      0.1556
    Недопредсказание = FN / (TN+FN)                                            0.1644

    Программа TMHMM справилась не очень здорово(если считать, что предсказанная OPM расположение в клетке белка-прототипа совпадает с исследуемым белком), т.к. при предсказании этой программой были не найдены два мембранных участка, хотя это не привело к ошибке в разметке всех немебранных петель, но наверное могло бы привести при потере нечетного числа участков, поэтому программа, хотя и справляется с предсказанием трансмембранных участков, расположения белков, но не блестяще.