Занятие 8. Мембранные белки

Цель работы — предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.

Идентификаторы заданного белка и белка-прототипа соответственно Q5U3A4, P04191 (идентификатор PDB 1SU4).

  1. Построение парного выравнивания исследуемого белка и заданного прототипа
  2. Мы получили и сравнили обе последовательности белка-прототипа. Последовательности остатков в БД PDB и БД UniProt несколько различаются, нумерация аминокислот совпадает. Поиск последовательности из UniProt велся в SRS, а последовательность для PDB файла получали с сайта PDB структур.

    В результате работы программы GeneDoc получили выравнивание, на котором мы видим, что различиесуществует только в самом конце последовательности, у последовательности для PDB файла нет последних 7 аминокислот и одна аминокислота не совпадает. Результаты нахходятся в файле выравнивания.

    По идентификатору UniProt получили последовательность заданного белка (так же при помощи SRS). Построили парное выравнивание этой последовательности и последовательности белка-прототипа из PDB. Выравнивание проводилось при помощи программы ClustalW, выравнивание хорошее, поэтому нет смысла проверять его при помощи других программ или корректировать.
    Здесь приведено это выравнивание.
    Или сохраненное в MSF формате в этом файле.
    Характеристики выравнивания: идентичность - 83%, сходство - 92%, количество гэпов - 0% (получено при помощи функции Statistics Report).

  3. Разметка мембранных сегментов на выравнивании
  4. По идентификатору PDB белка-прототипа нашли описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database).

    Были даны координаты мембранных участков, а так же дано, что первый участок цитоплазматический, таким образом можно полностью сказать, какие участки, чему принадлежат. В файле marking.msf ниже последовательности прототипа добавили последовательность с названием "OPM" и разметкой ТМ сегментов. Для этого сначала добавили последовательность с "минусами", а потом, зная расположение участков, обозначили какие участко являются мембранными (обозначались буквой "H"), какие цитоплазматические (знаком "+"), и какие расположены снаружи (знаком "-").

  5. Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)
  6. Попытаемся предсказать тополоию заданного белка с помощью сервера TMHMM. (опции брались по умолчанию).
    Страничку с результатом предсказания вы можете посмотреть здесь

    Далее к последовательностям в файле marking.msf добавили еще одну искусственную последовательность, отражающую результаты данного предсказания. Эту последовательность назвали "TMHMM".

    Полученное выравнивание вы можете посмотреть в файле. Так же вы можете посмотреть результаты в файле формата Clustal.

  7. Оценка качества предсказания
  8. Сравнили полученное предсказание с данными ОРМ. Рассмотрели полученное выравнивание, и заполните таблицу:

    Результаты предсказания топологии мембранного белка с AC=Q5U3A4

      Число а.к. остатков
    Всего а.к. остатков  1005
    Остатки, предсказанные как локализованные в мембране (всего)  151
    Правильно предсказали (true positives, TP)  114
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP)  37
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN)  778
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN)  76
    Чувствительность (sensivity) = TP / (TP+FN)  0.6
    Специфичность (specificity) =  TN / (TN+FP)   0.95
    Точность (precision) = TP / (TP+FP)                         0.75
    Сверхпредсказание = FP/ (FP+TP)       0.245
    Недопредсказание = FN / (TN+FN)                                             0.089

    Глядя на выравнивание и на результаты которые можно было получить, либо просто посчитав (в нашем случае это было не очень сложно), либо при помощи составленной программы, результаты получаются одинаковые. Первое что бросается в глаза, что вместо 10 предполагаемых трансмесбранных участков, данная программа предсказала только 7, а соответственно происходили ошибки и в том являются ли участки цитоплазменными или находятся по другуюсторону мембраны, особенно это заметно в конце выравнивания,когда ошибки происходили на значительных участках.


    ©Метелев Михаил