Мы получили и сравнили обе последовательности белка-прототипа. Последовательности остатков в БД PDB и БД UniProt несколько различаются, нумерация аминокислот совпадает. Поиск последовательности из UniProt велся в SRS, а последовательность для PDB файла получали с сайта PDB структур.
В результате работы программы GeneDoc получили выравнивание, на котором мы видим, что различиесуществует только в самом конце последовательности, у последовательности для PDB файла нет последних 7 аминокислот и одна аминокислота не совпадает. Результаты нахходятся в файле выравнивания. По идентификатору UniProt получили последовательность заданного белка (так же при помощи SRS).
Построили парное выравнивание этой последовательности и последовательности белка-прототипа из PDB.
Выравнивание проводилось при помощи программы ClustalW, выравнивание хорошее, поэтому нет смысла проверять его при помощи других программ или корректировать.
Здесь приведено это выравнивание.
Или сохраненное в MSF формате
в этом файле.
Характеристики выравнивания: идентичность - 83%, сходство - 92%,
количество гэпов - 0% (получено при помощи функции Statistics Report).
По идентификатору PDB белка-прототипа нашли описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database).
Были даны координаты мембранных участков, а так же дано, что первый участок цитоплазматический, таким образом можно полностью сказать, какие участки, чему принадлежат. В файле marking.msf ниже последовательности прототипа добавили последовательность с названием "OPM" и разметкой ТМ сегментов. Для этого сначала добавили последовательность с "минусами", а потом, зная расположение участков, обозначили какие участко являются мембранными (обозначались буквой "H"), какие цитоплазматические (знаком "+"), и какие расположены снаружи (знаком "-").Попытаемся предсказать тополоию заданного белка с помощью сервера
TMHMM. (опции брались по умолчанию).
Страничку с результатом предсказания вы можете посмотреть
здесь
Далее к последовательностям в файле marking.msf добавили еще одну искусственную последовательность, отражающую результаты данного предсказания. Эту последовательность назвали "TMHMM".
Полученное выравнивание вы можете посмотреть в файле. Так же вы можете посмотреть результаты в файле формата Clustal.Сравнили полученное предсказание с данными ОРМ. Рассмотрели полученное выравнивание, и заполните таблицу:
Результаты предсказания топологии мембранного белка с AC=Q5U3A4
Число а.к. остатков | |
Всего а.к. остатков | 1005 |
Остатки, предсказанные как локализованные в мембране (всего) | 151 |
Правильно предсказали (true positives, TP) | 114 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 37 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 778 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 76 |
Чувствительность (sensivity) = TP / (TP+FN) | 0.6 |
Специфичность (specificity) = TN / (TN+FP) | 0.95 |
Точность (precision) = TP / (TP+FP) | 0.75 |
Сверхпредсказание = FP/ (FP+TP) | 0.245 |
Недопредсказание = FN / (TN+FN) | 0.089 |
Глядя на выравнивание и на результаты которые можно было получить, либо просто посчитав (в нашем случае это было не очень сложно), либо при помощи составленной программы, результаты получаются одинаковые. Первое что бросается в глаза, что вместо 10 предполагаемых трансмесбранных участков, данная программа предсказала только 7, а соответственно происходили ошибки и в том являются ли участки цитоплазменными или находятся по другуюсторону мембраны, особенно это заметно в конце выравнивания,когда ошибки происходили на значительных участках.
©Метелев Михаил