Предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.
Заданный белок - белок аквапорин Z. (A0KHU2_AERHH) из бактериального организма Aeromonas hydrophila subsp. hydrophila. Имеет длину 228 а.о.
Белок-прототип - аквапорин Z. (AQPZ_ECOLI) из Escherichia coli. Состоит из двух цепей, каждая из которых имеет длину 231 а.о. Цепи идентичны, поэтому в дальнейшем будем использовать для исследований цепь А. Представляет собой мембранный канальный белок, который ответствен за осмотическое движение воды в обоих направлениях и резкие изменения осмотического давления в клетке.
Обе последовательности белка прототипа (из БД PDB и БД Uniprot) были выравненны с помощью команды:
needle 1RC2.fasta prototip.fasta pdb_uni.needle -auto.
Результат выравнивания представлен в файле pdb_uni.needle.
По нему видно, что последовательности из разных БД абсолютно одинаковы и последовательность из БД PDB полная. Кроме того, нумерация последней также сохраняется.
Получив последовательность заданного белка через UniProt, построил ее парное выравнивание с последовательностью из PDB:
needle 1RC2.fasta A0KHU2.fasta 1RC2_AERHH.needle -auto
Характеристики выравнивания: процент идентичности 74, процент сходства 81.4
Выравнивание было импортировано в GeneDoc и сохранено в файле marking.msf.
По идентификатору PDB белка-прототипа найдите описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database)
Трансмембранные сегменты: 1(4-26), 2(34-55), 3(64-73), 4(81-102), 5(131-152), 6(161-178), 7(187-196), 8(201-223).
В файле marking.msf ниже последовательности прототипа добавьте последовательность с названием "OPM" и разметкой ТМ сегментов.
На основе выданных программой результатов к последовательностям в файле marking.msf была добавлена еще одна, четвертая, искусственная последовательность, отражающая предсказание мембранных сегментов для заданного белка:
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |   | 2 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |   | 4 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |   | 6 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |   |   |   |   |   |   |
1 | R | C | 2 | : | A |   |   |   |   |   | : |   | M | F | R | K | L | A | A | E | C | F | G | T | F | W | L | V | F | G | G | C | G | S | A | V | L | A | A | G | F | P | E | L | G | I | G | F | A | G | V | A | L | A | F | G | L | T | V | L | T | M | A | F | A | V | G | H | I | S | G | G | H | F | N | P | A | V | T | I | G | L | W | A | G | G | R | F | P |   | : |   |   | 7 | 7 |
A | 0 | K | H | U | 2 | _ | A | E | R |   | : |   | - | M | K | P | F | A | A | E | F | M | G | T | F | W | L | V | L | G | G | C | G | S | A | V | L | A | A | A | F | P | N | V | G | I | G | L | L | G | V | A | L | A | F | G | L | T | V | L | T | M | A | Y | A | I | G | H | I | S | G | C | H | L | N | P | A | V | T | I | G | L | W | A | G | G | R | F | P |   | : |   |   | 7 | 6 |
O | P | M |   |   |   |   |   |   |   |   | : |   | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | + | + | + | + |   | : |   |   | 5 | 5 |
T | M | H | M | M |   |   |   |   |   |   | : |   | - | + | + | + | + | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + |   | : |   |   | 4 | 6 |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | h |   |   |   |   | h |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |
  |   |   |   |   |   |   |   |   |   |   |   |   |   | 8 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 1 | 0 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 1 | 2 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 1 | 4 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |   |   |   |
1 | R | C | 2 | : | A |   |   |   |   |   | : |   | A | K | E | V | V | G | Y | V | I | A | Q | V | V | G | G | I | V | A | A | A | L | L | Y | L | I | A | S | G | K | T | G | F | D | A | A | A | S | G | F | A | S | N | G | Y | G | E | H | S | P | G | G | Y | S | M | L | S | A | L | V | V | E | L | V | L | S | A | G | F | L | L | V | I | H | G | A | T | D |   | : |   | 1 | 5 | 4 |
A | 0 | K | H | U | 2 | _ | A | E | R |   | : |   | A | S | G | V | L | P | Y | M | V | A | Q | V | L | G | G | I | A | A | A | A | V | L | Y | V | I | A | S | G | Q | A | G | F | D | L | A | A | - | G | F | A | S | N | G | Y | G | E | H | S | P | G | G | Y | S | M | L | A | A | L | V | C | E | V | V | M | T | G | F | F | L | F | V | I | M | G | A | T | D |   | : |   | 1 | 5 | 2 |
O | P | M |   |   |   |   |   |   |   |   | : |   | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + |   | : |   |   | 9 | 9 |
T | M | H | M | M |   |   |   |   |   |   | : |   | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | + | + | + | - | + | + | + | + | + | + | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + |   | : |   |   | 9 | 2 |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | h |   |   |   |   |   |   |   |   |   |   |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | 1 | 6 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 1 | 8 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 2 | 0 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   | 2 | 2 | 0 |   |   |   |   |   |   |   |   |   | * |   |   |   |   |   |   |   |
1 | R | C | 2 | : | A |   |   |   |   |   | : |   | K | F | A | P | A | G | F | A | P | I | A | I | G | L | A | L | T | L | I | H | L | I | S | I | P | V | T | N | T | S | V | N | P | A | R | S | T | A | V | A | I | F | Q | G | G | W | A | L | E | Q | L | W | F | F | W | V | V | P | I | V | G | G | I | I | G | G | L | I | Y | R | T | L | L | E | K | R | D |   | : |   | 2 | 3 | 1 |
A | 0 | K | H | U | 2 | _ | A | E | R |   | : |   | S | R | A | P | A | G | F | A | P | I | A | I | G | L | C | L | T | L | I | H | L | I | S | I | P | V | T | N | T | S | V | N | P | A | R | S | T | G | V | A | F | F | V | G | D | W | A | L | G | Q | L | W | L | F | W | V | A | P | I | V | G | A | I | L | G | A | L | A | Y | R | A | I | A | T | K | A | - |   | : |   | 2 | 2 | 8 |
O | P | M |   |   |   |   |   |   |   |   | : |   | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + |   | : |   | 1 | 5 | 0 |
T | M | H | M | M |   |   |   |   |   |   | : |   | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | + | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | H | + | + | + | + | + | + | + | + | - |   | : |   | 1 | 3 | 8 |
  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | H |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |
Сравниваем полученное предсказание с данными ОРМ.
Результаты предсказания топологии мембранного белка A0KHU2_AERHH.
Число а.к. остатков | |
Всего а.к. остатков | 228 |
Остатки, предсказанные как локализованные в мембране (всего) | 138 |
Правильно предсказали (true positives, TP) | 114 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 24 |
Правильно не предсказали (не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 54 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 36 |
Чувствительность (sensivity) = TP / (TP+FN) | 76% |
Специфичность (specificity) = TN / (TN+FP) | 69,2% |
Точность (precision) = TP / (TP+FP) | 82.6% |
Сверхпредсказание = FP/ (FP+TP) | 17.4% |
Недопредсказание = FN / (TN+FN) | 40% |
В целом получились средние результаты, хотя необходимо учитывать трудность задачи,
поставленной перед программой предсказания. Процесс предсказания разметки трансмембранных
сегментов вообще еще мало разработан, поэтому
точность и чувствительность в 82.6 и 76% являются хорошими показателями. Проценты сверхпредсказания и
недопредсказания, как видно из рисунка вравнивания, главным образом, набираются в начале выравнивания, где
наблюдается сильный сдвиг разметок относительно друг друга.
Следует помнить также, что последовательности исследуемого белка (использованного для предсказания),
и прототипа (от которого бралась эталонная разметка) сходны на 80%, а не на 100.
И все-таки недопредсказание в целых 40% и картинка выравнивания дает мысль предположить, что TMHMM плохо
обнаруживает небольшие мембранные участки белка (в нашем случае предсказания было обнаружено на 2 таких участка меньше, чем
в реальном белке).