Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite.

1. PSI-BLAST

Для выполнения данного задания был выбран белок HPF (ribosome hibernation promotion factor, AC: P17265) протеобактерии Sinorhizobium meliloti 1021. Этот белок участвует в димеризации рибосомных частиц 70s, активных при трансляции, и образования неактивных частиц 100s.

Для этого белка был проведен поиск гомологов в банке Swiss-Prot с помощью белкового BLAST (BLASTP) по алгоритму PSI-BLAST. Порог лучших находок - 0.005 (по умолчанию).

Результат поиска в BLASTP
Номер итерации Число находок выше порога (0,005) AC худшей находки выше порога E-value этой находки AC лучшей находки ниже порога E-value этой находки
1 17 P0A147 7e-04 P26983 0.027
2 27 P33987 1e-08 P9WMA8 0.015
3 28 P9WMA8 0.002 Q6P9R4 0.028
4 28 P24694 3e-18 P27321 0.22

4ая итерация уже не выдала новых находок (обычно если есть, они выделены жёлтым), поэтому на этом поиск завершился. Все лучшие находки относятся к семейству белков HPF, хотя организмы, из которых были взяты эти белки, сильно различаются по таксономии. К примеру, среди прочих программа нашла HPF Spinacia oleracea - шпината огородного.

2. Prosite

Для данного задания было выбрано семейство белков RPOB - бета-субъединица траскриптазы. Для поиска паттерна в программу Prosite была подана мнемоника PROB_SALTY. В выдаче Prosite указаны координаты участка, соответствующего паттерну, а также приведена гиперссылка на страницу семейства со статистической характеристикой паттерна.

Затем данный паттерн был найден в выравнивании (проект JalView). Несмотря на большую толщину выравнивания, паттерн оказался абсолютно одинаковым во всех последовательностях. Более того, встретились консервативные колонки вокруг паттерна.


Фрагмент выравнивания. Паттерн выделен цветом.

Итак, в Prosite был подан Pattern: G-D-K-M-A-G-R-H-G-N-K-G-V-[VI]-S и запрошен результат в формате Matchlist. Программа нашла 525 мнемоник белков, обладающих такой последовательностью.

Теперь нужно узнать, сколько из них действительно являются родственниками исходных белков. Для этого из Uniprot был получен "правильный" список 410 белков RPOB из Proteobacteria, а скриптом Python нашлось пересечение этих двух списков.

True positives, TP 385 число истинных находок (пересечение списков)
False positives, FP 140 число тех белков, которые нашлись паттерном,
но не входят в правильный список
False negatives, FN 25 число ненайденных правильных белков


© Svetlana Kozyulina 2018