Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite.


Задание 1

В данном практикуме у выбрал идентификатор P74518. Он соответствует белку Ribosome hibernation promotion factor, функция которого димеризовать способные к трансляции 70 S рибосомы в транскрипционно неактивные 100 S рибосомы.
Таблица 1. Результаты PSI-BLAST
№ итерации Число находок выше порога (0.005) AC худшей находки E-value худшей находки AC лучшей находки ниже порога E-value лучшей находки ниже порога
1 24 P33987.1 3e-05 Q65SX3.1 4.8
2 28 P9WMA8.1 3e-06 Q5K2N3.3 0.15
3 28 P24694.1 2e-20 Q0BSD5.2 0.064


В ходе последних двух итерациях число находок не поменялось , однако поменялся их расположение.
Худшая находка в итерации 2 при итерации 3 оказалась четвертая с конца, а худшая находка в итерации 3 при итерации 2 была третьей с конца.
Тем не менее, разрыв в E-value между худшей находкой над порогом и лучшей под порогом остается большим - порядка "e-18".
Отсюда, я могу чделать вывод, что данные белковые последовательности составляют семейство гомологичных белков.


Задание 2

Для выполнения этого задания нужно было в банке Prosite произвести поиск паттернов, описывающих семейство белков ENOLASE (PS00164).
Консенсусный паттерн: [LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA]
Мотив в ENO_ECOLI: ILIKFNQIGSLTET
Последовательность белков для ENO представленно в файле.
Было построено их выравнивание через Muscle (by Default). На рисунке 1 представлено данное выравнивание.
Рисунок 1. Выравнивание

В полученном выравнивании был выделен блок с паттерном, показанный на рисунке 2(красный прямоугольник).


Рисунок 2. Блок выравнивания с паттерном


Более строгий консенсусный паттерн ENOLASE: [LIM]-L-[IV]-K-[IVF]-N-Q-I-G-[ST]-L-[ST]-E-T


Список находок по паттерну: matchlist.list
Правильный список ENO белков: uniprot.list
Число находок по паттерну 532
Число правильных находок 396
True positives 299
False positives 233
False negatives 97



© Угольков Ярослав, 2018