Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite

Вернуться на страницу семестра

1. PSI-BLAST

Цель задания: Для последовательности белка P19954 составить семейство гомологов, пользуясь PSI-BLAST
В PSI-BLAST были проведены 5 итераций по белку AC P19954 (Ribosome-binding factor PSRP1, chloroplastic). Это рибосом-связывающий фактор в хлоропластах, участвующий в регулировании синтеза белка в зависимости от света и температуры. Взаимодействует с 16S-sRNA на A-сайте и P-сайте, где он защищает центр декодирования и ингибирует трансляцию путем предотвращения связывания с тРНК.

Таблица 1. Результаты поиска PSI-BLAST

Номер итерацииЧисло находок выше порога (0,005)Идентификатор худшей находки выше порогаE-value этой находкиИдентификатор лучшей находки ниже порогаE-value этой находки
116P30334.1 0.004P0AD51.20.062
228A8MIN1.10.005Q0C0T0.1 0.026
3202A8ZZJ0.16e-005Q86UX2.2 0.089
4303P9WMA8.1 3e-004Q97ES0.10.13
5303P24694.1 1e-010B2RHG5.10.23

В последней итерации E-value худшей и лучшей находки различаются на 8 порядков, следовательно, найденное семейство довольно достоверное.

2. Prosite

Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий
Для работы с базой данных паттернов были выбраны бактерии из практикума 2. В банке Prosite была найдена страница Ribosomal protein L1.
Паттерн - [IMGV]-x(2)-[LIVA]-x(2,3)-[LIVMY]-[GAS]-x(2)-[LMSF]-[GSNH]-[PTKR]-[KRAVG]-[GN]-x-[LIMF]-P-[DENSTKQPRAGVI].
В выравнивании я нашла данный паттерн, он приведён на рисунке 1. Если его уточнить для данных протеобактерий, получится: V-G-[RQ]-L-G-x(2)-L-G-P-R-G-L-M-P-N.

Рис. 1. Паттерн RL1, найденный в выравнивании


Находок в ScanProsite по паттерну 215 штук.
Поиск "правильного списка" в Uniprot по mnemonic:rl1_* taxonomy:proteobacteria (в работе 1 использовались белки RL1). Находок 427. Средствами Python найдено пересечение этих множеств. Сравним находки:

Таблица 2. Сравнение находок

В правильном списке427
В предполагаемом списке215
В обоих списках (True positives)185
Только в правильном списке (False negatives)242
Только в предполагаемом списке (False positives)30

Вывод: уточнение паттерна было слишком сильным, что позволило уменьшить число неверных находок - всего 30. Но при это не нашлось очень много правильных белков - 242 - больше половины.





© Миронова Екатерина 2018 год