Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite

Практикум №6

PSI-BLAST

Данные

Из предложенных идентификатором мною был выбран AC Q67XL4.
В БД NCBI указано, что данный идентификатор соответствует РНК-связывающемуся белку CRS1.
Данный белок принадлежит организму вида Arabidopsis thaliana.

По данному белку был произведен поиск в базе данных NR BLAST. В качестве порога было установлено E-value = 0.0001

Также существует standalone-версия PSI-BLAST: она входит в пакет BLAST+. Объект для поиска и базы данных задаются обычным образом с помощью аргументов -query и -db или -subject. Возможно производить поиск на серверах NCBI BLAST с помощью аргумента -remote. При локальном поиске возможно задать количество итераций с помощью аргумента -num_iterations. Для удаленного поиска следует использовать сохранение PSS-матрицы в файл с помощью аргумента -out_pssm и ее загрузку в следующей итерации с помощью -in_pssm. Результаты сохраняются с помощью аргумента -out.

Таблица итераций PSI-BLAST:

Iter Hits Last hit ID E-value First non-hit E-value
1 1933 XP_008648232.1 9·10-5 EMS68471.1 1·10-4
2 2726 WP_094598663.1 1·10-4 XP_018719681.1 1·10-4
3 3127 WP_055107333.1 7·10-5 WP_062104616.1 1·10-4
4 9004 KMZ11791.1 1·10-4 WP_048414212.1 1·10-4
5 11228 WP_076146176.1 1·10-4 ACS33696.1 1·10-4

Prosite

Паттерны

В банке Prosite было найдено два паттерна, описывающих семейство белков RS2 (Ribosomal protein S2). Название совпадает с названием семейства в банке Prosite: Ribosomal protein S2.
Паттерны:
[LIVMFA]-x-{GPRV}-[LIVMFYC](2)-{LPC}-[STAC]-[GSTANQEKR]-[STALV]-[HY]-[LIVMF]-G
P-x(2)-[LIVMF](2)-[LIVMS]-x-[GDN]-x(3)-[DENL]-x(3)-[LIVM]-x-E-x(4)-[GNQKRH]-[LIVM]-[AP]
Для дальнейшей работы был выбран первый из них.

Поиск паттернов для Proteobacteria

Мною было сделано выравнивание всех 18 белков RS2 данных в практикуме 1 протеобактерий. С их помощью был построен первый паттерн, точность которого оставляла желать лучшего. Для увеличения избирательности паттерна мною было проделано еще 5 итераций по сбору данных из FP и FN и изменений паттерна. Результаты вы можете видеть в таблице:

Pattern TP FP FN
M-R-[DQ]-[ML]-[LI]-{LPC}-A-G-V-H-F-G-H-Q-[ST] 224 2 180
[MV]-[RKH]-[DEQNK]-[ML]-[LIF]-{LPC}-[TAC]-G-[VC]-H-[FY]-G-H-[QKR]-[STK] 327 176 77
[MV]-R-[DEQNK]-[ML]-[LIF]-{LPC}-[TAC]-G-[VC]-H-[FY]-G-H-[QKR]-[STK] 280 8 124
[MI]-R-[DEQNKA]-[ML]-[LIF]-{LPC}-[TAC]-G-[VAC]-H-[FY]-G-H-[QKR]-[STKA] 306 9 98
[MI]-R-[DEQNKA]-[ML]-[VLIF]-{LPC}-[TACS]-G-[VACI]-H-[FY]-G-H-[QKR]-[TASK] 311 25 93
[MI]-[RK]-[DEQNKA]-[ML]-[VLIF]-{LPC}-[TACS]-G-[VACI]-H-[FY]-G-H-[QKR]-[TASK] 366 211 38

Наибольший интерес представляет тот факт, что протеобактерии от других таксонов очень заметно отличает вторая позиция паттерна: у подавляющего большинства протеобактерий в этой позиции R, а K почти не встречается, в отличие от других групп. Это вполне очевидно следует из послдних двух строк таблицы выше.


© Arsenii Loginovskii, 2016-2018
Лого ФББ