HMM-профили и эволюционные домены
Выбор семейства Pfam
Для этого практикума я выбрал белки, содержащие домены семейства 7tm_1, они представляют собой G-белок-сопряжённые рецепторы (GPCR) родопсинового типа. Эти рецепторы играют ключевую роль в передаче сигналов через клеточную мембрану, реагируя на широкий спектр внешних сигналов — от света и гормонов до нейромедиаторов. Они характеризуются семью трансмембранными альфа-спиралями, образующими бочонкообразную структуру.
AC: PF00001
ID: 7tm_1
Name: 7 transmembrane receptor (rhodopsin family)
seed: 63
full: 289903
Подсемейство выделено по доменной архитектуре — белки, содержащие домены PF13306 (LRR_5), PF12369 (GnHR_trans) и PF00001 (7tm_1) в тандеме, представленные у белка S7MU62. Таких белков 33. Домен LRR_5 (PF13306) — отвечает за связывание гормона. Домен GnHR_trans (PF12369) — трансмембранный домен, преобразует сигнал от гормона в клеточный ответ. Такая архитектура характерна для рецептора фолликулостимулирующего гормона (FSHR).
Всего таких белков оказалось 33, их последовательности мы скачали и выровняли с помощью программы muscle.
Построение профиля HMM
HMM-профиль был построен с помощью команды:
Файл hmm_result содержит результат выполнения команды.
Поиск профилем
Сначала мы скачали последовательности полных белков семейства PF00001 (так как белков 428 тысяч, ограничились Reviewed). Скачанные последовательности находятся в файле protein-matching-PF00001.fasta. Запустили поиск своим профилем по этим белкам с помощью команды:
Выбор порога
Минимальный score среди найденных белков подсемейства составил 1348.0. Оптимальный порог был выбран равным 1300, так как разрыв в весе с белками из других подсемейств составляет ~ 400. При пороге 1300.0 все найденные белки подсемейства (15 из 33) классифицируются как истинно положительные. Восемнадцать белков подсемейства не были обнаружены профилем, что я связываю с таксономическими особенностями рассматриваемых видов.
| Вес выше порога | Вес ниже порога | |
|---|---|---|
| Принадлежит подсемейству | 15 | 0 |
| Не принадлежит подсемейству | 0 | 843 |
Профиль HMM находит 15 из 33 белков подсемейства (45.5%), но среди всех 843 находок с высоким весом только 15 — истинные, остальные 828 — ложные. Это связано с тем, что домен 7tm_1 консервативен во всём семействе, и профиль не всегда отличает нужную архитектуру, хотя необходимые домены различил без труда. Важно замемтить, что большую часть ложных находок составили белки: LHR (Lutropin-choriogonadotropic hormone receptor) - рецепторы лютеинизирующего гормона (LH) и хорионического гонадотропина (CG); TSHR (Thyrotropin receptor) - рцепторы тиреотропного гормона (TSH); LGR4/5/6 (Leucine-rich repeat-containing G-protein coupled receptors) - рецепторы, содержащие лейцин-богатые повторы (LRR).