HMM-профили и эволюционные домены

Выбор семейства Pfam

Для этого практикума я выбрал белки, содержащие домены семейства 7tm_1, они представляют собой G-белок-сопряжённые рецепторы (GPCR) родопсинового типа. Эти рецепторы играют ключевую роль в передаче сигналов через клеточную мембрану, реагируя на широкий спектр внешних сигналов — от света и гормонов до нейромедиаторов. Они характеризуются семью трансмембранными альфа-спиралями, образующими бочонкообразную структуру.

AC: PF00001

ID: 7tm_1

Name: 7 transmembrane receptor (rhodopsin family)

seed: 63

full: 289903

Подсемейство выделено по доменной архитектуре — белки, содержащие домены PF13306 (LRR_5), PF12369 (GnHR_trans) и PF00001 (7tm_1) в тандеме, представленные у белка S7MU62. Таких белков 33. Домен LRR_5 (PF13306) — отвечает за связывание гормона. Домен GnHR_trans (PF12369) — трансмембранный домен, преобразует сигнал от гормона в клеточный ответ. Такая архитектура характерна для рецептора фолликулостимулирующего гормона (FSHR).

Всего таких белков оказалось 33, их последовательности мы скачали и выровняли с помощью программы muscle.

Построение профиля HMM

HMM-профиль был построен с помощью команды:

hmmbuild --amino hmm_result alignment.fasta

Файл hmm_result содержит результат выполнения команды.

Поиск профилем

Сначала мы скачали последовательности полных белков семейства PF00001 (так как белков 428 тысяч, ограничились Reviewed). Скачанные последовательности находятся в файле protein-matching-PF00001.fasta. Запустили поиск своим профилем по этим белкам с помощью команды:

hmmsearch -o hmm_find hmm_result protein-matching-PF00001.fasta

Выбор порога

Минимальный score среди найденных белков подсемейства составил 1348.0. Оптимальный порог был выбран равным 1300, так как разрыв в весе с белками из других подсемейств составляет ~ 400. При пороге 1300.0 все найденные белки подсемейства (15 из 33) классифицируются как истинно положительные. Восемнадцать белков подсемейства не были обнаружены профилем, что я связываю с таксономическими особенностями рассматриваемых видов.

Таблица 1. Находки PSI-BLAST.
Вес выше порога Вес ниже порога
Принадлежит подсемейству 15 0
Не принадлежит подсемейству 0 843

Профиль HMM находит 15 из 33 белков подсемейства (45.5%), но среди всех 843 находок с высоким весом только 15 — истинные, остальные 828 — ложные. Это связано с тем, что домен 7tm_1 консервативен во всём семействе, и профиль не всегда отличает нужную архитектуру, хотя необходимые домены различил без труда. Важно замемтить, что большую часть ложных находок составили белки: LHR (Lutropin-choriogonadotropic hormone receptor) - рецепторы лютеинизирующего гормона (LH) и хорионического гонадотропина (CG); TSHR (Thyrotropin receptor) - рцепторы тиреотропного гормона (TSH); LGR4/5/6 (Leucine-rich repeat-containing G-protein coupled receptors) - рецепторы, содержащие лейцин-богатые повторы (LRR).