практикум №11

HMM-профили и эволюционные домены.


Выбор домена и подсемейства

Для выполнения практикума было выбрано семейство C-концевой регион рецептора CD4 T-клеток (АС: PF12104, short name: Tcell_CD4_C).

CD4 — это гликопротеин, который является корецептором для Т-клеточного рецептора (TCR). CD4 находится на поверхности различных иммунных клеток и, соответственно, относится к суперсемейству иммуноглобулинов. С-концевой домен CD4 является цитоплазматическим и способен связываться с тирозинкиназой Lck для активации Т-клеток.

Внутри семейства выбрано подсемейство по доменной архитектуре (рис. 1). Подсемейство включает 51 белок и состоит из двух доменов. Второй домен - V-set (АС: PF07686), также является иммуноглобулином.

Рис. 1. Доменная архитектура, по которой выбрано подсемейство домена PF12104.
Рис. 2. Домен PF12104 в выбранной для выделения подсемейства архитектуре.

Последовательности белков подсемейства были выравнены в Jalview алгоритмом Muscle с параметрами по умолчанию, затем путем удаления столбцов было оставлено только выравнивание домена (позиции 529-556 выравнивания). Домен в выравнивании был выделен по его длине и положению в архитектуре (рис. 1, 2) и путем сравнения с выравниваем seed (рис. 3, 4). Поскольку в подсемействе не оказалось очень похожих последовательностей (redundancy 90%), то для создания профиля использовалось выравнивание доменов также из 51 последовательности.

Возможно, на этом этапе кроется ошибка, и надо было оставить два домена, укоротив выравнивание только по краям. Таким образом, поиск проводился бы на предмет доменной архитектуры, что как раз отличает белки подсемейства от семейства. Однако, тогда результат был бы больше похож на «профиль HMM по последовательностям полных белков».

Рис. 3. Часть выравнивания seed домена PF12104.
Рис. 4. Часть выравнивания домена PF12104 последовательностей подсемейства.

Построение HMM-профиля

Для построения HMM-профиля, его калибровки и поиска им по всем белкам семейства с целью выделения подсемейства были использованы команды из пакета HMMER:

hmm2build domain_subfamily.hmm domain_subfamily.fa
hmm2calibrate domain_subfamily.hmm
hmm2search --cpu 1 -T 0 domain_subfamily.hmm protein-matching-PF12104.fasta > pr11.txt

Использованные и полученные файлы лежат в ~/term4/pr11.

Построенный HMM-профиль длины 28 амк. Выдача программы hmm2search.

Определение оптимального порога на вес находки

Для определения оптимального порога на вес находки, который лучше всего выделяет подсемейство на фоне семейства, был использован ROC-анализ. На идею использования данного метода натолкнуло требование указать «численные характеристики выделения...», которые являются результатом классификации находок как принадлежащих/не п. к подсемейству и с весом выше/ниже порога. ROC-кривая описывает взаимосвязь между чувствительностью модели (TPR, долей истинно положительных находок) и её специфичностью (FPR, количество прогнозов, ошибочно отнесённых в положительные).

  • TPR = TP/(P);
  • FPR = FP/(N).

По похожим параметрам, Точности = TP/(TP+FP) и Полноте = TP/(TP+FN), можно рассчитать F-меру, которая используется для выбора оптимального порога и оценки качества классификатора.

  • F = 2*(Точность*Полнота)/(Точность+Полнота)

Было подготовлено два файла - набор идентификаторов белков подсемейства и укороченная таблица из выдачи hmm2search, содержащая только имена находок и их вес (score). Для их анализа был написан скрипт. При запуске программы hmm2search порог Т установлен на 0, чтобы получить вес всех последовательностей.

С помощью скрипта было получено, что оптимальным порогом на вес является Т = 47.8. Средний вес положительных находок 47.9, при этом распределены они от 27.8 до 54.1. Среднее значение для отрицательных находок - 42.2 (распределение 0.0-57.6). Меньше, чем половина находок выше порога (48.8%) является истинно положительной. Численные характеристики выделения подсемейства профилем приведены в табл. 1.

Таблица 1. Численные характеристики выделения подсемейства построенным HMM-профилем.
True False
Positives 21 22
Negatives 369 30

Выводы

Профиль ловит общие черты всего семейства, а не специфичные черты подсемейства. Вероятно, все-таки стоило оставить в выравнивании оба домена. Вес положительных и отрицательных находок в среднем различается только на 5.7, а также некоторые отрицательные находки имеют более высокий вес, чем положительные. Почти половина предсказаний ложные. Таким образом, построенный HMM-профиль недостаточно специфичен для выделения подсемейства.