Мною был выбран домен CD4-extracel PF09191. Он имеет seed 20. 393 белка в Uniprot со средней длиной 108.2. Средняя идентичность полного выравнивания - 50%. Среднее покрытие последовательности доменом - 24.14%. CD4 (кластер дифференцировки 4) представляет собой молекулу, которая экспрессируется на поверхности Т-хелперных клеток (а также регуляторных Т-клеток и дендритных клеток). На Т-клетках CD4 является корецептором рецептора Т-клеток (TCR) и рекрутирует тирозинкиназу lck.
Была выбрана структура A0A663F4F2_AQUCH свойственная 25 последовательностям и содержащая всего два домена: Tcell_CD4_C (PF12104) и CD4_extracel.
Для данного доменна были получены файлы со списком всех белков данного домена. После был получен файл со всеми АС из раздела архитектуры. И файл с их последовательностями.
После получения выравниваний этих последовательностей в Jalview. Далее были удалены белки, гомологичные на 99% (Remove redundancy 99%). выравнивание
Командами был получен HMM профиль:
hmm2build profile CD_jal.fa
hmm2calibrate profile
hmmsearch --cpu=1 profile full.fasta > res_pr93.txt
hmm2search --cpu=1 profile full.fasta &> result2.txt
Полученные файл с калибровкой и результат
Из файла, полученного hmm2search с помощью скрипта была создана таблицы Тык
Наиболее характерная длина белков этого домена - 437-473.
Столбец true включает в себя значение yes, если белок содержит два домена из архитектуры и no, если не содержит. Столбец 1-spec и sensetivity показывают специфичность и чувствительность предсказания принадлежности к двухдоменной архитектуре. По этим двум параметрам я построил ROC-кривую, но, к большому сожалению, видимо из-за сильной несбалансированности выборки (27 yes, 144 no) ROC-кривая не может считаться достоверным показателем.
Помимо ROC-кривой был построен график падения Score'а, который может быть использован для определения порога по месту начала падения. Также был построен график функции F1 - среднего гармонического специфичности и чувствительности.
По графику падения Score можно увидеть, что спад приходится где-то на 800-620 и локальный максимум на F1 приходится также примерно на это значение. Соответственно, можно принять, что порог будет примерно 720 (к сожалению, проанализировать ROC-кривую не представляется возможным). И визуально проанализировав также можно увидеть, что все белки с двухдоменной организацией находятся выше этого порога и только один из них не является таковым.