Выбрал Tcell_CD4_C, он является С-концевым доменом Т-клеточного рецептора CD4. С-концевой домен представляет собой цитоплазматический домен, который передает сигнал для активации Т-клеток. Этот процесс включает интернализацию корецепторов. Этот домен участвует в связывании с N-концом корецептора Lck в структуре застежки Zn2+.
Он имеет следующие характеристики
С сайта Pfam cкачал полные последовательности выборки full в формате fasta (Chekalin-full-165.fasta).
Наиболее полной двухдоменной архитектурой содержащей Tcell_CD4_C является CD4-extracel, Tcell_CD4_C. В ней 25 последовательностей.
По AC белков отобрал последовательности из Chekalin-full-165.fasta, которые имеют данную архитектуру. Выровнял в Jalview (исходное выравнивание). Удалил участки до начала первого домена и после конца второго, затем еще убрал избыточные последовательности с порогом по идентичности 90%. Конечное выравнивание содержало 12 белков.
Для построения HMM-профиля, его калибровки и поиска по нему белков семейства в последовательностях выравнивания full был использован пакет HMMER со следующими командами:
hmm2build -g hmm.txt filtered_alignment.fasta
hmm2calibrate hmm.txt
hmm2search --cpu 1 hmm.txt Chekalin-full-165.fasta > search.txt
Построенный HMM-профиль имеет длину 261 АК. Выдача программы hmm2search
Основные характеристики находок по профилю (из выдачи hmm2search) были занесены в таблицу (для её создания за основу брался скрипт Георгия Муравьева).
Белки в исходном семействе имели следующее распределение по длинам
Далее, используя F1 меру был определен порог веса, когда специфичность (specifity) и точность (precision) должны быть оптимальны, он равен около 580. На основании данных была построена ROC-кривая, по площади которой можно судить о неплохом качестве построенного профиля, то есть, поставленная задача решается хорошо