В прошлом практикуме я в числе прочего изучал внеклеточную часть рецептора CD4 (Pfam: PF09191). Для этого домена есть 25 архитектур. Я выбрал архитектуру из двух доменов, описанную ниже.
Он встречается в 120 белках, среди которых в качестве типового выделяют A0A087RHA1 (белок, содержащий Ig-подобный домен). При помощи remove redundancy в JalView с redundancy threshold 80 оставил только 40 белков, которые я выравнял при помощи Clustal Omega и дополнительно обрезал от N-конца первого домена до C-конца второго. Крупных делеций в выравнивании не было.
При помощи команд из пакета HMMER был создан и откалиброван HMM-профиль. С его помощью был проведен поиск по общей выборке (она состоит от позитивной, обучающей и негативной выборок).
hmm2build -g profile.txt test.fa
hmm2calibrate profile.txt
hmm2search --cpu 1 profile.txt negative.fa > hmm2search_negative.output.txt
hmm2search --cpu 1 profile.txt full.fa > hmm2search_full.output.txt
Далее представлены результирующие файлы: HMM-профиль, результаты поиска во всей выборке и отдельно в негативной выборке (как и ожидалось, везде отрицательный score).
Затем при помощи скрипта Каримовой Карины была получена итоговая таблица находок, и по ней были построены гистограммы находок в разных выборках (рис. 1-3).