Домены и профили
Я решила использовлать домен PF00017, с которым я работала в предыдущем практикуме. Всего PF00017 входит в состав 1689 доменных архитектур. Я выбрала архитектуру SH2 - Y_phosphatase (PF00017 - PF00102), характерную для 182 белков. Выравнивание последовательностей.
Я определила приблизительные координаты N-концевого домена (SH2) и С-концевого домена и обрезала их, а затем снова выровняла последовательности. Я удалила самые крупные делеции и с помощью remove redundancy с порогом 95% я оставила 49 последовательностей: файл. Для негативного контроля я взяла белки с доменной архитектурой PF00017 - PF12796 - PF00023 - PF00017 - PF07714 (196 белков) и PF02865 - PF02864 - PF21354 - PF00017 (78 белков). Негативный контроль был включен в общую выборку вместе со всеми рассмотреными белками выбранного домена (всего белков - 456): Все последовательности. Далее я создала HMM-профиль:
hmm2build hmmout pr11_another.fasta
hmm2calibrate hmmout
hmm2search --cpu=1 hmmout full.fasta > result.txt
HMM-профиль, все находки в полной выборке.
Далее с помощью скрипта Каримовой Карины, чтобы интерпретировать профиль. По графикам видно, что негативная и позитивная выборка очень четко разделены.