Все файлы, используемые и получаемые в данном практикуме лежат директории ~/term4/pr11
Для анализа в данном задании я выбрала домен PF09191(ID - CD4-extracel, Name - CD4, extracellular).
Выравнивание seed содержит 20 последоватльностей, full - 312.
Члены этого семейства содержат иммуноглобулиноподобный домен, который в своей структуе имеет два бета-листа с топологией "греческий ключ". Эти домены преимущественно локализованы во внеклеточной части белка CD4 и участвуют во взаимодействии с антигенами главного комплекса гистосовместимости класса II (MHC II).
Подсемейство было выделено по доменной архитектуре: PF09191 - PF12104
C помощью программы множественного выравнивания Mafft и Jalview было сделано множественное выравнивание и удаление последовательностей с идентичностью выше 90%.После этого в выравнивании осталось 83 последовательности.
Для создания HMM-профиля были использованы следующие команды (программы пакета HMMER2 на kodomo):
1. Построение HMM-профиля
hmm2build -f out.hmm aalig.fa
2. Калибровка
hmm2calibrate out.hmm
В результате был получен HMM-профиль длиной 407 a.o
3.Поиск по HMM-профилю в выборке full
hmm2search --cpu=1 out.hmm full.fa &> result.txt
При пороге 200 было найдено 138 находок
Численные характеристики выделения подсемейства профилем:
True | False | |
---|---|---|
Positive | 83 | 55 |
Negative | 174 | 0 |
TP — True positives, число находок, принадлежащих подсемейству с весом выше порога
FP — False positives, число находок не из подсемейства, но в весом выше порога
FN — False negatives, число находок из подсемейства, но в весом ниже порога
N — True negatives, число находок не из подсемейства и с весом ниже порога
Профиль достаточно хорошо находит белки подсемейства. 60% хитов действительно относятся к подсемейству.