Практикум 11. HMM-профили и эволюционные домены

Все файлы, используемые и получаемые в данном практикуме лежат директории ~/term4/pr11

Для анализа в данном задании я выбрала домен PF09191(ID - CD4-extracel, Name - CD4, extracellular).

Выравнивание seed содержит 20 последоватльностей, full - 312.

Члены этого семейства содержат иммуноглобулиноподобный домен, который в своей структуе имеет два бета-листа с топологией "греческий ключ". Эти домены преимущественно локализованы во внеклеточной части белка CD4 и участвуют во взаимодействии с антигенами главного комплекса гистосовместимости класса II (MHC II).

Подсемейство было выделено по доменной архитектуре: PF09191 - PF12104

Рис 1. Выбранная доменная архитектура PF09191 - PF12104

C помощью программы множественного выравнивания Mafft и Jalview было сделано множественное выравнивание и удаление последовательностей с идентичностью выше 90%.После этого в выравнивании осталось 83 последовательности.

Для создания HMM-профиля были использованы следующие команды (программы пакета HMMER2 на kodomo):

1. Построение HMM-профиля

hmm2build -f out.hmm aalig.fa

2. Калибровка

hmm2calibrate out.hmm

В результате был получен HMM-профиль длиной 407 a.o

3.Поиск по HMM-профилю в выборке full

hmm2search --cpu=1 out.hmm full.fa &> result.txt

При пороге 200 было найдено 138 находок

Выдача программы

Численные характеристики выделения подсемейства профилем:

True False
Positive 83 55
Negative 174 0

TP — True positives, число находок, принадлежащих подсемейству с весом выше порога

FP — False positives, число находок не из подсемейства, но в весом выше порога

FN — False negatives, число находок из подсемейства, но в весом ниже порога

N — True negatives, число находок не из подсемейства и с весом ниже порога

Профиль достаточно хорошо находит белки подсемейства. 60% хитов действительно относятся к подсемейству.