Практикум 11

Создание HMM-профиля

1)Выбрала для работы домен PF10549,ORF11CD3 domain,ORF11CD3
Этот белковый домен встречается в различных организмах и может играть ключевую роль в нескольких биологических процессах. Хотя точная функция этого домена пока что не установлена окончательно, предполагается, что он может быть вовлечен в регуляцию транскрипции генов, механизмы сигнальной передачи или поддержанию иммунных реакций.
Seed = 6
Full = 110
Ave.length = 52,5
Ave.id% in full alignment = 35
Ave.coverage$ of a seq = 29,79
Uniprot : 1255
Domain architectures = 7
Для изучения была выбрана двухдоменная архитектура, состоящая из KilA-N, ORF11CD3(Сначала идет PF04383 потом PF10549
2)Подготовка последовательности :
-Сначала скачал все последовательности в FASTA формате
-После чего отобралf уникальные AC всех последовательностей c помощью скрипта в питон и получила отбранные АС
После проела выравниевание в Jailview. Были удалены фрагменты до первого домена и после второго и с большим процентом идентичности. В итоге работаем с 17 последовательностями
3)HMM профиль
К полученному отредактированному выравниваю применила серию команд:
hmm2build profile final.fasta
hmm2calibrate profile
hmm2search --cpu=1 -E 1 HMM fully.fasta> results.txt
hmm2build строит HMM-профиль , hmm2calibrate калибрует его,hmmsearch производит поиск изучаемой двудоменной архитектуры в переданных последовательностях с порогом E-value 0.01 фаил результатов
4)Исследование HMM профиля
Поместила результаты в excel(Sequence,E-value,score,ARC) посчитала specificity, 1 - sensitivity и F1.Таблицу можно посмотреть здесь. В последствии получил два графика: сначала гарфик распредееления весов, далее визуализировал ROC кривую

фото
img 1. Распределение

фото
img 2. ROC-curve
На графике наблюдается значительное снижение весов, а ROC-кривая явно имеет выпуклую форму.