HMM-профиль семейства белков и проверка его работы
В рамках этого практикума я буду работать с доменом Carbohydrate binding module 77 (ID: CBM77, AC: PF18283)
Число последовательностей в full | 96 |
---|---|
Число последовталеьностей в seed | 13 |
Число последоватлеьностей в Uniprot | 412 |
Средняя длина домена | 108.1 |
Среднее сходство | 42% |
Средний процент покрытия последовталеьности белка доменом (coverage) | 11.82% |
Число доменных архитектур | 22 |
Длина HMM профиля | 109 |
Далее были найдены доменные архитектуры, соответвующие критериям: есть еще домен, помимо CBM77 и встречается более, чем у 20 белков, но менее чем у половины белков с выбранным доменом. Таких две: первая с Pectate_lyase_4 (41 последовталеьность) , вторая с Pectate_lyase_4 и Por_Secre_tail (25 последовталеьностей). Для дальнейше работы выбрали первую архитектуру, AC:PF00544 (Рис 1).
![Письма мастера дзен](./data/pr9/domain.png)
Были скачаны все последовательности выбранного семейства, выделены их AC и убраны 3 пары дубликатов. Были скопированы все AC белков, соответствующих выбраной архитектуре. Затем были скачаны белковые послдовательности, соответвующие этим AC. Эти последовательности были выравнены в Jalview алгоритмом Muscle. В выравнивании были найдены и вырезаны участки с доменами. Также были убраны последовательности, которые плохо выравнялись и имели высокую (почти 100 %) схожесть.
Был построен HMM профиль выбранной двухдоменной архитектуры и был нормирован вес:
$ hmm2build hmm_profile sorted_domains.fasta
$ hmm2calibrate hmm_profile
Затем был проведен поиск профиля по последовательностям из всего семейства.
hmm2search -E 0.1 --cpu=2 hmm_profile domain_all.fasta > hmm_search.txt
Из файла полученного hmm2search была создана таблица. Была построена гистограмма длин белков семейства (Рис 2), для белков из нашего домена характерна длина в диапазоне 733-1003.Также было построено распределение весов находок, где из интересного мы наблюдаем после 450 резкий спад до 90 (Рис 3).
![Рис. 2](./data/pr9/domain_histogram.png)
![Рис. 3](./data/pr9/score_distribution.png)
Был построен график зависимости F1. При миниальных значениях чувствительности линия плавная, затем растёт, достигает пика и убывает.
![Письма мастера дзен](./data/pr9/f1:score.png)