В базе данных Pfam была найден домен gag gene protein p17 (matrix protein). Подробную информацию о нем можно найти ниже. Выбор был мотивирован тем, что моя работа в лаборатории связана с белками ВИЧ-1. Для семейства были скачаны все белковые последовательности .
ID | Accession | Type | Number of sequences | Average length | Average %id | Average coverage | Description | HMM information. Model length |
Gag_p17 | PF00540 | Domain | 3 (seed), 68 (full), 63284 (Uniprot) | 132.1 | 55 | 14.79 | Changed gag gene protein p17 (matrix protein) | 140 |
Далее была выбрана наиболее подходящая архитектура (присутсвующая у 19 белков из выравнивания) со следующим порядком доменов: Gag_p17, Gag_p24, Gag_p24_C, zf-CCHC x 2, Gag_p6. Двухдоменная архитектура с достаточным количеством белков отсутсвовала (в трех предыдущих интересных мне доменах с подходящими параматерами тоже не было найдено двухдоменных артитектур), поэтому было решено взять приведенную выше. Идентификатор второго исследуемого домена - PF00607. Здесь можно найти список АС белков этой архитектуры.
Наконец, из всех белковых последовательностей изучаемого семейства в соответсвии с найденным выше списоком АС были получены белки, нужные для анализа. В программе Jalview было сделано выравнивание . Далее выравнивание было отредактировано вручную: были удалена одна последовательность (Remove redundancy, 98%), а также были обрезаны концы последовательностей, не входящие в состав доменов. На основании отредактированного выравнивания создавался HMM-профиль архитектуры.
hmm2build profile alig_pr9_edit.fasta
hmm2calibrate profile
hmmsearch --cpu=1 profile full.fasta > res_pr9.txt
Полученные файлы: HMM профиль после калибровки , файл с результатами HMMsearch