Домены и профили

Выбор домена и доменной архитектуры

В базе данных Pfam была найден домен gag gene protein p17 (matrix protein). Подробную информацию о нем можно найти ниже. Выбор был мотивирован тем, что моя работа в лаборатории связана с белками ВИЧ-1. Для семейства были скачаны все белковые последовательности .

ID Accession Type Number of sequences Average length Average %id Average coverage Description HMM information. Model length
Gag_p17 PF00540 Domain 3 (seed), 68 (full), 63284 (Uniprot) 132.1 55 14.79 Changed gag gene protein p17 (matrix protein) 140

Далее была выбрана наиболее подходящая архитектура (присутсвующая у 19 белков из выравнивания) со следующим порядком доменов: Gag_p17, Gag_p24, Gag_p24_C, zf-CCHC x 2, Gag_p6. Двухдоменная архитектура с достаточным количеством белков отсутсвовала (в трех предыдущих интересных мне доменах с подходящими параматерами тоже не было найдено двухдоменных артитектур), поэтому было решено взять приведенную выше. Идентификатор второго исследуемого домена - PF00607. Здесь можно найти список АС белков этой архитектуры.

Наконец, из всех белковых последовательностей изучаемого семейства в соответсвии с найденным выше списоком АС были получены белки, нужные для анализа. В программе Jalview было сделано выравнивание . Далее выравнивание было отредактировано вручную: были удалена одна последовательность (Remove redundancy, 98%), а также были обрезаны концы последовательностей, не входящие в состав доменов. На основании отредактированного выравнивания создавался HMM-профиль архитектуры.

hmm2build profile alig_pr9_edit.fasta

hmm2calibrate profile

hmmsearch --cpu=1 profile full.fasta > res_pr9.txt

Полученные файлы: HMM профиль после калибровки , файл с результатами HMMsearch

таблица с результатами

Picture 1. Распредление длин белков