HMM-профили
Выбор семейства Pfam
Для выполнения данного практикума было выбрано семейство белков
PF00006 (ATP synthase alpha/beta family, nucleotide-binding domain),
с которым мы работали во втором семестре. В целом, АТФ-синтаза - белок не требующий представления, стоит лишь сказать, что
его каталитические сайты располагаются между исследуемыми нами альфа- и бета-субъедницами.
Количество белков в seed — 355
Количество белков в full — 55 092
Как подсемейство я выбрал белки со следующей доменной архитектурой:
PF00006 - PF22919 - PF02823
Такую архитектуру в частности отражает M0ZKF0 (H(+)-transporting two-sector ATPase) из картшки Solanum tuberosum
Всего таких белков оказалось 25, их последовательности мы скачали и выровняли с помощью программы muscle.
Построение HMM-профиля
Сперва, консольными методами, опираясь на полученное выравнивание, мы выделили части белковых последовательностей, которые принадлежат доменам. По полученному файлу domains.fasta мы уже строили HMM-профиль.
Для построения HMM-профиля мы использовали программу hmmbuild:
hmmbuild --amino hmm_result domains.fasta
где: --amino - опция указывающая на то, что выравненные последовательности аминокислотные
hmm_result - выходной файл
domains.fasta - выравненные последовательности доменов
Далее мы скачали все Reviewed последовательности семейства PF00006 (всего 2407 последовательности). И осуществили поиск
белков со схожей архитектурой, с помощью полученного HMM-профиля.
hmmsearch -o hmm_find hmm_result protein-matching-PF00006\(1\).fasta
где -o - название выходного файла
Всего было найдено 253 находки, что заметно больше белков с нашей архитектурой
Определение оптимального порога