HMM-профили

Выбор семейства Pfam

Для выполнения данного практикума было выбрано семейство белков PF00006 (ATP synthase alpha/beta family, nucleotide-binding domain), с которым мы работали во втором семестре. В целом, АТФ-синтаза - белок не требующий представления, стоит лишь сказать, что его каталитические сайты располагаются между исследуемыми нами альфа- и бета-субъедницами.
Количество белков в seed — 355
Количество белков в full — 55 092 Как подсемейство я выбрал белки со следующей доменной архитектурой:
PF00006 - PF22919 - PF02823
Такую архитектуру в частности отражает M0ZKF0 (H(+)-transporting two-sector ATPase) из картшки Solanum tuberosum
Всего таких белков оказалось 25, их последовательности мы скачали и выровняли с помощью программы muscle.

Построение HMM-профиля

Сперва, консольными методами, опираясь на полученное выравнивание, мы выделили части белковых последовательностей, которые принадлежат доменам. По полученному файлу domains.fasta мы уже строили HMM-профиль. Для построения HMM-профиля мы использовали программу hmmbuild:
hmmbuild --amino hmm_result domains.fasta
где: --amino - опция указывающая на то, что выравненные последовательности аминокислотные
hmm_result - выходной файл
domains.fasta - выравненные последовательности доменов

Далее мы скачали все Reviewed последовательности семейства PF00006 (всего 2407 последовательности). И осуществили поиск белков со схожей архитектурой, с помощью полученного HMM-профиля.
hmmsearch -o hmm_find hmm_result protein-matching-PF00006\(1\).fasta
где -o - название выходного файла
Всего было найдено 253 находки, что заметно больше белков с нашей архитектурой

Определение оптимального порога