Практикум 10.

HMM-профили и эволюционные домены

Для построения HMM-профиля было выбрано семейство DEAD/DEAH box helicase (Pfam AC: PF00270). Белки с этим доменом характеризуются наличием консервативного домена Asp-Glu-Ala-Asp (DEAD) и участуют в различных процессах, связанных с метаболизмом РНК, таких как транскрипция, сплайсинг пре-мРНК, транспорт РНК из ядра в цитоплазму и пр. Последовательностей в seed и full 181 и 298321 соответственно.
Далее, было выбрано подсемейство с доменной архитектурой PF00270 - PF09373. В нем содержится 47 белков, имеющих, помимо домена DEAD, домен PMBR (Pseudomurein-binding repeat - домен, специфически связывающийся с псевдомуреином).
Затем, белковые последовательности этого подсемейства были выравнены алгоритмом MAFFT для создания HMM-профиля.

American beaver
Рис.1. Выравниване 47 последовательностей с доменной архитектурой PF00270 - PF09373. Красным выделен домен DEAD box.
  • Результат выравнивания
  • По полученному выравниванию с помощью программы hmmbuild был построен профиль данного подсемейства:

    hmmbuild --amino hmmbuild_out2.hmm DEAD.fa
    

    Всего в семействе содержится 593000 белков, что слишком много для того, чтобы InterPro мог сгенерировать их все. Поэтому поиск был проведен по белковым последовательньстям бактерий класса Alphaproteobacteria (всего 27849 последовательностей):

    hmmsearch -o hmmsearch5.out hmmbuild_out.hmm pr10bact_seq2.fasta
    

    С помощью python-скрипта был определен оптимальный score:

    Score TP FP FN TN
    299.0 37 117 0 96
  • Скрипт
  • В данном случае, оптимальным score я выбрал 299.0, т. к. при таком значении число True positive находок равно 37, что является максиммальным числом для белков в этой таксономической группе. Не найденные 10 белков принадлежат другим классам.