Практикум 9

Отчет по практикуму 9

Построение HMM-профиля семейства белков и проверка его работы

Выбор домена и доменной архитектуры

Для работы был выбран домен гамма-субъединицы ацетон-карбоксилазы. Основные параметры этого домена приведены в таблице 1.

Табл. 1. Основные параметры выбранного домена.
ID Accession Type Seed Full Uniprot Average length Average %id Average coverage Description
Acetone_carb_G PF08882 Domain 27 307 1790 106.8 36 48.03 Acetone carboxylase gamma subunit

Для составления HMM-профиля была взята двухдоменная архитектура A0A1H6FYJ5_THEAL, содержащая перед описанным выше доменом домен гидантоиназы B. Данная архитектура включает 38 последовательностей. По данным pfam длина профиля для этого домена равна 114. Таким образом, выбранная доменная архитектура соответствует требованиям, описанным в указаниях.

Работа с выборками

Для дальнейшей работы был получен список AC последовательностей с данной доменной архитектурой. Путем сопоставления этих AC с описанием последовательностей всех белков shchepetov-full-307.fasta, содержащих выбранный домен, были вычленены 38 последовательностей с выбранной доменной архитектурой two_domain_9.fasta. AC всех последовательностей из выборки full также были получены.

Последовательности с подходящей доменной архитектурой были выравнены при помощи muscle в программе Jalview, результат выравнивания доступен по ссылке. Для составления представительной выборки была произведена ревизия: были удалены слишком длинные и слишком короткие последовательности, колонки, состоящие из гэпов, а также участки перед и между доменами. В результате была получена выборка из 26 последовательностей, доступная по ссылке.

HMM-профиль

На основе представительной выборки был получен и откалиброван HMM-профиль, который затем был использован для поиска в shchepetov-full-307.fasta. Результаты поиска доступны по ссылке.

Для этого использовались следующие команды:


        hmm2build profile alig.fasta
        hmm2calibrate profile
        hmm2search --cpu=1 profile shchepetov-full-307.fasta &> hmmsearch_log.txt
    

Далее была построена гистограмма длин белков shchepetov-full-307.fasta (рис. 1): видно, что существует 2 группы разной длины - более 300, содержащие 2 домена и менее 300 - содержащие 1 домен.

Рис. 1. Гистограмма длин белков.

На основе поиска по HMM-профилю был построен график распределения весов белков из shchepetov-full-307.fasta (рис. 2). На данном графике наблюдается достаточно резкое падение веса последовательностей, по-видимому, отражающее высокую специфичность профиля.

Рис. 2. График распределения весов последовательностей.

Наконец, была построена ROC-кривая (рис. 3). Площадь под кривой оказалась равна 0.9936, что говорит о хорошем качестве классификации при помощи полученного профиля. F1-score составил 0.2203.

Рис. 3. ROC-кривая для полученного HMM-профиля, пунктирной линией обозначена ROC-кривая случайного классификатора (baseline).