Отчет по практикуму 9
Построение HMM-профиля семейства белков и проверка его работы
Выбор домена и доменной архитектуры
Для работы был выбран домен гамма-субъединицы ацетон-карбоксилазы. Основные параметры этого домена приведены в таблице 1.
ID | Accession | Type | Seed | Full | Uniprot | Average length | Average %id | Average coverage | Description |
Acetone_carb_G | PF08882 | Domain | 27 | 307 | 1790 | 106.8 | 36 | 48.03 | Acetone carboxylase gamma subunit |
Для составления HMM-профиля была взята двухдоменная архитектура A0A1H6FYJ5_THEAL, содержащая перед описанным выше доменом домен гидантоиназы B. Данная архитектура включает 38 последовательностей. По данным pfam длина профиля для этого домена равна 114. Таким образом, выбранная доменная архитектура соответствует требованиям, описанным в указаниях.
Работа с выборками
Для дальнейшей работы был получен список AC последовательностей с данной доменной архитектурой. Путем сопоставления этих AC с описанием последовательностей всех белков shchepetov-full-307.fasta, содержащих выбранный домен, были вычленены 38 последовательностей с выбранной доменной архитектурой two_domain_9.fasta. AC всех последовательностей из выборки full также были получены.
Последовательности с подходящей доменной архитектурой были выравнены при помощи muscle в программе Jalview, результат выравнивания доступен по ссылке. Для составления представительной выборки была произведена ревизия: были удалены слишком длинные и слишком короткие последовательности, колонки, состоящие из гэпов, а также участки перед и между доменами. В результате была получена выборка из 26 последовательностей, доступная по ссылке.
HMM-профиль
На основе представительной выборки был получен и откалиброван HMM-профиль, который затем был использован для поиска в shchepetov-full-307.fasta. Результаты поиска доступны по ссылке.
Для этого использовались следующие команды:
hmm2build profile alig.fasta
hmm2calibrate profile
hmm2search --cpu=1 profile shchepetov-full-307.fasta &> hmmsearch_log.txt
Далее была построена гистограмма длин белков shchepetov-full-307.fasta (рис. 1): видно, что существует 2 группы разной длины - более 300, содержащие 2 домена и менее 300 - содержащие 1 домен.
На основе поиска по HMM-профилю был построен график распределения весов белков из shchepetov-full-307.fasta (рис. 2). На данном графике наблюдается достаточно резкое падение веса последовательностей, по-видимому, отражающее высокую специфичность профиля.
Наконец, была построена ROC-кривая (рис. 3). Площадь под кривой оказалась равна 0.9936, что говорит о хорошем качестве классификации при помощи полученного профиля. F1-score составил 0.2203.