Для выолнения данного задания был выбран домен, рассматриваемый ранее в предыдущем практикуме - PF00648 - домен семейства белков кальпаинов, являющихся цитозольными кальций-активируемыми цистеиновыми протеазами. В базе данных Uniprot был выполнен поиск по запросу в таксоне Metazoa: database:(type:pfam id:PF00648) taxonomy:metazoa AND reviewed:yes. В результате было найдено 62 последовательности, информация о которых была скачана и преобразована в таблицу. Было выяснено, что найденные последовательности принадлежат к разным доменным архитектурам, следовательно для выполнения задания была выбрана доменная архитектура - PF01067;PF00648 (в таблице отмечены знаками +, осталось 25 последовательностей).
![]() |
Далее с помощью команды был построен профиль выравнивания.
Команда:
hmm2build -g profile.out aligned.mfa |
После чего проводилась калибровка полученного профиля.
Команда:
hmm2calibrate profile.out |
Полученный профиль доступен по ссылке.
С помощью следующей команды проводился поиск в файле uniprot_sprot.fasta по построенному профилю, для осуществления более правильного поиска убирался порог E-value и снижался порог веса до -50:
hmm2search --domE 1000 --domT -50 profile.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > find.out |
Получееные данные были добавлены в таблицу, с помощью функции ВПР были добавлены пометки (Y) о последовательностях, которые изначально брались для построения профиля. Полученная таблица доступна по ссылке.
Была построена гистограмма весов всех находок, результат этой работы представлен на Рис. 2. По данной гистограмме видно, что происходит разделение на группы с относительно большим score примерно больше 1000, а далее наблюдается скачок, где все score меньше 500, что свидетельствует в пользу того, что именно это значение нужно взять пороговым.
![]() |
После чего по найденным порогам была построена ROC-кривая, представленная на Рис. 3.
В результате был выбран порог 479, для которого Specificity равно 0,57, а Sensitivity - 1,
precision профиля - 0,3, precision порога - 0,5. Выше даннного порога лежат все находки, по которым
изначально строился профиль, ниже него - только какие-то дополнительные значения.
По данному порогу видно, что построенный профиль не является достаточно качественным и надежным,
так как по итогам поиска лишь 30% последовательностей составляют нужные последовательности, остальные 70%
являются лишними.