Определение целевого семейства

Для выолнения данного задания был выбран домен, рассматриваемый ранее в предыдущем практикуме - PF00648 - домен семейства белков кальпаинов, являющихся цитозольными кальций-активируемыми цистеиновыми протеазами. В базе данных Uniprot был выполнен поиск по запросу в таксоне Metazoa: database:(type:pfam id:PF00648) taxonomy:metazoa AND reviewed:yes. В результате было найдено 62 последовательности, информация о которых была скачана и преобразована в таблицу. Было выяснено, что найденные последовательности принадлежат к разным доменным архитектурам, следовательно для выполнения задания была выбрана доменная архитектура - PF01067;PF00648 (в таблице отмечены знаками +, осталось 25 последовательностей).

Построение и калибровка профиля для целевого семейства

Далее с помощью программы Jalview было построено выравнивание отобранных последовательностей, после чего были удалены фрагменты и подозрительные последовательности. Проект выравнивания доступен по ссылке, а часть выравнивания представлена на Рис. 1.

Рис. 1. Выравнивание отобранных последовательностей.

Далее с помощью команды был построен профиль выравнивания.
Команда:

hmm2build -g profile.out aligned.mfa

После чего проводилась калибровка полученного профиля.
Команда:

hmm2calibrate profile.out

Полученный профиль доступен по ссылке.

Получение результатов поиска по профилю по "SwissProt"

С помощью следующей команды проводился поиск в файле uniprot_sprot.fasta по построенному профилю, для осуществления более правильного поиска убирался порог E-value и снижался порог веса до -50:

hmm2search --domE 1000 --domT -50 profile.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > find.out

Получееные данные были добавлены в таблицу, с помощью функции ВПР были добавлены пометки (Y) о последовательностях, которые изначально брались для построения профиля. Полученная таблица доступна по ссылке.

Построение ROC-кривой

Была построена гистограмма весов всех находок, результат этой работы представлен на Рис. 2. По данной гистограмме видно, что происходит разделение на группы с относительно большим score примерно больше 1000, а далее наблюдается скачок, где все score меньше 500, что свидетельствует в пользу того, что именно это значение нужно взять пороговым.

Рис. 2. Гистограмма весов находок.

После чего по найденным порогам была построена ROC-кривая, представленная на Рис. 3.

Рис. 3. ROC-кривая.

В результате был выбран порог 479, для которого Specificity равно 0,57, а Sensitivity - 1, precision профиля - 0,3, precision порога - 0,5. Выше даннного порога лежат все находки, по которым изначально строился профиль, ниже него - только какие-то дополнительные значения.
По данному порогу видно, что построенный профиль не является достаточно качественным и надежным, так как по итогам поиска лишь 30% последовательностей составляют нужные последовательности, остальные 70% являются лишними.