Для удобства работы искомый домен должен удволетворять ряду требований. Я выбрал для работы домен Rad9_Rad53_bind (PF08605) , его характеристики приведены в таблице 1.
ID | ad9_Rad53_bind |
Accession | PF08605 |
Type | Domain |
Seed | 7 |
Full | 167 |
Average length | 137.9 |
Average %id | 34 |
Average coverage | 10.5 |
HMM profile length | 129 |
С данным доменом найдено 9 архитектур, я выбрал архитектуру, которая обнаружена в 26 белках, в ней идут два домена в таком порядке: Rad9_Rad53_bind, BRCT_2 - Рисунок 1.
Для построения HMM-профиля и дальнейшего поиска белков мне потребуются файлы с полными последовательностями белков выравнивания full данного домена, последовательности белков с выбранной архитектурой. Необходимую сортировку по принадлежности белков к архитектуре, а также действия с выдачей hmmsearch я проводил в моем Colab notebook.
С помощью программы множественного выравнивания MUSCLE и Jalview и было произведено множественное выравнивание и удалены последовательности с идентичностью выше 90%. Также я удалил 6 последовательностей с крцпными вставками или делециями в доменах архитектуры и сократил выравнивание изначально из примерно 1500 символов, оставив фрагмент с координатами 770-1350 в выравнивании, в котором находятся домены выбранной архитектуры. Результат в файле. Далее я приступил к получению HMM-профиля.
Список команд для локального запуска программ пакета HMMER на kodomo:
Результаты работы программ: hmm_search_result.txt, hmmout.txt. Длина созданного профиля HMM 460 символов.
Далее в том же notebook я определил для каждой находки, принадлежит ли она к выбранной архитектуре (есть ли её AC в списке, взятом со страницы домена Pfam). Результат я экспортировал в Google-таблицы, там построил ROC-кривую для результатов работы hmm2search (Рисунок 2).
Максимальное расстояние красного графика от прямой y=x находится в точке 1-spec = 0,04, sens = 0,9. Рассмотрим эти параметры как порог положительного сигнала в находке. Виден резкий скачок в чувствительности, при малом изменении 1-специфичности, поэтому я выбрал как порог параметр sens = 0,9. Построил по нему колонку "Сигнал +". Визуально сигнал почти везде совпал с данными о наличии архитектуры в находке. Значит, выбранный мною порог удачный.
Также привожу диаграмму распределения длин белков в full.