Практикум 9. Домены и профили

Выбор домена

Для удобства работы искомый домен должен удволетворять ряду требований. Я выбрал для работы домен Rad9_Rad53_bind (PF08605) , его характеристики приведены в таблице 1.

ID ad9_Rad53_bind
Accession PF08605
Type Domain
Seed 7
Full 167
Average length 137.9
Average %id 34
Average coverage 10.5
HMM profile length 129

С данным доменом найдено 9 архитектур, я выбрал архитектуру, которая обнаружена в 26 белках, в ней идут два домена в таком порядке: Rad9_Rad53_bind, BRCT_2 - Рисунок 1.

arch
Рисунок 1. Топология выбранной архитектуры.

Для построения HMM-профиля и дальнейшего поиска белков мне потребуются файлы с полными последовательностями белков выравнивания full данного домена, последовательности белков с выбранной архитектурой. Необходимую сортировку по принадлежности белков к архитектуре, а также действия с выдачей hmmsearch я проводил в моем Colab notebook.

С помощью программы множественного выравнивания MUSCLE и Jalview и было произведено множественное выравнивание и удалены последовательности с идентичностью выше 90%. Также я удалил 6 последовательностей с крцпными вставками или делециями в доменах архитектуры и сократил выравнивание изначально из примерно 1500 символов, оставив фрагмент с координатами 770-1350 в выравнивании, в котором находятся домены выбранной архитектуры. Результат в файле. Далее я приступил к получению HMM-профиля.

Список команд для локального запуска программ пакета HMMER на kodomo:

Результаты работы программ: hmm_search_result.txt, hmmout.txt. Длина созданного профиля HMM 460 символов.

Далее в том же notebook я определил для каждой находки, принадлежит ли она к выбранной архитектуре (есть ли её AC в списке, взятом со страницы домена Pfam). Результат я экспортировал в Google-таблицы, там построил ROC-кривую для результатов работы hmm2search (Рисунок 2).

ROC
Рисунок 2. ROC-кривая.

Максимальное расстояние красного графика от прямой y=x находится в точке 1-spec = 0,04, sens = 0,9. Рассмотрим эти параметры как порог положительного сигнала в находке. Виден резкий скачок в чувствительности, при малом изменении 1-специфичности, поэтому я выбрал как порог параметр sens = 0,9. Построил по нему колонку "Сигнал +". Визуально сигнал почти везде совпал с данными о наличии архитектуры в находке. Значит, выбранный мною порог удачный.

Также привожу диаграмму распределения длин белков в full.

ROC
Рисунок 3. Диаграмма распределения длин белков в full. По вертикали количество, по горизонтали длина.