Для выполнения задания был взят домен DACZ_N (PF19294), который использовался в предыдущем практикуме. DAC - специфическая диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Домен соответвует требованиям:
Я выбрала доменную архитертуру, приведенную на Рис.1.
Скачивание производилось согласно указаниям. Назвала скаченный файл full.fasta
Из полученного ранее файла full.fasta, используя скрипт, был получен список уникальных AC
Далее получила список белков (их AC) с доменной архитектурой из Pfam.
Выравнивание строила в Jalview. Провела ревизию выравнивания: удалила последовательности с идентичностью выше 85%. Привожу результат выравнивания и оптимизации.
Для построения HMM-профиля использовала пакет HMMER, который установлен на kodomo. Были запущены следующие команды:
hmm2build hmm allign.fa
hmm2calibrate hmm
hmm2search --cpu=1 hmm full.fasta &> out.txt
Программой hmm2build построила профиль, программой hmm2calibrate отколлибровала его. Поиск по профилю осуществила программой hmm2search. Результат: out.txt
На основе этих файлов с помощью скрипта, позаимствованного мной у Геннадия Беляева (выражаю благодарность), была создана таблица
Затем в Excel были построены графики:
ROC-кривая была построена по полученным 1-specificity и sensitivity. У меня складывается ощущение, что она выглядит довольно странно в моем случае, потому что почти все последовательности в full.fasta принадлежали выбранной доменной архитектуре. Чтобы найти наиболее подходящий порог, была проведена прямая, соединящая конечные точки данной кривой и найден максимум длины от кривой до этой прямой. Точка, расположенная на максимальном расстоянии от пямой отмечена красным, ее кооорднаты (0, 0,385). Эти значения соотвествую весу - 339,7.
При падении весов заметна характерная ступенька.
Последний график был построен по колонкам Score и F1 в вышеприведенной таблице. Можно заметить, что резкий спад на графике произошел в той позиции, когда координата по оси с весом равна примерно 340 - это вес, котрый мы как раз предположили оптимальным.