Для этого задания я решила выбрать домен PF17979 – Cysteine rich domain with multizinc binding regions (богатый цистеином домен с областями связывания мультицинка). Основная информация о домене:
Я выбрала подсемейство, содержащее два домена: zf-C3HC4_2 и zf-CRD (Q4RPJ1). zf-C3HC4_2 – PF13923, Zinc finger, C3HC4 type (RING finger). Про функцию подсемейства ничего не указано. Всего 149 белков с такой архитектурой. В них сначала располагается домен zf-C3HC4_2, а за ним – zf-CRD.
Скачала последовательности белков подсемейства и построила выравнивание в JalView с помощью Mafft. Далее с помощью Remove redundancy удалила очень похожие последовательности. Остановилась на redundancy treshold 95%. После этого осталось 58 последовательностей. Также удалила 6 последовательностей, у которых были длинные последовательности между очень консервативными участками. Итак осталось 52 белка.
Выравнивание можно скачать по ссылке. Длина выравнивания 1613.
Построила HMM-профиль с помощью следующих команд:
hmm2build hmm_out two_domains.fa
hmm2calibrate hmm_out
hmm2search --cpu 1 hmm_out full.fasta > search_results.txt
Длина профиля 607. В Pfam указано, что длина данной доменной архитектуры 709.
Для анализа обработала таблицу с резцультатами поиска в Excel. Оставила только нужную информацию и правильно настроила табуляцию. Полученная таблица находится в файле table.txt.
Обработка результатов была выполнена в блокноте в колабе. На рисунках ниже представлены гистограммы весов и длин белков:
К таблице были добавлены две новые колонки: 'Domain architecture' и 'Used for HMM-profile'. Значение 1 соответствует да, 0 – нет.
Домен нашёлся в 1917 последовательностях из 1968.
Оптиамльное соотношение чувствительности и специфичности, исходя из графика ROC: чувствительность 0,7 и специфичность 0,3. Кривая ROC, конечно, очень далека от идеала, но всё же охватывает верхний левый угол графика. Это говорит о том, что модель не очень хорошо распознаёт домен zf-CRD в белках.
По графику зависимости F1 от веса порог также, как и по гистограмме, равен примерно 400.