Домены и профили


Выбор домена и доменной архитектуры, содержащей этот домен

Для этого задания я решила выбрать домен PF17979 – Cysteine rich domain with multizinc binding regions (богатый цистеином домен с областями связывания мультицинка). Основная информация о домене:

Я выбрала подсемейство, содержащее два домена: zf-C3HC4_2 и zf-CRD (Q4RPJ1). zf-C3HC4_2 – PF13923, Zinc finger, C3HC4 type (RING finger). Про функцию подсемейства ничего не указано. Всего 149 белков с такой архитектурой. В них сначала располагается домен zf-C3HC4_2, а за ним – zf-CRD.

Скачала последовательности белков подсемейства и построила выравнивание в JalView с помощью Mafft. Далее с помощью Remove redundancy удалила очень похожие последовательности. Остановилась на redundancy treshold 95%. После этого осталось 58 последовательностей. Также удалила 6 последовательностей, у которых были длинные последовательности между очень консервативными участками. Итак осталось 52 белка.

Выравнивание можно скачать по ссылке. Длина выравнивания 1613.

Создание HMM-профиля двух-доменной архитектуры

Построила HMM-профиль с помощью следующих команд:

hmm2build hmm_out two_domains.fa

hmm2calibrate hmm_out

hmm2search --cpu 1 hmm_out full.fasta > search_results.txt

Длина профиля 607. В Pfam указано, что длина данной доменной архитектуры 709.

Анализ

Для анализа обработала таблицу с резцультатами поиска в Excel. Оставила только нужную информацию и правильно настроила табуляцию. Полученная таблица находится в файле table.txt.

Обработка результатов была выполнена в блокноте в колабе. На рисунках ниже представлены гистограммы весов и длин белков:

score
Рис 1. Гистограмма распределения весов. Если брать за порог положительное значение, то это около 400
length
Рис 2. Гистограмма распределения длин белков. Есть белки с длиной, сильно превышающей длины других
length2
Рис 3. Гистограмма распределения длин белков без выбросов

К таблице были добавлены две новые колонки: 'Domain architecture' и 'Used for HMM-profile'. Значение 1 соответствует да, 0 – нет.

Итоговая таблица

Домен нашёлся в 1917 последовательностях из 1968.

roc
Рис 4. ROC curve
f1
Рис 5. F1

Оптиамльное соотношение чувствительности и специфичности, исходя из графика ROC: чувствительность 0,7 и специфичность 0,3. Кривая ROC, конечно, очень далека от идеала, но всё же охватывает верхний левый угол графика. Это говорит о том, что модель не очень хорошо распознаёт домен zf-CRD в белках.

По графику зависимости F1 от веса порог также, как и по гистограмме, равен примерно 400.