При выборе была использована таблица, составленная Владиславом Мурзиным. Таблица содержит домены, отвечающие требованиям, указанным в практикуме.
Для работы был выбран домен GAGA.
Файл со всеми последовательностями.
Далее была выбрана архитектура "BTB, GAGA" представленная в базе данных 77 последовательностями.
Таким образом была создана таблица, содержащая в одной колонке AC всех последовательностей, содержащих домен GAGA, а в другой информацию о том, содержит ли данная последовательность и BTB домен тоже ("+" - содержит, "-" - не содержит).
Был получен FASTA-файл с последовательностями с архитектурой "BTB, GAGA". Последовательности были выровнены в программе MEGA с помощью алгоритма muscle. Исходное выравнивание доступно по ссылке.
Далее выравнивание было отредактировано. Были удалены плохо выровненные последовательности, удалены участки до первого и после второго мотивов. Таким образом получена выборка из 41 последовательности. Отредактированное выравнивание доступно по ссылке.
При помощи команды
hmm2build profile btb_gaga_align_red.fas
был получен HMM-профиль. Командой
hmm2calibrate profile
профиль был откалиброван.
При помощи команды
hmmsearch --cpu=1 profile full.fasta
был произведен поиск доменной архитектуры по базе данных белков из ранее полученного файла. Выдача программы доступна по ссылке.
На основе выдачи программы составлена приведенная ниже таблица (она же в формате СSV).
df
При помощи скрипта была построена ROC-кривая. По ее форме можно сделать вывод о достаточно хорошем качестве HMM-профиля. ROC-кривая приведена ниже.
Image('ROC.png')
Также посчитан пороговый вес с наибольшим значением F1, он оказался равным 207,2.