Домены и профили

Для выполнения задания был выбран домен дегидрохиназы-3. Он встречается как у бактерий, так и у эукариот, образует 91 различную доменную архитектуру. Информация об доменах, составляющих выбранную архитектуру (соответсвует 98 последовательностям), представлена в таблице

Таблица 1.
Описание выбранных мотивов
ID домена AC домена Название Число последовательностей среди бактерий
DHquinase_I PF01487 Type I 3-dehydroquinase 1198
Shikimate_dh_N PF08501 Shikimate dehydrogenase substrate binding domain 9035

Изображение доменной архитектуры:

С использованием Uniprot были надены бактериальные последовательности, содержащие эти (и только эти) домены. Таблица с результатами поиска приведена по ссылке:

Таблица

Построение HMM-профиля по выбранной архитектуре и проверка его работы

Для дальнейшей работы была сделана выборка последовательностей типичной длины, для чего предварительно была сделана гистограмма длин. Выборка и запрос в Uniprot выполнялись этим кодом (jupyter notebook)
Полученную выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой. Для последовательностей было получено множественное выравнивание, из которого затем удалены малоконсервативные участки с концов, явные вставки и делеции, хоть и не все (иначе бы осталось слишком мало)
В итоговом выравнивании осталось 38 последовательностей (что, правда, чуть меньше 40)

Команды, которые для этого потребуются:

	hmm2build arch.hmm align_cut.fasta
	hmm2calibrate arch.hmm
Результатом их выполнения стал файл arch.hmm. Для проверки полученного профиля из Uniprot были скачаны последовательности всех бактериальных белков с доменом PF01487 в составе (этот, а не второй потому, что по нему поменьше находок). Команда:
	database:(type:pfam pf01487) taxonomy:bacteria
После чего над скачанным файлом выполнена команда, осуществляющая проверку построенного профиля:
	hmm2search arch.hmm all_pf00359.fasta.gz
Выдача программы была обработана и вставлена в Excel таблицу (ROC-кривая лежит в ней на третьем листе), где уже велась дальнейшая работа с ней.
Пороговым был выбран score = 672.2, как score находки с максимальным F1 - средним гармоническим между специфичностью и чувствительностью. В результате этом специфичность профиля составила 0.985, а чувствительность всего 0.167.