Для выполнения задания был выбран домен дегидрохиназы-3.
Он встречается как у бактерий, так и у эукариот, образует 91 различную доменную архитектуру.
Информация об доменах, составляющих выбранную архитектуру (соответсвует 98 последовательностям), представлена в таблице
Таблица 1.
Описание выбранных мотивов
ID домена
AC домена
Название
Число последовательностей среди бактерий
DHquinase_I
PF01487
Type I 3-dehydroquinase
1198
Shikimate_dh_N
PF08501
Shikimate dehydrogenase substrate binding domain
9035
Изображение доменной архитектуры:
С использованием Uniprot были надены бактериальные последовательности, содержащие эти (и только эти) домены. Таблица с результатами поиска приведена по ссылке:
Построение HMM-профиля по выбранной архитектуре и проверка его работы
Для дальнейшей работы была сделана выборка последовательностей типичной длины, для чего предварительно была сделана гистограмма длин. Выборка и запрос в Uniprot выполнялись этим кодом (jupyter notebook)
Полученную выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой.
Для последовательностей было получено множественное выравнивание, из которого затем удалены малоконсервативные участки с концов, явные вставки и делеции, хоть и не все (иначе бы осталось слишком мало)
В итоговом выравнивании осталось 38 последовательностей (что, правда, чуть меньше 40)
Результатом их выполнения стал файл arch.hmm. Для проверки полученного профиля из Uniprot были скачаны последовательности всех бактериальных белков с доменом PF01487 в составе (этот, а не второй потому, что по нему поменьше находок).
Команда:
database:(type:pfam pf01487) taxonomy:bacteria
После чего над скачанным файлом выполнена команда, осуществляющая проверку построенного профиля:
hmm2search arch.hmm all_pf00359.fasta.gz
Выдача программы была обработана и вставлена в Excel таблицу (ROC-кривая лежит в ней на третьем листе), где уже велась дальнейшая работа с ней.
Пороговым был выбран score = 672.2, как score находки с максимальным F1 - средним гармоническим между специфичностью и чувствительностью. В результате этом специфичность профиля составила 0.985, а чувствительность всего 0.167.