В базе данных Pfam была найден домен Rieske 3Fe-4S, ID = PF18465. Этот домен состоит из железосернистого кластера и субъединицы Rieske, обнаруженной в большой субъединице арсенитоксидазы. Арсенитоксидаза представляет собой 100 кДа молибден- и железо-серосодержащий белок, расположенный на внешней поверхности внутренней мембраны грамотрицательных организмов. Для семейства были скачаны все белковые последовательности. Число белков с доменом в выборках: seed = 19, ful = 155. Длина HMM профиля составляет 94 аминокислоты. По ссылке доступна информация об этом домене.
Порядок доменов в архитектуре следующий: Rieske_3, Molybdopterin, Molydop_binding. В выравнивании было 92 белка с архитектурой. Длина профиля HMM двухдоменной архитектуры составляет 864.
Команды построения профиля, калибровки, поиска по профилю
Из файла, полученного командой hmm2search, с помощью скрипта была получена таблица, содержащая информацию о 153 находках: AC, Domain, seq-f, seq-t, hmm-f, hmm-t, score, E-value. Также был добавлен столбец true с ответами yes – если AC встретился в списке белков с данной архитектурой, или no в обратном случае случае. Данная таблица была экспортирована в Excel, после чего с помощью формул для нее были посчитаны значения specificity, 1 - sensitivity и F1. Таблица с данными, формулами и графиками доступна по ссылке. По полученным данным были построены следующие 3 графика.
1) По полученным specificity и 1 - sensitivity была построена ROC-кривая. Однако она не может давать доставерные данные, так как данные принимают отрицательные значения.
2) Так же был построен графк распределения весов последовательностей, который может быть использован для определения порога по месту начала падения. Примерный порог составляет 1800.
3) F1-кривая. Для визуализации полученного порога была построена F1-кривая. Локальный максимум данного графика примерно равен 1800.