Я выбрал доменную архитектуру: Pyridine nucleotide-disulphide oxidoreductase, FAD binding domain. Могу предположить что белки этого подсемейства - монооксигеназы, окисляют ФАД*Н2 кислородом воздуха и вводят один атом кислорода в субстрат. Далее я скачал в fasta-формате последовательности всех 146 представителей. В программе Jalview я построил для них множественное выравнивание с помощью Mafft со стандартными настройками. Из этого выравнивания был извлечён срез с N-конца первого домена до C-конца второго. Этот срез был выровнен Mafft, затем снова обрезан и выровнен. После были удалены фрагментарные последовательности. А также высокосхожие последовательности (порог 90). В итоге получился файл, содержащий 72 последовательности, по которому будет строиться HMM-профиль.
Вышеприведенными командами по последней выборке последовательностей был построен и откалиброван HMM-профиль. Далее с помощью следующих команд, этим профилем была дана оценка последовательностей с данной архитектурой на принадлежность семейству.
В результате был получен файл, содержащий оценку профилем всех последовательностей. По какой-то причине всего 14 последовательностей из 146 в выборке имели E-value меньше 0.1. Я попытался это исправить, построив и откалибровав HMM-профили по: более обширной выборке (меньше чистил) и по более тщательно отобранной. Однако это только ухудшило реультаты предсказания (первое, второе ).