Я выбрал домен PF00196 Bacterial regulatory proteins, luxR family. Этот домен функционирует как ДНК-связывающий модуль, который специфически узнаёт и связывается с последовательностью-мишенью в большой бороздке ДНК. Его основная биологическая роль — активация или репрессия транскрипции генов в ответ на внешний сигнал. Всего белков со структурой 196, в seed 26. В качестве подсемейства я выбрал белки со следующей доменной структурой.
<
Далее я совершил множественное выравнивание с помощью muscle, и в нем оставил только последовательности доменов, согласно репрезентативной структуре. Выравнивание
Далее я построил hmm профиль, откалибровал его и произвел поиск по файлу с полными последовательностями белков данного домена с помощью следующих команд.
hmm2build -f pr11.hmm domains_only.fasta
hmm2calibrate pr11.hmm
hmm2search -T 30 pr11.hmm ./protein-matching-PF00196.fasta > results.txt
Результаты поиска.
Всего было найдено 8 белков. К сожалению я уже поздно заметил, но в искомом подсемействе были белки были только unreviewed, тогда как полные последовательности начального семейства состоят из 270к записей, на что места на диске кодомо не хватит, так что в этом плане домен был выбран весьма неудачно и эти множества увы не пересекаются, однако то что даже с таким отсечением нашлись какие-то последовательности успехом.