Занятие 11. Профили
Цель данного практикума - построить профиль по созданному нами подсемейству - выборке последовательностей доменов семейства PF00051 таксона Mammalia архитектуры Kringle + Trypsin, а также охарактеризовать качество его работы. Для достижения цели использовались программы пакета HMMER 2.3.2, который установлен на kodomo.
Для построения профиля было выделено отдельное выравнивание для подсемейства. Файл alignment.fasta. Профиль был построен с помощью программы hmm2build с параметрами по умолчанию. С помощью программы hmm2calibrate откалибровали профиль.
Для проверки профиля использовался файл в fasta-формате со всеми белками Uniprot, включающими хотя бы один домен из Pfam-семейства PF00051. Файл received_seqs.fasta. С помощью программы hmm2search провели поиск откалиброванным профилем по всем белкам Uniprot из этого списка. Выдача программы с находками в файле search.txt. Результаты поиска сравнивали со списком белков из подсемейства - golden_std.txt. Расчет TP, FP, TN, FN, чувствительности R и избирательности PPV можно посмотреть в файле table.xlsx. Был выбран порог e-value = 1,80E-53. При таком пороге R = 0,82 , а PPV = 0,026, причем значение избирательности максимально.
Думаю, качество работы профиля нельзя охарактеризовать даже как удовлетворительное, потому что избирательность очень мала, как бы мы ни пытались менять пороги.