Для построения профиля была создана выборка:
2P_2_B5HZ58_9ACTO_ACT 2P_2_A0ADL2_STRAM_ACT 2P_2_D5ZYR0_9ACTO_ACT 2P_2_C0ZJK4_BREBN_FIRM 2P_2_A0RGG1_BACAH_FIRMВсе отобранные последовательности относятся к архитектуре 2P, домен 2. Организмы относятся к Firmicutes и Actinobacteria. Такая выборка обусловлена тем, что эти последовательности группируются в ветвь с хорошей поддержкой.
Профиль был использован для поиска последовательностей в файле, содержащем 3868 последовательностей, содержащих домен PF00805.
В этой генеральной выборке содержались все 5 последовательностей, по которым был построен профиль.
Однако, все последовательности выборки были полными, тогда как профиль строился только по последовательности домена PF00805.
Поиск последовательностей проводился программой hmm2build:
hmmbuild [-options] [hmmfile output] [alignment file] > outfile.txt
В результате было найдено 3519 последовательностей (Таблица 1, лист All), что сопоставимо по размеру
с генеральной выборкой.
Для проверки качества профиля был создан Gold standart - выборка, состоящая только из правильных последовательностей,- из Firmicutes и Actinobacteria,
с архитектурой 2P (Таблица 1, лист Gold standart).
После чего, 2 списка (все найднный профилем хиты и Gold standart) были сравнены средствами Excell
(Таблица 1, лист All).
Были вычеслены чувствительность (Recall, R) и избирательность (Precision, PPV):
Score E-value C0ZJK4_BREBN 93.0 3.7e-25 A0ADL2_STRAM 88.5 8.7e-24 B5HZ58_9ACTO 88.2 1e-23 A0RGG1_BACAH 85.1 9.4e-23 D5ZYR0_9ACTO 78.5 9.1e-21Для примера, первый хит (A0L9N7_MAGSM) имеет Score=626.9 и E-value=7.2e-186.
© 2014; Sutormin Dmitry