Профили




Построение профиля

Для построения профиля была создана выборка:

2P_2_B5HZ58_9ACTO_ACT
2P_2_A0ADL2_STRAM_ACT
2P_2_D5ZYR0_9ACTO_ACT
2P_2_C0ZJK4_BREBN_FIRM
2P_2_A0RGG1_BACAH_FIRM
Все отобранные последовательности относятся к архитектуре 2P, домен 2. Организмы относятся к Firmicutes и Actinobacteria. Такая выборка обусловлена тем, что эти последовательности группируются в ветвь с хорошей поддержкой.
По выравниванию последовательностей (Выравнивание ) был построен профиль с использованием программ: Первая программа строит профиль по выравниванию, а вторая - калибрует его. Построенный профиль.

Поиск при помощи профиля

Профиль был использован для поиска последовательностей в файле, содержащем 3868 последовательностей, содержащих домен PF00805. В этой генеральной выборке содержались все 5 последовательностей, по которым был построен профиль. Однако, все последовательности выборки были полными, тогда как профиль строился только по последовательности домена PF00805. Поиск последовательностей проводился программой hmm2build:
hmmbuild [-options] [hmmfile output] [alignment file] > outfile.txt

В результате было найдено 3519 последовательностей (Таблица 1, лист All), что сопоставимо по размеру с генеральной выборкой.

Создание "Gold standart"

Для проверки качества профиля был создан Gold standart - выборка, состоящая только из правильных последовательностей,- из Firmicutes и Actinobacteria, с архитектурой 2P (Таблица 1, лист Gold standart).
После чего, 2 списка (все найднный профилем хиты и Gold standart) были сравнены средствами Excell (Таблица 1, лист All).
Были вычеслены чувствительность (Recall, R) и избирательность (Precision, PPV):

Видно, что значения оценок очень сильно различаются.
Для того, чтобы сблизить оценки, были отброшены последовательности с E-value > 1.1e-19.
При этом: Оценки значительно сблизились, однако так и остались низкими. Интересно, что первые 424 последовательности с наилучшими E-value, не относятся к Gold standart. Это может быть связано с тем, что используемый для поиска профиль был построен по слишком малому количеству последовательностей (всего 5) и эти последовательности довольно короткие (40 аминокислот). Также странен тот факт, что хотя и первым найденным хитом, относящимся к Gold standart является одна из последовательностей, по которым был построен профиль, остальные 4 последовательности распределены довольно равномерно (при E-value < 1.1e-19):
              Score   E-value
C0ZJK4_BREBN  93.0    3.7e-25  
A0ADL2_STRAM  88.5    8.7e-24  
B5HZ58_9ACTO  88.2      1e-23  
A0RGG1_BACAH  85.1    9.4e-23  
D5ZYR0_9ACTO  78.5    9.1e-21  
Для примера, первый хит (A0L9N7_MAGSM) имеет Score=626.9 и E-value=7.2e-186.


© 2014; Sutormin Dmitry