Простейший профиль: частотная матрица


1. Построение частотной матрицы (профиля) по участку выравнивания программой prophecy

После выравнивания рибосомальных белков был создан файл, содержащий тот участок выравнивания рибосомальных белков из выбранного таксона Firmicutes, по которому строился паттерн в прошлом задании.
После запуска на kodomo программы prophecy:
prophecy
Create frequency matrix or profile from a multiple alignment
Input (aligned) sequence set: prof_bact_pat.msf
Profile type
Select type [F]:
Enter a name for the profile [mymatrix]:
Enter threshold reporting percentage [75]: 30
Output file [prof_bact_pat.prophecy]:


Файл, полученный на выходе, содержит информацию о длине паттерна, консенсусе, максимальном счете и собственно частотную матрицу

2. Поиск участков в бактериальных белках из Swiss-Prot, дающих счёт выше 30 при сравнении с созданным профилем

После запуска на kodomo программы profit:
profit
Scan one or more sequences with a simple frequency matrix
Profile or weight matrix file: prof_bact_pat.prophecy
Input sequence(s): /home/export/samba/public/y09/Term4/Materials/bacteria.fasta
Output file [prof_bact_pat.profit]:


Файл, полученный на выходе, содержит названия найденных последовательностей, стартовую позицию последовательности и максимально возможное значение процентного содержания.
Находок с порогом больше 40 - 1 111

Полученный файл был импортирован в Excel, все находки упорядочены по убыванию счета, а последовательности со значениями ниже 40 были удалены.


3. Анализ списка находок и сравнение его со списком всех белков подсемейства

Файл Excel

Число верных находок ("True positive hits", TP) - 126
Число ложных находок ("False positive hits", FP) - 985
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN) - 17
Чувствительность TP/(TP+FN) - 0,88 (ниже по сравнению с паттерном)
Селективность TP/(TP+FP) - 0,11

ROC-кривая




Если поднять порог до 81, то селективность будет 93% (при следующем значении порога - 82, селективность будет немного больше 100%).


© Dzama Margarita, 2010-2011