Простейший профиль: частотная матрица.
-
Построение частотной матрицы (профиля) по участку выравнивания
программой prophecy
Был создан файл, содержащий тот участок выравнивания рибосомальных
белков из выбранного таксона Firmicutes,
по которому вы строился паттерн а прошлом
задании.
Потом на kodomo была запущена программа prophecy:
prophecy
Create frequency matrix or profile from a multiple alignment
Input (aligned) sequence set: pat_2.msf
Profile type
F : Frequency
G : Gribskov
H : Henikoff
Select type [F]: F
Enter a name for the profile [mymatrix]:
Enter threshold reporting percentage [75]: 30
Output file [pat_2.prophecy]:
pat_2.prophecy
-
Поиск участков в бактериальных белках из Swiss-Prot,
дающих счёт выше 30 при сравнении с созданным профилем
Взяты бактериальные белки из Swiss-Prot (/home/export/samba/public/y09/Term4/Materials/bacteria.fasta)
На kodomo запущена программа profit:
profit
Scan one or more sequences with a simple frequency matrix
Profile or weight matrix file: pat_2.prophecy
Input sequence(s): bacteria.fasta
Output file [pat_2.profit]: pat_2.profit
На выходе получены названия найденных последовательностей с совпадениями,
стартовая позиция последовательности и процентное содержание максимально
возможного значения.
Полученный файл был импортирован в Excel,
находки упорядочены по убыванию счета, последовательности со значениями
ниже 51 были удалены.
Найдено:
86420 всего (>30),
1620 > 40,
761 > 50,
697 > 60.
-
Анализ списока находок и сравнение его со списком всех белков
подсемейства
Белками подсемейства считаются все те, что находятся паттерном из
Prosite при поиске по выбранному таксону (порог 50).
i. Число верных находок ("True positive hits", TP), тех,
которые присутсвуют как в списке находок,
так и в списке белков подсемейства: 263;
ii. Число ложных находок ("False positive hits", FP):
белков, не принадлежащих подсемейству, но попавших в
список находок (они же ошибки первого рода): 498;
iii. Число ненайденных белков подсемейства
(ложноотрицательных результатов, "False negatives", FN),
или ошибок второго рода: 559-498=61;
iv. Чувствительность TP/(TP+FN): 0,8117; (сильно ниже по сравнению с
паттерном)
v. Селективность TP/(TP+FP): 0,3456.
ROC-кривая:
При пороге 94 селективность близка к селективности созданного на
предыдущем занятии паттерна. Чувствительность будет равна 495/559=0.8855.
© Anastasia Maslova, 2011