Простейший профиль: частотная матрица.
1. Построение частотной матрицы (профиля) по участку выравнивания программой prophecy.
- Был создан файл, содержащий тот участок выравнивания, по которому строился паттерн:
открыть файл с выравниванием в GeneDoc
Edit -> Select columns -> выделить колонки, по которым строился паттерн -> Project -> Copy to new project
Shade -> Clean all man shade; отменить группы (автоматически снимется раскраска по группам)
Project -> Edit sequence list -> выбрать белки контрольной
группы -> Delete
сохранить файл с исходным частичным выравниванием.
- На kodomo была запущена программа prophecy (Input (aligned) sequence set: файл с исходным частичным выравниванием;
Enter threshold reporting percentage: 30).
- Файл с профилем содержит таблицу, где строки - это позиции выравнивания; столбцы - аминокислоты; цифра
на пересечении строки и столбца - количество появлений данной аминокислоты в данной позиции выравнивания.
2. Поиск участков, дающих счёт выше 30 при сравнении с созданным профилем, в бактериальных белках из Swiss-Prot.
- Поиск был проведен программой profit. Результат работы программы - файл, где:
The first column is the name of the matching sequence found.
The second is the start position in the sequence of the match.
The third column (after the word 'Percentage:') is the percentage of
the maximum possible score (sum of the highest value at each position
in the frequency matrix).
- Общее число находок программы profit - 917.
Число находок, имеющих счет больше 40 - 802.
Число находок, имеющих счет больше 50 - 802.
Число находок, имеющих счет больше 60 - 796.
- Обработанную выдачу программы profit можно посмотреть в файле.
3. Анализ списка найденных белков (при помощи скрипта).
- При пороге 30:
- Число верных находок ("True positive hits", TP) - 156
- Число ложных находок ("False positive hits", FP) - 760
- Число ненайденных белков подсемейства ("False negatives", FN) - 1
- Чувствительность TP/(TP+FN) - 0.993630573248408
- Селективность TP/(TP+FP) - 0.170305676855895
-
- При пороге 86 селективность профиля близка к селективности паттерна, созданного на предыдущем занятии
(см. результат работы скрипта). Чувстительность профиля при пороге 86 (0.882716049382716)
выше чувствительности паттерна (0,7820512820512821).
главная страница
©Настя Гуляева, 2009