Простейший профиль: частотная матрица. 
	 1. Построение частотной матрицы (профиля) по участку выравнивания программой prophecy. 
	
	-  Был создан файл, содержащий тот участок выравнивания, по которому строился паттерн: 
	
 открыть файл с выравниванием в GeneDoc
 Edit -> Select columns -> выделить колонки, по которым строился паттерн -> Project -> Copy to new project
 Shade -> Clean all man shade; отменить группы (автоматически снимется раскраска по группам)
 Project -> Edit sequence list -> выбрать белки контрольной
	     группы -> Delete
 сохранить файл с исходным частичным выравниванием.
-  На kodomo была запущена программа prophecy (Input (aligned) sequence set: файл с исходным частичным выравниванием;  
             Enter threshold reporting percentage: 30).
        
-  Файл с профилем содержит таблицу, где строки - это позиции выравнивания; столбцы - аминокислоты; цифра
             на пересечении строки и столбца - количество появлений данной аминокислоты в данной позиции выравнивания.
        
 2. Поиск участков, дающих счёт выше 30 при сравнении с созданным профилем, в бактериальных белках из Swiss-Prot. 
               
           -  Поиск был проведен программой profit. Результат работы программы - файл, где: 
                
 The first column is the name of the matching sequence found.
 The second is the start position in the sequence of the match.
 The third column (after the word 'Percentage:') is the percentage of 
                     the maximum possible score (sum of the highest value at each position
                     in the frequency matrix).
-       Общее число находок программы profit - 917.
                
 Число находок, имеющих счет больше 40 - 802.
 Число находок, имеющих счет больше 50 - 802.
 Число находок, имеющих счет больше 60 - 796.
-  Обработанную выдачу программы profit можно посмотреть в файле. 
           
 3. Анализ списка найденных белков (при помощи скрипта). 
 
            
           -  При пороге 30:
            
               - Число верных находок ("True positive hits", TP) - 156          
               
- Число ложных находок ("False positive hits", FP) - 760
               
- Число ненайденных белков подсемейства ("False negatives", FN) - 1
               
- Чувствительность TP/(TP+FN) - 0.993630573248408
               
- Селективность TP/(TP+FP) - 0.170305676855895
            
 
-  
   
-  При пороге 86 селективность профиля близка к селективности паттерна, созданного на предыдущем занятии
                (см. результат работы скрипта). Чувстительность профиля при пороге 86 (0.882716049382716)             
                выше чувствительности паттерна (0,7820512820512821).
           
главная страница
©Настя Гуляева, 2009