8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!











Всё на свете является чудом!

 

Анализ результатов поиска по профилю

1. Разделение выравнивания представителей домена на две группы

Выравнивание представителей домена ThiS domains_this_architectures_alignment.jar (domains_this_end.msf), полученное на одном из предыдущих занятий, было разделено на две группы последовательностей согласно доменной архитектуре белков. Такое деление позволит выяснить, возможно ли различить рассматриваемые доменные архитектуры по их профилям. Кроме того, такое разделение совпадает с разделением последовательностей в выравнивании на основании анализа построенных деревьев.

Таким образом, для построения профилей для выделенных групп были использованы выравнивания domains_this_1.msf и domains_this_2.msf последовательностей двух двухдоменных архитектур.


2. Построение профиля, отличающего одну группу последовательностей от другой

Для создания профиля был использован пакет pftools (ниже приведены команды для добавления весов последовательностей в выравнивание и построения профиля):

pfw domains_this_1.msf > domains_this_1_weight.msf 
pfmake domains_this_1_weight.msf /usr/share/pftools23/blosum62.cmp > domains_this_1.prf 


pfw domains_this_2.msf > domains_this_2_weight.msf 
pfmake domains_this_2_weight.msf /usr/share/pftools23/blosum62.cmp > domains_this_2.prf 


Далее создали файл с последовательностями из обеих групп, по которому провели поиск (этап нормализации в данном случае опустили):

pfsearch –C 0.0 –f domains_this_1.prf domains_this_align.fasta | sort -nr > arch_1.txt 
pfsearch –C 0.0 –f
domains_this_2.prf domains_this_align.fasta | sort -nr > arch_2.txt


Порог веса выставили маленьким (-C 0.0), чтобы все последовательности оказались в выдаче.

Построили в Excel графики весов и ROC-кривые находок pfsearch, отсортированных по убыванию, для первой и второй группы соответственно:



Есть домен Нет домена
Есть домен 10 1 11
Нет домена 1 30 31
11 31
      ошибка I рода, % =  2,38
     ошибка II рода, % =  2,38

На основании графика весов можно определить порог равный 10,5, который даёт 1 ошибку первого рода (2,38%; это число соответствует вероятности не определить последовательность, содержащую домен ThiS согласно Pfam) и 1 ошибку второго рода (2,38%; это значение соответствует вероятности определить последовательность, не имеющую домена ThiS по Pfam, как принадлежащую семейству). 




Есть домен Нет домена
Есть домен 30 2 32
Нет домена 3 18 21
33 20
      ошибка I рода, % =  5,66
     ошибка II рода, % =  3,77

На основании графика весов можно определить порог равный 1,2, который даёт 3 ошибки первого рода (5,66%; это число соответствует вероятности не определить последовательность, содержащую домен ThiS согласно Pfam) и 2 ошибки второго рода (3,77%; это значение соответствует вероятности определить последовательность, не имеющую домена ThiS по Pfam, как принадлежащую семейству). 

Для первой и второй групп итоговое число последовательностей получилось на 2 меньше исходного, таким образом, полученные профили позволяют отличить заданные группы последовательностей, хоть и с небольшими погрешностями.

Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2013