Анализ результатов поиска по профилю

Главная

1.Разделение выравнивание представителей домена, построенное в практикуме 9, на две группы

Я решила выбрать вариант разделения по доменной архитектуре белков. Что более-менее согласуется с разделением последовательностей в выравнивании на основании анализа построенных деревьев.

2. Построение профиля, отличающего одну группу последовательностей от другой


Соотвественно использовала выравнивания: dom1.msf, dom2.msf.
Привела к правильному формату файл:
seqret dom1.msf msf::dom1_1.msf
noreturn -infile dom1_1.msf -outfile dom1_2.msf
Добавила веса в выравнивание
pfw dom1_2.msf > dom1_weighted.msf
Создала профиль:
pfmake dom1_weighted.msf /usr/share/pftools23/blosum62.cmp > dom1.prf
Аналогично с dom2.msf.
Получила: dom1.prf, dom2.prf.
Файл с последовательностями из обеих групп: *.fasta.
Далее, проведем cам поиск по профилю в исходных последовательностях. Порог веса поставим маленьким (-C 0.0), чтобы все последовательности оказались в выдаче.
-C 0.0 -f dom1.prf may26_all.fa | sort -nr > dom1.xls
-C 0.0 -f dom2.prf may26_all.fa | sort -nr > dom2.xls
dom1.xls, dom2.xls.
Построила ROC-кривую зависимости чувствительности и специфичности находок от граничного значения веса находки. Правильные находки - те, которые принадлежат группе, по которой построен профиль.
Полученные файлы: dom1_new.xlsx, dom2_new.xlsx.
В этой работе профиль получился заметно лучше,чем в предыдущей((больше находок)хотя так говорить нехорошо,ведь это разные).
Но можно,например,сравнить первую и вторую группы. Заметно,что первая лучше(больше правилных находок).А вот во второй странно,что не получился прямой угол. Возможно, ошибка.
ROC-кривые первой и второй групп.


©Eliseeva Julia