Анализ результатов поиска по профилю
По данным филогенетических деревьев решила разделить последовательности по принадлежности к разным доменным архитектурам - RGS архитектура и RGS+Pkinase. Далее они будут называться просто архитектуры 1 и 2 соответственно.
Выравнивания, используемые далее для создания профиля: 1.msf (все последовательности, содержащие первую архитектуру) и 2.msf (все последовательности, содержащие вторую архитектуру).
seqret 1.msf msf::1_1.msf
noreturn -infile 1_1.msf -outfile 1_2.msf
pfw 1_2.msf > 1_weighted.msf
pfmake 1_weighted.msf /usr/share/pftools23/blosum62.cmp > 1.prf
Те же самые операции были повторены для файла 2.msf
Далее был создан файл со всеми последовательностями в формате fasta
Далее, проведем cам поиск по профилю в исходных последовательностях. Порог веса поставим маленьким (-C 0.0), чтобы все последовательности оказались в выдаче.
pfsearch –C 0.0 –f 1.prf all.fa | sort -nr > 1_scores.txt
pfsearch –C 0.0 –f 2.prf all.fa | sort -nr > 2_scores.txt
Результаты поиска при помощи полученных профилей по исходным последовательностям. По данным из файлов 1_scores.txt и 2_scores.txt Таблица Excel (листы RGS, RGS+Pkinase).
Отметили в таблице последовательности, которые действительно принадлежат профилям. Заметила, что
среди результатов поиска некоторые последовательности встречаются несколько раз (по профилю находятся разные участки последовательности)
при этом второе вхождение последовательности в результаты имеет вес значительно меньше, чем первое.
Для последующего анализа все последующие вхождения не учитывались (отмечены цветом в Excel файле).
По полученным данным, сохранённым в Excel файле, были построены ROC-кривые и графики весов находок pfsearch для каждой из групп последовательностей:
ROC-кривые:
По графикам для нормализованного веса можно установить порог - 27 для первой архитектуры (RGS) и 14 для второй архитектуры (RGS+Pkinase)
Ошибки первого и второго рода для этих порогов для первой архитектуры равны нулю, а для второй архитектуры ошибка первого рода равна 1(5%), а второго - нулю. В принципе, по этим профилям можно различать последовательности RGS домена в двух архитектурах - RGS и RGS+Pkinase. 5% ошибка первого рода вызвана последовательностью E2RB39_CANFA, которая имеет очень маленький вес и очень маленькую длину в профиле. Также эта последовательность имеет маленький вес и длину в "true negative" в профиле для первой архитектуры. Как мне кажется, тут что-то не то с последовательностью (может, какой-нибудь фрагмент, в который наш домен почти не попал).