Профили



Построение профиля домена и поиск всех представителей в Uniprot/SwissProt

По готовому выравниванию в формате msf (файл) были созданы соответствующие файлы без символов возврата строки и с добавленными весами последовательностей (noreturn, pfw, pfmake). Потом была проведена нормализация по перемешанному банку uniprot и в конце концов поиск по уже нормальному банку. Конечный файл с профилем (нормализованным) - scaled.prf.


Затем был проведен поиск (pfsearch) полученного профиля по SwisspProt. Результат (лист "pfsearch_res"). С порогом 5.5 было найдено около 800 тысяч последовательностей, поэтому в итоге для дальшнейшей работы были выбраны последовательности с нормированным score больше 300 (около 5000 последовательностей, что более чем достаточно).


С помощью vlookup по последовательностям, содержащим в себе искомый домен (лист "with_profil") были проанализированы находки по профилю. Первые восемь последовательностей оказались содержащими в себе домен, остальные - нет.


Был построен график весов находок pfsearch, отсортированных по убыванию (показаны первые 200 последовательностей, дальше все, естественно, без перемен). На нем явно видна резкая ступенька, из которой мы можем заключить, что нужный нам порог находится примерно между 650 и 3400 (точнее по этим данным не определить, но я склонна брать порог выше к верхней границе).


Была построена ROC-кривая. Как были видно изначально, при выбранном пороге выше него оказываются именно те восемь верно определенных последовательностей, а ниже - все последовательности, не содержащие профиль, то есть в принципе в данном случае ROC-кривая не нужна вообще. Ошибок I или II рода при данном выбранном пороге нет совсем. Такой хороший результат, конечно, получается, если смотреть только множество найденных pfsearch последовательностей.