Профили

1. Построения профиля

В качестве выборки, по которой будет строиться профиль, были выбраны последовательности, содержащие домен SOCS_box в архитектуре Ras + SOCS_и принадлежащие к надклассу Hexapoda подтаксона Ecdysozoa. Для построения профиля выбраны именно эти последовательности, так как они хорошо группируются на филогенетическом дереве, образуя единую кладу Последовательности доменов приведены в файле R_Ec_Hex.fasta. По полученному выравниванию был посторен HMM профиль с помощью программы hmm2build, затем он был откалиброван командой hmm2calibrate. Полученный профиль:align.hmm.

2. Проверка построенного профиля

С помощью команды hmm2search был проведён поиск по полученному профилю, в качестве документа, где производился поиск, использовался файл в FASTA-формате со всеми последовательностями белков из Uniprot, содержащих рассматриваемый домен. Результат работы программы представлен в файле: search.out.

Из выдачи программы составим список из идентификаторов последовательностей белков и полученных для данной последовательности значений E-value. C полученным списком будем сравнивать список из всех идентификаторов последовательностей из Ecdysozoa с данной архитектурой(список). Для рассмотрения выбран порог E-value, равный 1e-8, рассматривались находки только с меньшим E-value. Из 35 белков, входящих в "золотой стандарт" было обнаружено 33 (в пределах рассматриваемого E-value), всего же белков, найденных в пределах такого E-value 75. Таблица приведена по ссылке:gold.xlsx.

Далее были посчитаны чувствительность (она же Recall или "True positive rate") и избирательность (она же точноcть, она же "Positive prediction value") соответственно:

Эти значения говорят о том, что профиль HMM работает не совсем хорошо. Избирательность мала, хотя чувствительность достаточно высокая.


© Evstafyeva Diana, 2012