Главная | Семестры | Проекты | Заметки | О себе | Полезные ссылки |
Профили
Выделим из семейства Pfam подсемейство вида: домены семейства PF02181 из белков таксона Metazoa с доменной архитектурой Drf_FH3 + Drf_GBD + FH2. На основании выборки построим профиль, выделяющий данное подсемейство из всего семейства Pfam, и охарактеризуем качество его работы. с помощью программы пакета HMMER 2.3.2 (установлен на kodomo).Для начала построим профиль. Для этого получим файл с выравниванием только последовательностей подсемейства: selected.fasta. Затем с помощью программы hmm2build был построен профиль по полученному выравниванию, а программой hmm2calibrate полученный профиль был откалиброван.
Теперь проверим профиль. Программой hmm2search проведем поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен выбранного подсемейства. Для этого сначала получим эти белки. Воспользуемся списком AC, полученным из сводной таблицы предыдущего практикума и сервисом Retrieve в Uniprot, получим файл FH2.fasta. Создадим файл с "золотым стандартом" (туда будут входить "проверенные последовательности", которые образую на дереве, построенном в предыдущем практикуме, кладу): gold.txt.
В таблице profile.xlsx обобщим полученные данные и подсчитаем характеристике. В этой таблице приведена зависимость чувствительности и избирательности от значения e-value. Самым лучшим оказался вариант с e-value=5,40E-235, тогда избирательность = 0,1125, а чувствительность = 0,692 (они не слишком далеко ушли друг от друга). Для других значений e-value очень хорошая избирательность (близка к 1), но очень плохая чувствительность (стремится к 0).
Тогда можно сделать вывод, что качество работы профиля удовлетворительное, однако довольно низка избирательность.