Профили
Задание 1. Построить профиль подсемейства и проверить его работу.
В качестве подсемейства было выбрано Bacilli с архитектурой Cu_amine_oxidN1, Glyco_hydro_18. Файл fasta с извлеченными последовательностями.
Для построения профиля был использован пакет HMMER.
Команда: hmm2build profile 12.fasta для построения профиля
Команда: hmm2calibrate profile для каллибровки профиля
Затем был проведен поиск по всем белкам Uniprot, содержащим домен Cu_amine_oxidN1, в результате получен файл uniprot-PF07833.fasta.
Команда: hmm2search profile uniprot-PF07833.fasta >> output
Данные из полученного файла были перенесны в Excel. Находок обнаружилось 9341. Затем были отмечены представители выбранного подсемейства на следующем листе.
Задание 2. Обоснуйте выбор порога для профиля
По данным весов (Score) на новом листе была построена гистограмма весов. Затем были рассчитаны параметры чувствительности и специфичности и построена ROC кривая.
Я выбрала порог чтобы SE и SP, были одновременно максимальны. То есть максимум SE+SP-1. Порог составил 116,60. При этом SP = 0,987, а SE = 0,947. Это вполне хорошие значения, поэтому профиль можно использовать для выбора подсемейства. Порог E-value 7.8e-32.
На самом деле | принадлежит подсемейству | не принадлежит | сумма |
Выше порога по профилю | 18 | 141 | 159 |
Ниже порога | 1 | 9199 | 9200 |
сумма | 19 | 9340 | 9359 |
Ссылки:
© Кузнецова Ксения, 2015