Практикум 11

Выбор домена

Я выбрал домен PF18206 - каталитический домен порфириназы. Домен был обнаружен в белке порфириназе Bacteroides plebeius. Информация о домене:

ID: Porphyrn_cat_1

Белков: 406

Средняя длина домена: 103

Среднее сходство: 26

Число доменных архитектур: 58

Я выбрал подсемейство из 172 белков с доменной архитектурой в котором есть два домена - собственно домен Porphyrn_cat_1 и домен BPA_C, который является С-концевым доменом порфириназы. Ссылка на скачанные последовательности. Ссылка на выравнивание, сделанное в программе JalView.

Далее я выделил в отдельный файл часть выравнивания с выбранной доменной архитектурой, предварительно заново выровняв их.

В этом выравнивании я удалил столбцы с инделями длиной равной или выше 3 и применил remove redundancy. файл

Создание и проверка HMM профиля

HMM профиль был создан данным набором комманд, где domain_realign_cut.fa - файл с исправленным выравниванием из предыдущего пункта, pr11_full.fasta - последовательности белков с данным доменом выборки full

hmm2build hmmbuild.out domain_realign_cut.fa
hmm2calibrate hmmbuild.out
hmm2search --cpu=1 hmmbuild.out pr11_full.fasta > hmmsearch.out

Ссылка на HMM профиль. Ссылка на результаты поиска.

С помощью скрипта на python была проанализирована таблица из выдачи hmm. Согласно ней посчитано количество правильно определенных белков с данной доменной структурой. Правильно определенных белков оказалось 30 из 52 определенных всего (58%). Также была построена кривая ROS

ros — Рис.1 Кривая ROS. По оси y - чувствительности отборки. По оси х - мощность.

Согласно ей в качестве порога определения доменной структуры необходимо взять score = -164.7. Однако при таком пороге количество находок становится равным 21 из 39 (54%). Что дает основания полагать, что полученный HMM профиль малопригоден для нахождения доменной архитектуры.