Профиль целевого семейства. Поиск порога. ROC - кривая
Выбор целевого семейства
Для построения профиля был выбран домен RF1 белка из шестого практикума для которого на указанной странице строился паттерн семейства на сайте Prosite. Соответствующий ему идентификатор PFAM: PF00472, далее приведена ссылка на страницу семейства в EMBL-EBI - Family: RF-1 (PF00472)
Данный домен был обнаружен у факторов высвобождения пептидной цепи, если не считать значительно меньшее количество белков с неизвестной функцией. Домен отвечает в белке за пептидил-тРНК гидролазную активность. Область RF1 содержит высококонсервативный мотив GGQ, в которой глутамин, судя по всему, координирует воду, которая опосредует гидролиз [1].
Выборка последовательностей была определена для таксона Proteobacteria. Запрос в базу данных Uniprot представленн ниже:
database:(type:pfam id:PF00471) taxonomy:proteobacteria AND reviewed:yes
Было найдено 375 последовательностей. Все они принадлежали к одной доменной архитектурой Pfam и были занесены в таблицу. С полученной информацией можно ознакомиться в книге Excel, в первом листе идентификаторов.
Получение выравнивания
muscle -in pr8_out.fasta -out mus_align.fasta
С помощью указанной команды и апплета JalView было построено выравнивание отобранных последовательностей, редактирование выравнивание проводилось вручную, невыровненные фрагменты были удалены, неровное построение сдвинуто по мере сил. С проектом можно ознакомиться скачав его или по ссылке, в представлении html:
![](pr8im1.png)
Построение и калибровка профиля для целевого семейства
Данные задачи были выполнены через SSH-клиент на сервере kodomo следующими командами:
hmm2build profile.out mus_align.fasta
hmm2calibrate profile.out
С полученным профилем можно ознакомиться по ссылке: profile.out
Ради проверки коректности задание так же было выполнено с помощью пакета HMMER 3.0:
hmmbuild try_profile.out pr8_try.stk
Полученный в данном случае профиль так же доступен: try_profile.out