Практикум 11
или "профиль-анфас-со спины"
Домены и профили
Выбор домена
Так как в момент написания практикума я слушала Леди Гагу, дабы не уснуть в 4 утра, то выбор домена был очевидным. Мой выбор пал на домен GAGA (GAGA factor), который связывается с консенсусным сайтом 5'-GAGAG-3' на ДНК и содержит ядро цинкового пальца: цистеин-гистидин. Характеристики домена:
AC: PF09237
Число последовательностей: seed – 2; full – 186; uniprot – 378
Средняя длина домена – 46.1 аминокислота, среднее сходство (identity) – 42%, средний процент покрытия последовательности белка доменом – 9.8%
Для данного домена известны 26 различных архитектур. Для изучения была выбрана двудоменная архитектура, состоящая из домена GAGA и BTB (сначала идет BTB, затем GAGA) и встречающаяся в 77 последовательностях из 186 известных. Довольно неплохая встречаемость.
Создание HMM-профиля
Преобразованный с помощью выравнивания и удаления лишних идентичных последовательностей-дубликатов, файл в формате fasta по итогу имел 24 последовательности с профилем длиной 382 аминокислоты.
Для создания HMM-профиля полученный итоговый файл был загружен на сервер кодомо, затем была выполнена следующая серия команд:
hmm2build profile resfasta.fasta
hmm2calibrate profile
hmmsearch --cpu=1 profile full.fasta &> search.txt
Построенный hmm2build HMM-профиль: ссылочка
Файл с результатом поиска с порогом E-value 0.01: ссылочка
По итогу было найдено 158 последовательностей с E-value менее 0.01, в которых можно предположить наличие изучаемой двудоменной структуры. В двух же последовательностях E-value оказалось меньше порога. Еще в десяти полученный профиль найден не был. Может быть такое возникло из-за ранее удаленных "последовательностей-дубликатов".
Анализ HMM-профиля
Используя скрипт, была получена итоговая таблица с 145 находками и необходимой информацией о них: AC, Domain, seq-f, seq-t, hmm-f, score, E-value.
После чего были построены следующие графики:
Рис. 1. ROC-кривая
По полученным данным порог score для нашей двудоменной архитектуры составил 430.
Рис. 2. F1-кривая
Рис. 3.Распределение весов последовательностей
Полученный порог прошли лишь 67 последовательностей из 77 (жесткая ревизия?). А еще можно отметить, что данный порог не является очевидным.