Практикум 11

или "профиль-анфас-со спины"

Домены и профили

Выбор домена

Так как в момент написания практикума я слушала Леди Гагу, дабы не уснуть в 4 утра, то выбор домена был очевидным. Мой выбор пал на домен GAGA (GAGA factor), который связывается с консенсусным сайтом 5'-GAGAG-3' на ДНК и содержит ядро ​​цинкового пальца: цистеин-гистидин. Характеристики домена:

AC: PF09237

Число последовательностей: seed – 2; full – 186; uniprot – 378

Средняя длина домена – 46.1 аминокислота, среднее сходство (identity) – 42%, средний процент покрытия последовательности белка доменом – 9.8%

Для данного домена известны 26 различных архитектур. Для изучения была выбрана двудоменная архитектура, состоящая из домена GAGA и BTB (сначала идет BTB, затем GAGA) и встречающаяся в 77 последовательностях из 186 известных. Довольно неплохая встречаемость.

Создание HMM-профиля

Преобразованный с помощью выравнивания и удаления лишних идентичных последовательностей-дубликатов, файл в формате fasta по итогу имел 24 последовательности с профилем длиной 382 аминокислоты.

Для создания HMM-профиля полученный итоговый файл был загружен на сервер кодомо, затем была выполнена следующая серия команд:

hmm2build profile resfasta.fasta

hmm2calibrate profile

hmmsearch --cpu=1 profile full.fasta &> search.txt

Построенный hmm2build HMM-профиль: ссылочка

Файл с результатом поиска с порогом E-value 0.01: ссылочка

По итогу было найдено 158 последовательностей с E-value менее 0.01, в которых можно предположить наличие изучаемой двудоменной структуры. В двух же последовательностях E-value оказалось меньше порога. Еще в десяти полученный профиль найден не был. Может быть такое возникло из-за ранее удаленных "последовательностей-дубликатов".

Анализ HMM-профиля

Используя скрипт, была получена итоговая таблица с 145 находками и необходимой информацией о них: AC, Domain, seq-f, seq-t, hmm-f, score, E-value.

После чего были построены следующие графики:

Рис. 1. ROC-кривая

По полученным данным порог score для нашей двудоменной архитектуры составил 430.

Рис. 2. F1-кривая

Рис. 3.Распределение весов последовательностей

Полученный порог прошли лишь 67 последовательностей из 77 (жесткая ревизия?). А еще можно отметить, что данный порог не является очевидным.