Pfam и HMM¶

В качестве исследуемого семейства я выбрала белки, содержащие домен DACZ_N (PF19294) из базы данных Pfam. Домен приблизительно удовлетворяет указанным критериям:

Average length

ID	Accession	Type	Seed	Full	Average %id	Average coverage
DACZ_N	PF19294	Domain	55	111	124	52	45,9

В разделе Domain organization 3 вариантов доменной архитектуры, из которых один подходит под критерии: включают два домена, содержатся в более чем 20.

О доменах:¶

DAC - специфическая диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Часть ДНК - связывающего белка, который сканирует бактериальную ДНК на повреждения. Появление ц-ди-АМФ, является некоторым сигналом повреждения ДНК и влияет на скорость клеточных процессов.Активность диаденилатциклазы сильно подавляется при связывании с разветвленной ДНК, но не с дуплексной или одноцепочечной ДНК, что указывает на присутствие остановившихся вилок репликации или промежуточных продуктов рекомбинации. DACZ_N домен находится на N-конце фермента диаденилатциклазы DacZ из эвриархей. Этот домен, по-видимому, отдаленно связан с С-концевым доменом пируваткиназы.

По причине того, что на сайте Pfam практически все последовательности с данным доменом имеют выбранную доменную архитектуру, был выполнен поиск семейства по Uniprot и скачен full-файл именно по нему будет осуществлять поиск построенным HMM-профилем. С помощью скрипта, файл был приведен в удобный для дальнейшего составления таблиц вид и содержит только уникальные AC: uniprot_full_sort.fasta

Далее был скачен fasta-файл с выбранной доменной архитектурой. Опять же для удобства бущего построения таблиц и использования функции ВПР в excel, были вытащены скриптом AC последовательнойстей, содержащих выбранную архитектуру.

С помощью Jalview и MUSCLE было произведено выравнивание

Привожу уже оптимизированное выравнивание, из него были вырезаны отличающиеся последовательности, а также с помощью функции Remove redundancy были удалены идентичные на 90% и выше. В итоговой таблице можно посмотреть, последовательности с какими АС вошли в выравнивание на листе samples столбик in samples.Можно сказать, что все они достаточно консервативны.

Построения HMM-профиля¶

Для файла выравненного и прошедшего ревизию займемся построением HMM-профиля:

hmm2build out_hmm.hmm musclere>

hmm2calibrate out_hmm.hmm

Была проведена проверка HMM-профиля.

hmm2search —cpu=1-E 0.1 out_hmm.hmm uniprot_full_sort.fasta >

results.txt

Таблица с результатами

Данные о белках семейства, вхождении в последовательность рассматриваемого домена, включения их в выборку для построения профиля и длине отражены на листе samples таблицы.

На листе result таблицы приведены данные после проверки HMM-профиля. Столбец true таблицы содержит информацию о содержании найденного белка в изначальном списке с двухдоменной архитектурой. Столбцы 1-spec и sens отражают специфичность и чувствительность предсказания пинадлежности белка семейству с двухдоменной архитектурой. Формулы для расчета значений взяты из презентации к практикуму. %D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B4%D0%BB%D0%B8%D0%BD%20%281%29.png

Большинство находок имеют длину в диапозоне 250-275, с выбранной двухдоменной архитектурой 269-271.

score%20decrease%20%281%29.png

При падении весов заметна характерная ступенька. F1%20%D0%BE%D1%82%D0%BD%D0%BE%D1%81%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE%20%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%B0%20_score_.png Значение функции F1 минимально при нулевой чувствительности, то есть при максимально возможном весе находки, далее растет и после достижения пика немного убывает при уменьшении score к минимальным по значениям. Максимальное значение F1 соответсвует находки со score 200,5 и E-value 1,80E-58.

Чтобы определить оптимальное соотношение параметров, нужно найти точку на кривой, расстояние от которой до диагонали, соединяющей пересечения кривой с осями координат, максимально. Я предполагаю, что это точка с координатами 1-spec -0,7707641 sens 0,17431. Ей соответствует вес находки 590.8.