Домены и профили

Для выполнения задания выбрал домен SesB, который встречается в белках грибов, участвующих в клеточной гибели (Табл.1). Длина HMM-профиля равна 28. Таким образом, домен оптимален по характеристикам, приступим к выполнению задания.

Табл. 1 Характеристики выбранного домена

Так как будем осуществлять поиск по профилю, скачаем последовательности full. Для данного домена известно 32 архитектуры. В одной из них структура DUF676, Ses_B, то есть двухдоменная организация, где выбранному домену предшествует ещё один с неизвестной функцией. В нём оказалось немного меньше двадцати белков (15), но было решено продолжить с ним.

Была составлена таблица, где находятся АС всех белков из full, их длины, информация о их принадлежности архитектуре и результат HMM поиска.

Рис.1 Гистограмма длин белков семейства. Белки выбранного семейства имеют длину около 300 остатков.

Последовательности, имеющие нужную доменную архитектуру, были извлечены из файла full программой seqret и выровнены программой muscle (результат). Полученное выравнивание было отредактировано в Jalview: удалены фрагменты до 16 остатка и после 296 (вне доменов), а также убраны сходные последовательности (порог 90%) (файл). Осталось 5 последовательностей, которые были использованы для построения профиля:
hmm2build prof.out rev_aln_seqs.fa
hmm2calibrate prof.out
hmm2search -E 0.1 --cpu=1 prof.out full-134 > search.out
На выходе получен файл c профилем, по которому осуществлялся поиск с результатом в search.out. По этим результатам были построены графики для анализа. Заметно, что после хита с весом 450 есть сильное падение находок по этому параметру, хотя и до него есть пара ложных результатов. Также была построена ROC-кривая. Несмотря на то, что она достаточно резкая, думаю, порог можно выбрать при чувствителности 0,87, то есть равным 543,0.

Рис.2 Распределение веса белков после сортировки
Рис.3 ROC curve