В качестве исследуемого семейства я выбрала белки, содержащие домен DACZ_N (PF19294) из базы данных Pfam. Домен приблизительно удовлетворяет указанным критериям:
ID | Accession | Type | Seed | Full | Average lengthAverage %id | Average coverage | |
DACZ_N | PF19294 | Domain | 55 | 111 | 124 | 52 | 45,9 |
В разделе Domain organization 3 вариантов доменной архитектуры, из которых один подходит под критерии: включают два домена, содержатся в более чем 20.
DAC - специфическая диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Часть ДНК - связывающего белка, который сканирует бактериальную ДНК на повреждения. Появление ц-ди-АМФ, является некоторым сигналом повреждения ДНК и влияет на скорость клеточных процессов.Активность диаденилатциклазы сильно подавляется при связывании с разветвленной ДНК, но не с дуплексной или одноцепочечной ДНК, что указывает на присутствие остановившихся вилок репликации или промежуточных продуктов рекомбинации. DACZ_N домен находится на N-конце фермента диаденилатциклазы DacZ из эвриархей. Этот домен, по-видимому, отдаленно связан с С-концевым доменом пируваткиназы.
По причине того, что на сайте Pfam практически все последовательности с данным доменом имеют выбранную доменную архитектуру, был выполнен поиск семейства по Uniprot и скачен full-файл именно по нему будет осуществлять поиск построенным HMM-профилем. С помощью скрипта, файл был приведен в удобный для дальнейшего составления таблиц вид и содержит только уникальные AC: uniprot_full_sort.fasta
Далее был скачен fasta-файл с выбранной доменной архитектурой. Опять же для удобства бущего построения таблиц и использования функции ВПР в excel, были вытащены скриптом AC последовательнойстей, содержащих выбранную архитектуру.
С помощью Jalview и MUSCLE было произведено выравнивание
Привожу уже оптимизированное выравнивание, из него были вырезаны отличающиеся последовательности, а также с помощью функции Remove redundancy были удалены идентичные на 90% и выше. В итоговой таблице можно посмотреть, последовательности с какими АС вошли в выравнивание на листе samples столбик in samples.Можно сказать, что все они достаточно консервативны.
Для файла выравненного и прошедшего ревизию займемся построением HMM-профиля:
hmm2build out_hmm.hmm musclere>hmm2calibrate out_hmm.hmmБыла проведена проверка HMM-профиля.hmm2search —cpu=1-E 0.1 out_hmm.hmm uniprot_full_sort.fasta >results.txtДанные о белках семейства, вхождении в последовательность рассматриваемого домена, включения их в выборку для построения профиля и длине отражены на листе samples таблицы.
На листе result таблицы приведены данные после проверки HMM-профиля. Столбец true таблицы содержит информацию о содержании найденного белка в изначальном списке с двухдоменной архитектурой. Столбцы 1-spec и sens отражают специфичность и чувствительность предсказания пинадлежности белка семейству с двухдоменной архитектурой. Формулы для расчета значений взяты из презентации к практикуму.
Большинство находок имеют длину в диапозоне 250-275, с выбранной двухдоменной архитектурой 269-271.
При падении весов заметна характерная ступенька. Значение функции F1 минимально при нулевой чувствительности, то есть при максимально возможном весе находки, далее растет и после достижения пика немного убывает при уменьшении score к минимальным по значениям. Максимальное значение F1 соответсвует находки со score 200,5 и E-value 1,80E-58.
Чтобы определить оптимальное соотношение параметров, нужно найти точку на кривой, расстояние от которой до диагонали, соединяющей пересечения кривой с осями координат, максимально. Я предполагаю, что это точка с координатами 1-spec -0,7707641 sens 0,17431. Ей соответствует вес находки 590.8.