Для работы был выбран RKP_N — N-концевой домен убиквитин-лигазы RKP (PF19322). Домен обладает следующими характеристиками:
Архитектура RKP_N + SPRY(PF00622) лучше других подходит для дальнейшей работы, т.к. содержит два разных домена и встречается в 68 последовательностях — менее половины от всех, содержащих выбранный домен.
Файл со всеми последовательностями из выравнивания Full. Файл с AC последовательностей с выбранной доменной архитектурой. Все последовательности с выбранной доменной архитектурой были укомплектованы в файл. На основе этого файла в программе Jalview алгоритмом Muscle было построено выравнивание. В выравнивании были обрезаны концы белков, выступающие за границы доменов, и исключены совпадающие последовательности. Новое выравнивание.
Для построения и калибровки HMM-профиля выбранной доменной архитектуры и последующего поиска белков с нужным доменом были использованы следующие команды:
hmm2build HMM align.fasta
hmm2calibrate HMM
hmm2search --cpu=1 HMM PF19322_full.fasta > finds.txt
Длина профиля — 277 аминокислот. Файл с 183 находками доступен по ссылке. Из выдачи была выделена наиболее информативная таблица, которая доступна по ссылке. Проанализировав выдачу и проведя сравнение по различным наборам AC, я составил сводную таблицу.
Анализ HMM-профиля проводился посредством инструментов программы Excel (файл с таблицей и графиками). Гистограмма длин белков семейства доступна по ссылке. Интервал характерных длин: 1172—1302.
График на рисунке 1 терпит перелом в области score=400, разделяющий множество находок на "правильные" и "неправильные". На графике параметра F1 пороговое значение веса также находится около 400. Максимальному значению параметра 0.511 соответствует значение веса 417.2. Это значение можно выбрать в качестве порогового. Исходя из графика ROC-кривой (Рис. 3), соотношение между чувствительностью и специфичностью практически линейное, площадь под кривой сравнительно небольшая, что говорит о низком качестве построенного профиля.
Рис. 1. Распределение весов последовательностей.
Рис. 2. Зависимость параметра F1 от веса.
Рис. 3. ROC кривая.
По Full-набору последовательностей, содержащих домен RKP_N, методом FastME было построено филогенетическое дерево. Красным цветом на нём отмечены последовательности с выбранной доменной архитектурой. Можно заметить, что эта архитектура встречается достаточно хаотично; по-видимому, оба домена эволюционировали независимо. Все последовательности относятся к белкам покрытосеменных растений. В левом нижнем углу заметно выделяется группа с большим количеством архитектур; к ней относятся однодольные и базальные двудольные растения.