Домены и профили

В базе данных Pfam я выбрал домен Fer4_23(PF18009). Данный домен удоволетворяет указанном критериям. Домен имеет seed 6. Число последовательностей в full 142. Средняя длина домена 82.7. Среднее сходство (identity) 51%. Средний процент покрытия последовательности белка доменом (coverage) 21.62%.

Мною был выбран домен V4Y4N4_9ARCH с двухдоменной архитектурой. Последовательностей с данной архитектурой - 107.

Это С-концевой домен, обнаруженный в белке Deinococcus radiodurans DR2241 (белок, связанный с рибосомальным белком S2). Было показано, что этот домен содержит мотивы последовательности CxxC и CxxxC, которые связывают [4Fe-4S] железо-серный кластер. Вместе с предыдущим доменом он активно участвует в образовании тетрамера.

Были скачены полные последовательности выборки full в файл full.fasta. Далее мною были скопированы все AC в отдельный файл. С помощью скрипта я получил файл с последовательностями с выбранной доменной архитектурой. После чего я сделал в Jalview с помощью алгоритма muscle выравнивание этих последовательностей. Белки с уровнем гомологичности свыше 99% были отбракованы. Файл выравнивания можно посмотреть здесь.

Построение HMM профиля

Был выгружено выравнивание и последовательно выполнены три команды, с помощью которых был построен HMM профиль:

Был получен профиль и файл, в котором содержится информация о E-value, весе и прочих данных. Основываясь на этих данных мною была сделана Excel-таблица. В колонке true содержится информация о том, встречается ли найденный белок в изначальном списке белков с двухдоменной архитектурой. Столбцы 1-spec и sens показывают специфичность и чувствительность предсказания принадлежности белка семейству с двухдоменной архитектурой.

По полученным данным был построен график Респределения score и ROC-кривая.

Получившиеся графики сложно назвать хорошими. Возможно, это связано с маленьким количеством последовательностей в выборке.