Выбор домена и архитектуры
Для поиска домена c удовлетворяющими характеристиками использованы Google Таблицы. В результате был выбран домен Bac_RepA_C (PF18008) со следующими параметрами:
AC домена PF18008
Название домена Bac_RepA_C
Seed 7
Full 65
UniProt 1003
Средняя длина 88
Среднее сходство (%) 44
Средний процент покрытия белка доменом 29.96
Длина профиля HMM 95
Домен встречается в пяти архитектурах. Одна из них двухдоменная RepA_N и Bac_RepA_C - Q5HS39_STAEQ. Встречается у 41 белков.
Рис 1. Выбранная доменная архитектура
Получение HMM-профиля
Скачан fasta-файл со всеми последовательностями, содержащими выбранный домен (Dashkevich-full-65.fasta) и файл с последовательностями с выбранной доменной архитектурой (architectures.fasta). С использованием Jalview на основе второго файла получено выравнивание, из которого были удалены последовательности совпадающие более чем на 90%. Полученное выравнивание содержит 16 последовательностей (aligment.fasta). Для получения HMM-профил был использован пакет HMMER, а именно последовательно были выполнены следующие команды:
hmm2build -g hmm_out.txt aligment.fasta
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt Dashkevich-full-65.fasta > hmm2search_out.txt
Был получен HMM-профиль двухдоменной архитектуры, именющий длину 104 а.о. и файл, который содержит 65 находок.На основе этих находок с помощью скрипта, взятого у Георгия Муравьева получена таблица, содержащая сведения о всех последовательностях содержащих домен Bac_RepA_C.
Таблица 1. Фрагмент таблицы
Анализ HMM-профиля
В результате работы скрипта также была получена таблица, которая содержит сведения о находках. С помощью Google Таблицы были построены следующие графики:
Рис 2. ROC кривая
Рис 3. Зависимость параметра F1 от порога веса
Рис 4. Распределение весов находок