Домены и профили

Выбор домена и архитектуры

Для поиска домена c удовлетворяющими характеристиками использованы Google Таблицы. В результате был выбран домен Bac_RepA_C (PF18008) со следующими параметрами:

AC домена PF18008
Название домена Bac_RepA_C
Seed 7
Full 65
UniProt 1003
Средняя длина 88
Среднее сходство (%) 44
Средний процент покрытия белка доменом 29.96
Длина профиля HMM 95

Домен встречается в пяти архитектурах. Одна из них двухдоменная RepA_N и Bac_RepA_C - Q5HS39_STAEQ. Встречается у 41 белков.

Рис 1. Выбранная доменная архитектура

Получение HMM-профиля

Скачан fasta-файл со всеми последовательностями, содержащими выбранный домен (Dashkevich-full-65.fasta) и файл с последовательностями с выбранной доменной архитектурой (architectures.fasta). С использованием Jalview на основе второго файла получено выравнивание, из которого были удалены последовательности совпадающие более чем на 90%. Полученное выравнивание содержит 16 последовательностей (aligment.fasta). Для получения HMM-профил был использован пакет HMMER, а именно последовательно были выполнены следующие команды:

hmm2build -g hmm_out.txt aligment.fasta
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt Dashkevich-full-65.fasta > hmm2search_out.txt

Был получен HMM-профиль двухдоменной архитектуры, именющий длину 104 а.о. и файл, который содержит 65 находок.На основе этих находок с помощью скрипта, взятого у Георгия Муравьева получена таблица, содержащая сведения о всех последовательностях содержащих домен Bac_RepA_C.

Таблица 1. Фрагмент таблицы

Анализ HMM-профиля

В результате работы скрипта также была получена таблица, которая содержит сведения о находках. С помощью Google Таблицы были построены следующие графики:

Рис 2. ROC кривая

Рис 3. Зависимость параметра F1 от порога веса

Рис 4. Распределение весов находок