Практикум 9

ПОИСК ДОМЕНА И ДОМЕННОЙ АРХИТЕКТУРЫ

В базе данных Pfam был найден домен Carbohydrate binding module 77, удовлетворяющий критериям:

1. Число последовательностей в full - 96. Это больше 40, но меньше пары сотен.
2. Средняя длина домена - 108.1. Это менее 150.
3. Среднее сходство (identity) - 42%. Это более 40%.
4. Средний процент покрытия последовательности белка доменом (coverage) составляет 11.82%, то есть есть место для второго домена.
5. Число доменных архитектур - 22. Это больше двух.

Ниже показано описание домена Carbohydrate binding module 77.

ID AC Число белков в seed Число белков в full Число белков в UniProt Длина профиля HMM
CBM77 PF18283 13 96 412 109

Была найдена единственная архитектура с доменами Pectate_lyase_4 и CBM77, удовлетворяющая критериям:

1. В ней есть ещё один домен, кроме выбранного. Рекомендуется взять именно двухдоменную архитектуру.
2. Встречается у 41 белка. Это более 20 и менее 58 (половины белков с выбранным доменом).

Описание и изображение архитектуры (Рис. 1) показано ниже:

ID 2 домена AC 2 домена Число белков с архитектурой Длина профиля HMM
CBM77 PF18283 31 372
Sorry!
Рисунок 1. Расположение доменов в архитектуре.

Далее скачиваем последовательности нужного семейства (prot_96.fasta). Затем удаляем дубликаты (prot_93.fasta). Теперь копируем из Pfam АС белков одной архитектуры и создаём файл с последовательностями этих белков (prot_41.fasta). Команды приведены в colab. Последовательности с нужной архитектурой были выровнены в Jalview с помощью Muscle с параметрами по умолчанию (prot_41_align.fasta). После этого была произведена ревизия полученного выравнивания: удаление N-концевого (до 284 аминокислоты) и C-концевого (после 767 аминокислоты) участков по координатам последовательности R6W9N9_9BACT (координаты первого домена (Pectate_lyase_4) - 284:472, а второго (CBM77) - 661:767), исключение из выравнивания некоторых наиболее отличающихся последовательностей. Также была проведена процедура удаление избыточных последовательностей на уровне идентичности 99-100%. В итоге получилось выравнивание (prot_31_align_red.fasta), состоящее из 31 последовательности.

СОЗДАНИЕ HMM-ПРОФИЛЯ

Построим HMM-профиль нашей двух-доменной архитектуры с помощью hmm2build:
hmm2build HMM_profile new_aln.fa

Откалибруем (нормируем вес):
hmm2calibrate HMM_profile

Проведём поиск профиля по последовательностям из prot_96.fasta, файл hmm.txt используем для таблицы:
hmm2search -E 0.1 --cpu=1 HMM_profile full.fasta > hmm.txt

Таблица и графики показаны в Google-таблице.

Далее была построена гистограмма распределения длин белков, входящих в выбранное CBM77 (Рис. 2). Можно сделать вывод, что для белков выбранного семейства характерна длина в диапазоне 555 - 833. Затем был построен график падения весов последовательностей (Рис. 3). При этом красной линеей отмечен порог, полученный с помощью RОС-кривой (Рис. 4): для этого измерим наибольшее расстояние от ROC-кривой до диагонали, соединяющей начало и конец. Здесь эта точка, примерно, с координатами (-0.865384615;0.853658537) и весом 552,9. График F1 (рис.5): при миниальных значениях чувствительности линия плавная, затем растёт, достигает пика и убывает; локальный минимум в точке (618.90;0.820512821).
Sorry!
Рисунок 2. Распределение белков в домене CBM77.
Sorry!
Рисунок 3. График падения весов последовательностей.
Sorry!
Рисунок 4. ROC-кривая.
Sorry!
Рисунок 5. F1-кривая.