Домашнее задание 1. Электронная плотность

Автор в ужасе, что снова нужны kodomo и pymol🥺

Задание 1. ЭП: хорошая и плохая расшифровки

Мне были даны две модели 3QPA и 3ESB. Это кутиназа (относится к классу гидролаз) из Fusarium vanettenii. Выравняла модели при помощи команды (рисунок 1):

super 3QPA, 3ESB
Allignment of 3QPA and 3ESB
Рисунок 1. Общий вид выравненных белков. Зелёным цветом показана модель 3QPA, а циановым – 3ESB.

Значимых отличий, которые сразу бросаются в глаза, мне не удалось выявить. Остовы двух белков в целом идут сходным образом, сборки явно отличаются только на N- и C- концах белков (C-конец можно увидеть в левой нижней части рисунка 1).
Изучим карты электронных плотностей с помощью mesh. Будем отображать следующий участок: 195-198 остатки (Ala-Arg-Gly-Pro) - часть одной из альфа-спиралей. select seleQPA, resi 195-198 and 3qpa and backbone

isomesh mQPA, 3QPA_2fofc, 1, (seleQPA), carve=2
isomesh m2QPA, 3QPA_2fofc, 2, (seleQPA), carve=2
isomesh mESB, 3ESB_2fofc, 1, (seleESB), carve=2
isomesh m2ESB, 3ESB_2fofc, 2, (seleESB), carve=2
Рисунок 2..
Рисунок 3..
Рисунок 4..
Рисунок 5..

Задание 2. ЭП и положение в структуре

4G8N

fetch 4G8N
fetch 4G8N, type=2fofc
select bb, backbone
hide everything, all
show sticks, bb
center bb
spectrum b, blue_white_red
isomesh m1, 4G8N_2fofc, 1, bb, carve=1

Задание 3. Альтернативные положения

Задание 4. B-фактор

Несколько слов про домен и подсемейство. Еще при заполнении формы в классе был выбран домен Sialidase, N-terminal domain (PF02973). Он встречается у O-гликозилгидролаз, сиалидазы гидролизуют гликозидные связи концевых сиаловых остатков (остатки полиоксиаминокислот) в олигосахаридах, гликопротеинах, гликолипидах, коломиновой кислоте и синтетических субстратах, по некоторым данным, могут выступать в качестве патогенных факторов при микробных инфекциях.
Выделяют 74 архитектуры, содержащих данный домен, была выбрана PF02973 - PF13088, как двухдоменная и содержащая оптимальное количество представителей - 126 белков. Второй домен: BNR repeat-like domain.

Подготовка

Были скачены последовательности подсемейства, выровнены в Jalview (Mafft with defaults). Для проверки того, что выравнивание на участках обоих доменов было местами удовлетворительным, отсортировали выравнивание в Jalview по id. Для первых нескольких последовательностей координаты начала и конца доменов согласно pfam:

  1. 2-166; 397-572 (A0A098ZPR4)
  2. 80-271; 499-726 (A0A0H2ZQ85)
  3. 44-223; 457-660 (A0A0J0B100)
Убедившись, что все визуально в порядке (рисунки 1-2), вырезали вертикальный блок от N-конца Sialidase (первый домен) до C-конца BNR_2 (второй домен). Полученное выравнивание двух доменов перевыровняли (снова Mafft).

1 domain in jalview allignment
Рисунок 1. Участок первого домена (Sialidase) в выравнивании подсемейства.
2 domain in jalview allignment
Рисунок 2. Участок второго домена (BNR_2) в выравнивании подсемейства.

Осталось только провести ревизию вырванивания. Обнаружены и удалены были две последовательности с крупными деляциями в районе доменов. Из кластеров высокосходных последовательностей оставили одну - порог remove redundancy постепенно снижали со 100% и в итоге довели до одного представителя в класетере из идентичных на 94% и более последовательностей. Остались 60 последовательностей.
Материал для построения профиля - выравнивание после ревизии.
В качестве материала для положительного контроля решено взять все последовательности подсемейства.
Материал для калибровки профиля - два подсемейства семейства с Sialidase доменом, не пересекающееся с выбранным подсемейством: PF02973 - PF13385 - PF13088 - PF00754 - PF07554 - PF07554 - PF07554 - PF07554 (6 белков) и PF02973 - PF13859 - PF00963 - PF00404 (6 белков), а также для дальнейшей работы необходимы последовательности белков изучаемого подсемейства.

Создание HMM-профиля подсемейства PF02973 - PF13088

Для построения HMM-профиля были выполнены представленные ниже команды.

hmm2build hmmout reviewed.fasta
hmm2calibrate hmmout
hmm2search --cpu=1 hmmout negative.fasta > results.txt

hmm2build делает профиль по выравниванию - результат. Далее после калибровки статистик поиска, проводили сам поиск по материалам для положительного контроля - результат.

Анализ HMM-профиля

Итоговая таблица, гистограммы весов и графики были получены при помощи скрипта на питоне - colab. Ссылка на таблицу. Гистограммы представлены на рисунках 3-6. Уже из 3 рисунка видно, что у нас отсуствуют отрицательные веса, что уже вызывает подозрения. В рисунке 5 становится видно, что представители негативной выборки плохо выделяются полученной моделью. Графики подтверждают неточное восприятие нашей моделью архитектуры. По гистограммам и графикам видно, что порог либо в 550, в 900 можно брать, наверное, лучше 900.

Рисунок 3. Гистограмма весов последовательностей калибровочной выборки.
Рисунок 4. Гистограмма весов последовательностей обучающей выборки (последовательности в выравнивании после ревизии).
Рисунок 5. Гистограмма весов последовательностей позитивной выборки (последовательности подсемейства).
Рисунок 6. Гистограмма весов последовательностей негативной выборки (последовательности иных подсемейств с доменом Sialidase).
roc-curve
Рисунок 7. ROC-кривая.
f1 score curve
Рисунок 8. Зависимость параметра F1 от веса.