Домены и профили

Выбор домена и архитектуры для работы

В рамках данного практикума для поиска домена, удовлетворющего требованиям использованы Google Таблицы. В результате был выбран домен CD4-extracel (PF09191) со следующими характеристиками:

AC домена

Название домена

Seed

Full

UniProt

Средняя длина

Среднее сходство (%)

Средний процент покрытия белка доменом

Длина профиля HMM

PF09191

CD4-extracel

20

171

381

108,20

50

24,14

107

Данный домен встречается в 16 доменных архитектурах. Из них была выбрана двухдоменная архитектура CD4-extracel, Tcell_CD4_C. Она встречается у 25 белков.

Рис. 1
Рис. 1. Изображение выбранной доменной архитектуры.

Получение HMM-профиля

Для дальнейшей работы были скачаны fasta-файлы со всеми последовательностями, содержащими выбранный домен (Muravyov-full-171.fasta) и с последовательностями с выбранной доменной архитектурой (architectures.fasta). С использованием Jalview на основе второго файла получено выравнивание, из которого были удалены последовательности совпадающие более чем на 90%, а также участки до начала домена CD4-extracel и после конца домена Tcell_CD4_C. Полученное выравнивание содержит 19 последовательностей. Для получения HMM-профил был использован пакет HMMER, а именно последовательно были выполнены следующие команды:

hmm2build HMM aligment.fasta
hmm2calibrate HMM
hmm2search --cpu=1 HMM.xxx Muravyov-full-171.fasta > search.txt

В результате был получен HMM-профиль двухдоменной архитектуры, именющий длину 264 а.о. и файл, содержащий 140 находок, на основе которых с помощью скрипта получена таблица, содержащая сведения о всех последовательностях содержащих домен CD4-extracel.

Таблица 1. Фрагмент таблицы out.tsv. 1 означает вхождение.
Название Входит в
семейство
Входит в выборку
для построения
профиля
Входит в
список
находок
Вес находки E‑value
A0A212CD61_CEREH 0 0 1 \(\begin{equation}-116,9\end{equation}\) \(\begin{equation}0,15\end{equation}\)
A0A7E6D1T7_9CHIR 0 0 1 \(\begin{equation}-109,2\end{equation}\) \(\begin{equation}0,054\end{equation}\)
A0A091UPT0_NIPNI 1 1 1 \(\begin{equation}600,2\end{equation}\) \(\begin{equation}3,6\cdot10^{-179}\end{equation}\)
A0A1U8DZG6_ALLSI 0 0 1 \(\begin{equation}104,6\end{equation}\) \(\begin{equation}5,7\cdot10^{-30}\end{equation}\)
F1SLT4_PIG 0 0 0 None None

Анализ HMM-профиля

В результате работы всё того же скрипта получена таблица, содержащая сведения о находках. С использованием Excel получены графики ROC, F1, а также распределение весов. Скачать таблицу.

Рис. 2
Рис. 2. ROC кривая.
Рис. 3
Рис. 3. Зависимость параметра F1 от порога веса.
Рис. 4
Рис. 4. Распределение весов находок.

Полученная ROC имеет резкий скачок, что связано с резким скачком весов. Показатель AUC=0,78, равный площади, ограниченной ROC-кривой и осью частоты ложно-положительных результатов, свидетельствует о высоком качестве классификатора. [1]. Исходя из графика зависимости F1 от веса, можно сказать, что порог веса обеспечивающий наибольшие точность и полноту заключён между 514,00 и 536,20. (Действительно это веса лучшей неправильной находки и худшей правильной находки соответственно.)

Построение филогенетического дерева

На основе выравнивания всех последовательностей, содержащих домен CD4-extracel было построено филогенетическое дерево. Цветом выделены последовательности, содержащие двухдоменную архитектуру CD4-extracel, Tcell_CD4_C. Все клады, несодержащие эту архитектуру были схопнуты, чтобы не загромождать изображение. Можно замиетить, что двухдоменная архитектура встречается только в одной кладе, при чём в рамках этой клады только две последовательности обладают другой архитектурой. Последовательность A0A3L8S9T8_CHLGU обладает трёхдоменной архитектурой V-set, CD4-extracel, Tcell_CD4_C, то есть отличается от остальных последовательностей клады добавление в начало нового домена. Последовательность A0A0Q3URE4_AMAAE является однодоменной. (Можно предположить случайную утрату второго домена в ходе эволюции.)

Рис. 5
Рис. 5. Филогенетическое дерево белков содержащих домен CD4-extracel, с рассмотрением клады, содержащей двухдоменную архитектуру CD4-extracel, Tcell_CD4_C.

СПИСОК ЛИТЕРАТУРЫ

  1. 1🠕 ROC-кривая, Википедия