Практиум 11

Домены и профили .


Для выполнения данного задания был взят домен AAA_21. Несколько представителей относятся к системе резистентности к абортивным фагам, и в этом случае семейство будет действовать как токсин для системы резистентности к токсину и антитоксину IV типа.

Всего для этого домена существует 297 архитектур. Исходя из условий задания мной была выбрана двухдоменная архитектура, содерщащая домены AAA_21 и DUF4162 (177 последовательностей, репрезентативный белок архитектуры A8KXE9). Формируем положительную выборку: я скачала все последовательности белков и, с помощью Jalview, получила выравнивание последовательностей всех белков подсемейства.

Далее в выравненных последовательностях был оставлен только участок от N-конца первого домена до C-конца второго, снова выравним их. Удалили последовательности, имеющие крупные делеции в районах доменов, затем были удаленены высокосходные последовательности (remove redundancy с порогом 80%). Далее снова построили выравнивание. Это будет наша обучающаяся выборка.

Соберем итоговую выборку, состоящую из положительной и отрицательной. Так как ААА_21 находится в 6 000 белках, то в отрицательный контроль положим выборку сопоставимую с размером подсемейства. OLD-like_TOPRIM и AAA_21(1652 белка) DUF2813 и AAA_21(116 белков). Итоговая выборка.

С помощью следующих команд из пакета HMMER был создан и откалиброван HMM-профиль. Также с помощью него был проведен поиск по итоговой выборке.

hmm2build -g hmm_out.txt reduce_seq_pr11_2.fa

hmm2calibrate hmm_out.txt

hmm2search --cpu 1 hmm_out.txt protein-sequences_pr11_finel.fasta > hmm2_out.txt

Выдача программы: профиль двухдоменной архитектуры, находки в итоговой выборки.

Далее с помощью скрипта, вязтого у Каримовой Карины, построены гистограммы весов выборок и графики ROC Curve и F1 Score. По гистограммам нетрудно заметить, что отрицательная и положительная выборка отлично разделились.

-
Рис. 1. Гистограмма весов последовательностей обучающей выборки
-
Рис. 2. Гистограмма весов последовательностей позитивной выборки
-
Рис. 3. Гистограмма весов последовательностей негативной выборки
fig8
Рис. 4 ROC-кривая
fig8
Рис. 5 Зависимость параметра F1 от веса