Домены и профили

Домен PT-TG представляет собой консервативную область, обнаруженную во многих белках бактериальных токсинов. Он может функционировать как линкер, который связывает N-концевой домен, связанный с секрецией, и C-концевой домен токсина.

Всего для данного домена есть 185 архитектур, для задания была выбрана архитектура, содержащая 2 домена: LXG и PT-TG (203 последовательности, репрезентативный белок архитектуры Q65H85). Выравнивание последовательностей всех белков подсемейства (позитивная выборка).

Далее эти последовательности были выравнены, в последовательностях был оставлен только участок от N-конца первого домена до C-конца второго и затем последовательности снова были выравнены. Были удалены вероятные фрагменты (последовательности, имеющие крупные делеции в районах доменов) и затем были удалены высокосходные последовательности (remove redundancy с порогом 80%). Выравнивание оставшихся 49 последовательностей (обучающая выборка).

Так как всего белков с доменом PT-TG около 2000, то для негативной выборки возьмем не все белки, а лишь выборку сопоставимую с размером подсемейства. Поэтому в суммарную выборку ко всем белкам выбранного подсемейства добавим последовательности еще трех доменных архитектур, состоящих из двух доменов: WXG100 и PT-TG (110 белков), PT-TG и Endonuclea_NS_2 (47 белков), PT-TG и PT-HINT (42 белка). Итоговая выборка.

С помощью следующих команд из пакета HMMER был создан и откалиброван HMM-профиль. Также с помощью него был проведен поиск по итоговой выборке (которая состоит из позитивной, обучающей и негативной выборок).

hmm2build -g hmm_out.txt sample.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt

Выдачи программ: профиль HMM двухдоменной архитектуры, находки в итоговой выборке.

Далее с помощью скрипта была получена итоговая таблица, построены гистограммы весов выборок и графики ROC Curve и F1 Score. Уже по гистограммам видно, что негативная и позитивная выборка отлично разделяются. Графики так же показывают то, что наша модель очень точно распознает заданную архитектуру. По гистограммам и графикам лучшим является порог -66.

-
Рис. 1. Гистограмма весов последовательностей обучающей выборки
-
Рис. 2. Гистограмма весов последовательностей позитивной выборки
-
Рис. 3. Гистограмма весов последовательностей негативной выборки
-
Рис. 5. ROC-кривая
-
Рис. 6. Зависимость параметра F1 от веса