Домен PT-TG представляет собой консервативную область, обнаруженную во многих белках бактериальных токсинов. Он может функционировать как линкер, который связывает N-концевой домен, связанный с секрецией, и C-концевой домен токсина.
Всего для данного домена есть 185 архитектур, для задания была выбрана архитектура, содержащая 2 домена: LXG и PT-TG (203 последовательности, репрезентативный белок архитектуры Q65H85). Выравнивание последовательностей всех белков подсемейства (позитивная выборка).
Далее эти последовательности были выравнены, в последовательностях был оставлен только участок от N-конца первого домена до C-конца второго и затем последовательности снова были выравнены. Были удалены вероятные фрагменты (последовательности, имеющие крупные делеции в районах доменов) и затем были удалены высокосходные последовательности (remove redundancy с порогом 80%). Выравнивание оставшихся 49 последовательностей (обучающая выборка).
Так как всего белков с доменом PT-TG около 2000, то для негативной выборки возьмем не все белки, а лишь выборку сопоставимую с размером подсемейства. Поэтому в суммарную выборку ко всем белкам выбранного подсемейства добавим последовательности еще трех доменных архитектур, состоящих из двух доменов: WXG100 и PT-TG (110 белков), PT-TG и Endonuclea_NS_2 (47 белков), PT-TG и PT-HINT (42 белка). Итоговая выборка.
С помощью следующих команд из пакета HMMER был создан и откалиброван HMM-профиль. Также с помощью него был проведен поиск по итоговой выборке (которая состоит из позитивной, обучающей и негативной выборок).
hmm2build -g hmm_out.txt sample.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt
Выдачи программ: профиль HMM двухдоменной архитектуры, находки в итоговой выборке.
Далее с помощью скрипта была получена итоговая таблица, построены гистограммы весов выборок и графики ROC Curve и F1 Score. Уже по гистограммам видно, что негативная и позитивная выборка отлично разделяются. Графики так же показывают то, что наша модель очень точно распознает заданную архитектуру. По гистограммам и графикам лучшим является порог -66.