Домены и профили

1. Выбор домена и доменной архитектуры

Выбрал Tcell_CD4_C, он является С-концевым доменом Т-клеточного рецептора CD4. С-концевой домен представляет собой цитоплазматический домен, который передает сигнал для активации Т-клеток. Этот процесс включает интернализацию корецепторов. Этот домен участвует в связывании с N-концом корецептора Lck в структуре застежки Zn2+.

Он имеет следующие характеристики

С сайта Pfam cкачал полные последовательности выборки full в формате fasta (Chekalin-full-165.fasta).

Наиболее полной двухдоменной архитектурой содержащей Tcell_CD4_C является CD4-extracel, Tcell_CD4_C. В ней 25 последовательностей.

architectures.jpg
Pic.1. Архитектуры содержащие домен Tcell_CD4_C (первые 6 архитектур, всего их 15)

По AC белков отобрал последовательности из Chekalin-full-165.fasta, которые имеют данную архитектуру. Выровнял в Jalview (исходное выравнивание). Удалил участки до начала первого домена и после конца второго, затем еще убрал избыточные последовательности с порогом по идентичности 90%. Конечное выравнивание содержало 12 белков.

2. Построение HMM-профиля семейства белков

Для построения HMM-профиля, его калибровки и поиска по нему белков семейства в последовательностях выравнивания full был использован пакет HMMER со следующими командами:

  hmm2build -g hmm.txt filtered_alignment.fasta  
  hmm2calibrate hmm.txt  
  hmm2search --cpu 1 hmm.txt Chekalin-full-165.fasta > search.txt  

Построенный HMM-профиль имеет длину 261 АК. Выдача программы hmm2search

3. Анализ HMM-профиля

Основные характеристики находок по профилю (из выдачи hmm2search) были занесены в таблицу (для её создания за основу брался скрипт Георгия Муравьева).

Белки в исходном семействе имели следующее распределение по длинам

length.png
Pic.2. Распределение длин белков семейства

Далее, используя F1 меру был определен порог веса, когда специфичность (specifity) и точность (precision) должны быть оптимальны, он равен около 580. На основании данных была построена ROC-кривая, по площади которой можно судить о неплохом качестве построенного профиля, то есть, поставленная задача решается хорошо

ROC_curve.jpg
Pic.3. ROC-кривая