Pfam

Pfam. Домены и профили.

Задание 1.
Путем долгого поиска в Pfam по слову methyltranspherase и просмотра пар доменов я осатновился на доменах HPPK и dNK (Таблица 1; Рисунок 1). Потом я обнаружил, что домен HPPK есть в презентации, но я нашел его сам, честно :) .

В БД Pfam с такой архитектурой имеется 245 последовательностей. Поиск белков бактерий с такими доменами в UniProt дал 850 результатов, при этом не нашлось белков с перевернутой архитектурой или другими доменами в ней. Большинство белков, найденных в Uniprot, - 2-amino-4-hydroxy-6-hydroxymethyldihydropteridine diphosphokinase - навешивают на молекулу пирофосфатную группу, участвуют в биосинтезе фолиевой кислоты (витамин В9)^[1]. У других находок в UniProt указана схожая активность. Возможно, такой результат по этим доменам не очень интересен с точки зрения разнообразия белковых структур и отбора подходящих структур, но говорит, что, исходя из текущих данных, у бактерий эти оба домена можно встретить только в такой паре, а белки с такой парой доменов выполняют одну функцию.

Таблица из UniProt, расчеты, гистограмма в Excel - файле (лист both_domains). Там же указаны выбранные последовательности характерной длины в столбце selected.

Domain ID AC Num seq in bact

HPPK PF01288 7293

dNK PF01712 3111

Таблица 1. Domain spec.

Рисунок 1. Domain arch.
Задание 2.
Далее я построил HMM профиль по выбранным последовательностям. Выгруженные из Uniprot послдовательности были выравнены в программе Jalview алгоритмом muscle, обработаны. Исходное выравнивание, измененное выравнивание.
Профили построены с помощью программного пакета HMMER. Использованы такие команды:
```
hmm2build profile.hmm al_cut.mfa  
hmm2calibrate profile.hmm  
hmm2search -E 0.01 profile.hmm dNK.fasta.gz | cat > res.txt
```
Полученный откалиброванный HMM профиль. С помощью этого профиля был произвден поиск по последовательностям, содержащим 1 из 2 выбранных ранее доменов. Я провел поиск по 13321 последовательности из Uniprot, содержащим домен dNK, так как последовательностей с другим доменом больше 30 тысяч.

Результаты работы в Excel - файле, включая распределение score и ROC-кривую (лист hmm). Пороговым был выбран score = 140.1. При этом специфичность профиля составила 0.997, чувствительность - 0.976.

Пороговый score был выбран исходя из максимального F1 score, который является средним гармоническим между точностью и чувствительностью. Таким образом мы можем получить позицию в отсортированном по score результате, где FP и FN находки будут минимальны. Такой F1 score приходится на позицию сразу после резкого падения score. График распределения score имеет одно ярко выраженное падение, то есть, находки профиля достаточно четко разделены на содержащих данную двухдоменную структуру и не содержащих таковой.

Однако нужно учитывать, что находки с E-value > 0.01 были отсеяны и не были учтены. Изначальная выборка с двумя доменами содержала 850 последовательностей. 6 из них профиль не определил как истинные, они остались за порогом. Если я правильно понимаю, можно пересчитать чувствительность теста и его специфичность, учитывая этот факт. Чувствительность = 824 / (824 + 20 + 6) = 0.969. Поиск производился по 13321 последовательности, тогда общее число TN находок возрастет до (13321 - 824 - 24 - 26 = 12447) штук. Специфичность = 12447 / ( 12447 + 24) = 0.998.

Пересчитанные чувствительность и специфичность сильно не отличаются от полученных ранее. Я считаю,что полученный HMM профиль предсказывает наличие таких доменов в последовательности с достаточно хорошей чувствительностью и предсказывает их отсутствие с хорошей специфичностью.

Domain ID	AC	Num seq in bact
HPPK	PF01288	7293
dNK	PF01712	3111

Практикум 9.

Pfam. Домены и профили.