Создание HMM-профиля

Для работы был взят домен PF01298 - C-lobe and N-lobe beta barrels of Tf-binding protein B.

Описание:

Bacterial lipoproteins represent a large group of specialized membrane proteins that perform a variety of functions including maintenance and stabilization of the cell envelope, protein targeting and transit to the outer membrane, membrane biogenesis, and cell adherence [2]. Pathogenic Gram-negative bacteria within the Neisseriaceae and Pasteurellaceae families rely on a specialized uptake system, characterized by an essential surface receptor complex that acquires iron from host transferrin (Tf) and transports the iron across the outer membrane. They have an iron uptake system composed of surface exposed lipoprotein, Tf-binding protein B (TbpB), and an integral outer-membrane protein, Tf-binding protein A (TbpA), that together function to extract iron from the host iron binding glycoprotein (Tf). TbpB is a bilobed (N and C lobe) lipid-anchored protein with each lobe consisting of an eight-stranded beta barrel flanked by a "handle" domain made up of four (N lobe) or eight (C lobe) beta strands [1]. TbpB extends from the outer membrane surface by virtue of an N-terminal peptide region that is anchored to the outer membrane by fatty acyl chains on the N-terminal cysteine and is involved in the initial capture of iron-loaded Tf [3]. This domain family is found in C and N lobe eight stranded beta barrel region of TbpB proteins. The eight-stranded barrel domains in N and C lobe draw comparisons to eight-stranded beta barrel outer-membrane protein W (OmpW). However, the barrel domains of TbpB have the hydrophobic residues line the inner surface of the beta barrels to create a stable hydrophobic core [1].

Длину профиля HMM домена из Pfam - 124.

Всего есть 2599 белков с таким доменом.

Было выбрано подсемейство белков с двухдоменной архитектурой, в которой оба домена - PF01298. Таких белков 74.

Белковые последовательности были выравнены, из выравниваний были вырезаны участик от началапервого домена до конца второго. Полученные последовательности были заново выравнены, после чего были удалены те из них, в которых были большие гэпы внутри доменов, и удалены все последовательности, кроме одной, из каждого кластера идентичных на 90% последовательностей. После этого осталось 36 последовательностей. Их можно посмотреть по ссылке. Они далее использовались в качестве материала для построения профиля.

Профиль был построен с помощью следующей команды:

hmm2build hmmprofile.txt pr11_profile.txt

Далее он был откалиброван:

hmm2calibrate hmmprofile.txt

Затем был осуществлен поиск по всем последовательностям, содержащим ДОМЕН:

hmm2search --cpu=1 hmmprofile.txt full.fasta > hmmsearch.txt

Было найено 2428 совпадений. Выдачу можно псмотреть по ссылке.

Изходя из результатов, были рассчитаны специфичность и чувствительность для каждого порогового значения веса. По ним была построена ROC-кривая. Она показана на рисунке 1.

?

Пороговое значение я решила считать подходящим, если чувствительность равна хотя бы 0.9, а специфичность - хотя бы 0.99. Этим условиям соответствуют веса от 171.6 до 232.7.