Построение HMM-профиля семейства белков

Для работы был выбран домен фибронектина 3 типа (Fibronectin type III domain). Домен имеет следующие характеристики:

Для этого домена была выбрана двухдоменная архитектура, состоящая из FN3_7 и fn3 (Fibronectin type III domain, PF00041), расположенных последовательно. Данной архитектурой обладают 102 белка из 220.

plot

Сначала был скачан файл с последовательностями белков, содержащие домен FN3_7. При помощи скрипта получили файл с AC этих последовательностей. Со страницы доменной архитектуры в файл были скопированы AC белков, имеющих двухдоменную архитектуру. Скриптом получили последовательности белков с двумя доменами. Они были выровнены в Jalview, некоторые белки были удалены в ходе ревизии. Итого, для построения выравнивания было использовано 39 последовательности.

Затем все файлы с последовательностями скопировали на сервер кодомо, где запустили следующие команды:

hmm2build profile forAli.fasta

hmm2calibrate profile

hmmsearch --cpu=1 profile full.fasta &> log.txt

hmm2search --cpu=1 profile full.fasta &> log2.txt

В результате были получены файл с HMM-профилем и файлы с результатом поиска двудоменной архитектуры в последовательностях, содержащих FN3_7 ( для hmmsearch и hmm2search ). Длина составленного профиля равна 98 (из данных файла profile). На основании первого файла поиска скриптом была построена таблица содержащая столбцы: 1) AC белков с доменом; (2) отметка о выбранной архитектурой белка; (3) отметка о включении белка в выравнивание для построения HMM Профиля (4-5) для последовательностей, найденных профилем вес находки и E-value.

Алгоритм на основании построенного профиля нашел 164 последовательностей, имеющих двудоменную архитектуру, из 220 с заданным доменом. Дальнейший анализ проводился по таблице, составленной скриптом из второго файла с результатами. Таблица была импортирована в Excel, где затем данные обсчитывались и строились на их основе графики. Ссылка на excel файл.

Для данных было построено 3 графика:

bad

ROC-кривая. На графике красным отмечена точка с оптимальными соотношением специфичности и чувствительности. Координаты точки соответствуют 79% специфичности и 88% чувствительности. Этой точке соответствует порог E-value 3,7E-49.

bad

Распределение весов. На графике красным отмечен порог веса (score) 168,7, соответствующий пороговому E-value 3,7E-49. Выше порога оказалось 115 последовательностей. Если сравнивать полученный порог с субъктивным восприятием, то порог мог бы быть немного меньше.

bad

Параметр F1. Из графика следует, что оптимальный пороговый вес должен быть равен 161,5. Таким образом, предположение, что слудет брать порог меньший, чем предсказано ROC-кривой, оправдано.

Все файлы для работы были сделаны благодаря скриптам, предоставленных Беляевым Геннадием, студентом ФББ 2 курса.