Был выбран домен фибронектина 3 типа (FN3_7 (PF18447)).
Характеристики домена:
- Число белков с доменом: seed 15, full 220, UniProt 493
- Средняя длина: 94,4
Для этого домена была выбрана двухдоменная архитектура, состоящая из FN3_7 и fn3 (Fibronectin type III domain, PF00041), расположенных последовательно (рис. 1). Такой архитектурой обладают 102 белка из 220.
Рис. 1 Двухдоменная архитектура
Был скачан файл со всеми последовательностями белков, содержащих FN3_7. В результате работы скрипта получился список с АС этих последовательностей. Далее был получен файл всех АС с нужной доменной архитектурой и их последовательностями.
Полученные последовательности были выровнены в Jalview (некоторые белки удалились после ревизии). В итоге, для построения выравнивания использовалось 39 последовательностей.
Для построения НММ-профиля был использован пакет HMMER и выполнены следующие команды:
hmm2build HMM align_pr9.fasta
hmm2calibrate HMM
hmm2search —cpu=1 -E 1 HMM full.fasta> results_pr9.txt
Были получены HMM-профиль двухдоменной структуры длиной 98 и файл с результатами поиска профиля по набору белков с выбранным доменом.
С помощью скрипта, таблицы и файла AC белков, имеющих двухдоменную архитектуру, была получена таблица.
Получилась excel таблица.
Для полученных данных было построено 3 графика:
Рис. 2 ROC-кривая. На графике красным отмечена точка с оптимальными соотношением специфичности и чувствительности. Координаты точки соответствуют 79% специфичности и 88% чувствительности. Этой точке соответствует порог E-value 3,7E-49.
Рис. 3 Распределение весов. На графике красным отмечен порог веса (score) 168,7, соответствующий пороговому E-value 3,7E-49. Выше порога оказалось 115 последовательностей. Если сравнивать полученный порог с субъективным восприятием, то порог мог бы быть немного меньше.
Рис. 4 Параметр F1. Из графика следует, что оптимальный пороговый вес должен быть равен 161,5. Таким образом, предположение, что слeдует брать порог меньший, чем предсказано ROC-кривой, оправдано.