Практикум 9

Построение HMM-профиля семейства белков

Для работы был выбран домен фибронектина 3 типа (Fibronectin type III domain) - гликопротеина внеклеточного матрикса, который связывается с мембранными рецепторными белками интегринами. Домен содержит 15 белков в seed, 220 белков в full, 493 белка в Uniprot. Средняя длина домена составила 94.4. Также была выбрана доменная архитектура, содержащая домены FN3_7 и fn3. Эта архитектура характерна для 102 белков.

фото

Был скачан файл с белками, сожержащими домен FN3_7. При помощи скрипта был получен список AC белков. Также были скопированы в файл AC белков, имеющих двухдоменную архитектуру. С помощью скрипта получили последовательности белков с двумя доменами. После выравнивания в JalView некоторые белки были удалены, и для построения выравнивания было использовано 39 последовательностей.

Для построения hmm-профиля были использованы следующие команды:

hmm2build profile forAli.fasta

hmm2calibrate profile

hmmsearch --cpu=1 profile full.fasta &> log.txt

hmm2search --cpu=1 profile full.fasta &> log2.txt

В результате был получен HMM-профиль

Длина составленного профиля равна 98. Cкриптом была построена таблица содержащая следующую информацию:(1) AC белков с доменом; (2) отметка о выбранной архитектурой белка; (3) отметка о включении белка в выравнивание для построения HMM Профиля (4-5) для последовательностей, найденных вашим профилем вес находки и E-value

С помощью алгоритма на основании hmm-профиля было найдено 164 из 220 с заданным доменом. Дальнейший анализ проводился по таблице, составленной скриптом.Ссылка на excel файл.

фото

ROC-кривая. На графике красным отмечена точка с оптимальными соотношением специфичности и чувствительности. Координаты точки соответствуют 79% специфичности и 88% чувствительности. Этой точке соответствует порог E-value 3,7E-49.

фото

Распределение весов. Отмечен порог веса 168,7, соответствующий E-value 3,7E-49. Выше порога оказалось 115 последовательностей

фото

F1-кривая. Локальный максимум данного графика соответствует оптимальному соотношению sensitivity и specificity. Пороговый вес последовательности для отнесения соответствует оптимальному соотношению sensitivity и specificity. Значение порогового веса последовательности незначительно отличается от такового полученного по ROC-кривой и составляет 428.4, согласно этому графику, составляет 161,5, что немного меньше подсчитанного с использованием ROC-кривой значения