Суздаленко, семестр 4

Практикум 9

Домены и профили

В данной работе нужно было создать HMM-профиль семейства белков и проверить его работу. Последнее подразумевало найти подходящий порог F1 для HMMsearch для установления, входит ли некоторый белок с заданным доменом в выбранное семейство двухдоменной архитектуры или нет. Сперва нам нужно было выбрать домен и архитектуру с ним, подходящие по параметрам seed, full и длине профиля HMM. Я выбрала домен Carot_N (AC PF09150, 49 белка в seed, 357 - в full, длина профиля HMM 151 аминокислота) и двухдоменную архитектуру с NTF-2 (PF02136). Порядок доменов: Carot_N - NTF-2, белков с данной архитектурой 131). Далее получила список АС белков, содержащих выбранную двухдоменную структуру, из раздела Architectures. Последовательности всех белков с доменом Carot_N лежат вфайле. Также была получена гистограмма распределения длины белков семейства, содержащих этот домен, которую построила втаблице. По приведённой ниже гистограмме видно, что преимущественно длина белков лежит в пределах от 138 до 214 и от 290 до 328 аминокислотных остатков.

Гистограмма распределения длин белков с доменом Carot_N. По горизонтали диапазоны длин в АО, по вертикали число белков.

Далее задача заключалась в выравнивании белков. Я это делала с помощью Jalview, выгрузив туда последовательности и запустив muscle с параметрами по умолчанию. Получившееся выравнивание

Затем я удалила хвосты последовательностей, не входившие в домены, а также последовательности с Redundancy выше 83, чтобы избавиться от избыточно похожих последовательностей. Отредактрированное выравнивание

Далее при помощи трёх команд на Кодомо:

hmm2build HMM align2.fasta
hmm2calibrate HMM
hmm2search -E 0.1 --cpu 1 HMM Carot_N.fasta > HMM_res.txt
я построила HMM-профиль доменной архитектуры, откалибровала его и осуществила поиск архитектуры во всех белках, содержащих домен Carot_N. файл, содержащий в себе информацию о весе, E-value и др. HMM-профиль (длина 285)

Таблица со всеми данными содержит основную информацию из него. Столбец true включает в себя значение yes, если белок содержит два домена из архитектура и no, если не содержит. Столбец 1-spec и sensitivity показывают специфичность и чувствительность предсказания принадлежности к двухдоменной архитектуре. По этим двум параметрам я построила ROC-кривую, но к большому сожалению,та имеет очень резкий скачок, объясняемый значительной разницей в score находок, содержащий выбранную архитектуру или нет. По данным для ROC-кривой в таблице вычислила значение порогового веса с наибольшим значением F1; оно получилось 398.

ROC-кривая