Практикум 9

Задание 1. Построение HMM-профиля семейства белков и проверка его работы

Для выполнения данного практикума я выбрал домен Sugarporin_N (PF11471). Этот домен представляет собой периплазматическую N-концевую часть мембранных белков мальтопоринов. В его выборке seed, full и Uniprot содержится 10, 105 и 2600 белков.

Далее была выбрана доменная архитектура, которая содержит на N-конце домен Sugarporin_N, а на C-конце домен Porin_8 (PF16966).

Полные последовательности выборки full были скачаны в формате fasta и доступны по ссылке:

Полные последовательности выборки full

После этого были отобраны белки с выбранной доменной архитектурой. Их выравнивание проведено ниже:

Последовательности с выбранной доменной архитектурой

Участки до и после рассматриваемых доменов были отрезаны. Высокосходные последовательности были удалены с помощью функции Remove redundancy. После этого для "честности" было удалено 9 из 19 оставшихся последовательностей. Выравнивание 10 конечных последовательностей, использованное далее для построения HMM профиля приведено ниже:

Последовательности для построения HMM профиля

Затем для построения HMM профиля были использованы следующие команды:

hmm2build hmmout final_aln.fa

hmm2calibrate hmmout

Профиль можно посмотреть по ссылке ниже (его длина равна 455):

HMM профиль

Далее был произведен поиск в выборке full по построенному профилю. Результат выдачи программы и команда для ее запуска представлены ниже:

Выдача программы поиска

hmm2search --cpu=1 hmmout full.fasta > hmm_result.txt

Резельтат выдачи программы поиска и исходная таблица были объединены в одну таблицу. Сортировка была проведена по полю Score и были найдены значения 1 - специфичность и чувствительность для каждого значения Score. По этим данным была построена ROC кривая. Порог Score по результатам указанных выше действий можно установить на уровне 500, например. Таблица с результатами (в том числе и ROC кривая и гистограмма длин белков) доступна по ссылке ниже:

Таблица с результатами