Для выполнения данного практикума я выбрал домен Sugarporin_N (PF11471). Этот домен представляет собой периплазматическую N-концевую часть мембранных белков мальтопоринов. В его выборке seed, full и Uniprot содержится 10, 105 и 2600 белков.
Далее была выбрана доменная архитектура, которая содержит на N-конце домен Sugarporin_N, а на C-конце домен Porin_8 (PF16966).
Полные последовательности выборки full были скачаны в формате fasta и доступны по ссылке:
Полные последовательности выборки fullПосле этого были отобраны белки с выбранной доменной архитектурой. Их выравнивание проведено ниже:
Последовательности с выбранной доменной архитектуройУчастки до и после рассматриваемых доменов были отрезаны. Высокосходные последовательности были удалены с помощью функции Remove redundancy. После этого для "честности" было удалено 9 из 19 оставшихся последовательностей. Выравнивание 10 конечных последовательностей, использованное далее для построения HMM профиля приведено ниже:
Последовательности для построения HMM профиляЗатем для построения HMM профиля были использованы следующие команды:
hmm2build hmmout final_aln.fa
hmm2calibrate hmmout
Профиль можно посмотреть по ссылке ниже (его длина равна 455):
HMM профильДалее был произведен поиск в выборке full по построенному профилю. Результат выдачи программы и команда для ее запуска представлены ниже:
hmm2search --cpu=1 hmmout full.fasta > hmm_result.txt
Резельтат выдачи программы поиска и исходная таблица были объединены в одну таблицу. Сортировка была проведена по полю Score и были найдены значения 1 - специфичность и чувствительность для каждого значения Score. По этим данным была построена ROC кривая. Порог Score по результатам указанных выше действий можно установить на уровне 500, например. Таблица с результатами (в том числе и ROC кривая и гистограмма длин белков) доступна по ссылке ниже:
Таблица с результатами