Для выполнения задания был выбран домен Sugarporin_N (PF11471), так как характеристики данного домена (таблица 1) удовлетворяют всем требованиям, перечисленным в задании. Все последовательности из выборки full были сохранены в файл PF11471_full_105.fasta
Данный домен встречается в 4 различных доменных архитектурах. Для выполнения задания была выбрана двухдоменная архитектура Sugarporin_N, Porin_8 (в таком же порядке домены находятся в последовательностях). Архитектура включает в себя 26 последовательностей.
Далее из выборки full были выбраны последовательности с выбранной доменной архетиктурой и помещены в файл. Данные последовательности были выравнены в Jalview с помощью Muscle с параметрами по умолчанию. Из данного выравнивания были удалены участки до домена Sugarporin_N и после домена Porin_8, также были удалены последовательности совпадающие более чем на 85 процентов, а также еще дополнительно мною были исключены 3 последовательности с делециями, а также еще 3 последовательности были убраны дополнительно и в итоге осталось 10 последовательностей в выравнивании. Выравнивание после ревизии было сохранено в файл.
Характеристика | Значение |
---|---|
AC домена | PF11471 |
Название домена | Sugarporin_N |
Seed | 10 |
Full | 105 |
UniProt | 2600 |
Средняя длина | 30.9 aa |
Среднее сходство (%) | 46 |
Средний процент покрытия белка доменом (%) | 6.25 |
Длина профиля HMM из Pfam | 366 |
Для построения HMM-профиля был использован пакет HMMER. Были использованы следующие команды:
hmm2build -g hmmout.txt seq_arch_align_revision.fa
hmm2calibrate hmmout.txt
В результате работы программы был получен HMM-профиль, имеющий длину 451 а.о. Далее с помощью HMMER был произведен поиск по HMM-профилю в выборке full с помощью следующей команды:
hmm2search --cpu=1 hmmout.txt PF11471_full_105.fasta > hmm_search_result.txt
Файл с результатом выдачи содержит 102 находки.
В итоге был создан файл с двумя листами. Лист 'final_table' содержит таблицу со следующими колонками: AC всех белков и информацию о том, имеет ли белок выбранную архитектуру, использовался ли белок для построения HMM-профиля, входит ли белок в список находок, вес находки и E-value находки. Лист 'search' содержит результаты выдачи поиска по HMM-профилю в выборке full и количество белков выборке full, количество находок и количество белков с выбранной архетиктурой.
Cначала с помощью Excel был построен график распределения весов (рис. 1). На диаграмме можно наблюдать 'ступеньку падения' веса между -159.1 и 244.7 значениями веса. Можно предположить, что порог веса находится в данном интервале. С помощью построения ROC-кривой оценим данное предположение. В таблицу из листа 'search' была добавлена колонка с информацией о принадлежности белка к выбранной архетиктуре ('y' принадлежит, 'n' нет). Далее для каждого значения веса (считаем что каждый вес является порогом) были вычислены 1-специфичность и чувствительность и затем построена ROC-кривая (рис.2). Для определения порога с оптимальными значениями чувствительности и специфичности для каждого веса было определено значение F1. Максимальное значение F1 равное 1 достигается при значении веса 244.70, данное значение как раз и является порогом, разделяющим белки с выбранной архетиктурой и без архетиктуры.