Домены и профили

Построение HMM-профиля семейства белков и проверка его работы

Был выбран домен MAGE исключительно из-за названия и того, что подходит под критерии отбора белков. Число последовательностей 44, средняя длина 278.1 (чуть больше рекомендуемых 150, но сильно работу не усложнит), среднее сходство 53, покрытие - 23.

Из них были выбрана доменная архитектура Содержит 2 домена: MAGE_N и MAGE (514 последовательностей).

В файле АС - все белки, которые в базе с выбранной доменной архитектурой (1078).

full.fasta - fasta-файл с полными последовательностями всех белков.

all.fasta - файл, содержащий только уникальные последовательности.

2domains_pfam.fasta - файл с последовательностями с двухдоменной архитектурой согласно pfam.

raw_aln.fasta - выравнивание muscle. maxiters = 4

aln.fasta- отфильтрованное в Jalview выравнивание (убраны идентичные последовательности, N и C концы, гэпы).

hmmresult.txt - hmm профиль

script - скрипт для построения графиков.

Команды для получение HMM профиля hmm2build 2dom.hmm aln.fasta - создание профиля по выравниванию, hmm2calibrate 2dom.hmm - калибровка, hmm2search -E 0.1 --cpu 1 2dom.hmm all.fasta > hmmresult.txt - поиск доменов в последовательностях c E-value находок не более 0.1.

Гистограмма длин белков

Была получена таблица, в которой для всех белков с исследуемым доменом указано, является ли он двухдоменным белком по базе, по hmm, также указана длина белка. Она испольpовалась для построения гистограмм.

Screenshot_23.png

Большинство белков семейства c выбранной двухдоменной архитектурой имеет длину около 344.

Screenshot_24.png

Большинство белков семейства, найденных по результатам HMM длиной 344.

HMM

HMM-профиль позволяет предсказать, содержит ли белок нужную архитектуру. Построены следующие графики:

График score.

Screenshot_25.png

На графике незаметно характерной резкой ступеньки, точно предположить порог достаточно сложно.

Построим ROC кривую

Screenshot_26.png

По полученной ROC кривой можно предположить, что наибольшие специфичность и чувствительность наблюдаются, если вес около 415.

Найдем F1 (среднее гармоническое чувствительности и специфичности)

Screenshot_27.png

По подсчёту F1 можно сказать, что наибольшие специфичность и чувствительность наблюдаются, если вес около 415.