Был выбран домен MAGE исключительно из-за названия и того, что подходит под критерии отбора белков. Число последовательностей 44, средняя длина 278.1 (чуть больше рекомендуемых 150, но сильно работу не усложнит), среднее сходство 53, покрытие - 23.
Из них были выбрана доменная архитектура Содержит 2 домена: MAGE_N и MAGE (514 последовательностей).
В файле АС - все белки, которые в базе с выбранной доменной архитектурой (1078).
full.fasta - fasta-файл с полными последовательностями всех белков.
all.fasta - файл, содержащий только уникальные последовательности.
2domains_pfam.fasta - файл с последовательностями с двухдоменной архитектурой согласно pfam.
raw_aln.fasta - выравнивание muscle. maxiters = 4
aln.fasta- отфильтрованное в Jalview выравнивание (убраны идентичные последовательности, N и C концы, гэпы).
hmmresult.txt - hmm профиль
script - скрипт для построения графиков.
Команды для получение HMM профиля hmm2build 2dom.hmm aln.fasta - создание профиля по выравниванию, hmm2calibrate 2dom.hmm - калибровка, hmm2search -E 0.1 --cpu 1 2dom.hmm all.fasta > hmmresult.txt - поиск доменов в последовательностях c E-value находок не более 0.1.
Была получена таблица, в которой для всех белков с исследуемым доменом указано, является ли он двухдоменным белком по базе, по hmm, также указана длина белка. Она испольpовалась для построения гистограмм.
Большинство белков семейства c выбранной двухдоменной архитектурой имеет длину около 344.
Большинство белков семейства, найденных по результатам HMM длиной 344.
HMM-профиль позволяет предсказать, содержит ли белок нужную архитектуру. Построены следующие графики:
На графике незаметно характерной резкой ступеньки, точно предположить порог достаточно сложно.
По полученной ROC кривой можно предположить, что наибольшие специфичность и чувствительность наблюдаются, если вес около 415.
По подсчёту F1 можно сказать, что наибольшие специфичность и чувствительность наблюдаются, если вес около 415.