Profile

Задание 1

Я выбрал домен CSD. Под условия пары доменов подошла архитектура NYN, CSD

Таблица 1. Описание доменов
ID	AC	Число последовательностей
CSD	PF00313	20429
NYN	PF01936	5901

С такой архитектурой в бд PFAM 72 последовательностей, хотя в Uniprot их нашлось по запросу database:(type:pfam pf01936) database:(type:pfam pf00313) taxonomy:"Bacteria [2]" 224 штуки.
Из них всех впоследствии были выбраны 41 последовательность с характерным размером и только 2 выбранными мной доменами
Составлен запрос Uniprot и скачаны эти последовательности
В программе JalView были выравнены методом muscle, а потом выравнивание было слегка отредактировано (пришлось вырезать небольшой участок с N и с C концов.
Далее строим HMM профиль по выбранным последовательностям (уже выровненным и редактированным).

hmm2build profile.hmm al_cut.mfa  
hmm2calibrate profile.hmm

Мой профиль
С помощью этого профиля был произвден поиск по последовательностям, содержащим 1 из 2 выбранных ранее доменов. Я провел поиск по 29363 последовательности из Uniprot, содержащим домен NYN, так как последовательностей с другим доменом больше 95 тысяч.

hmm2search -E 0.01 profile.hmm NYN.fasta.gz | cat > res.txt

Все действия проведенные с данными этого практикума отображены здесь. В том числе ROC-кривая распределение Score и т.д. При помощи максимального значения F1 был выбран порог 371,40. При этом специфичность профиля составила 0,995, а чувствительность 0,898. F1-score - среднее гармоническое между точностью и чувствительностью. С помощью макс F1 можно найти такую позицию в отсортированном во скорам результаты ,где количество FP и FN находок будет минимальным.
Можно отметить, что распределение скор имеет лишь одно ярко выраженное падение, т.е. находки профиля хорошо разделяются на 2-доменные и без нужной нам архитектуры.
В моем случае получилось, что мой профиль предсказывает наличие моих доменов в последовательности чуть хуже, чем предсказывает их отсутствие. Но значения получились довольно хорошими, поэтому предположу, что профиль удался.