Задание 1
- Я выбрал домен CSD. Под условия пары доменов подошла архитектура NYN, CSD
- С такой архитектурой в бд PFAM 72 последовательностей, хотя в Uniprot их нашлось по запросу database:(type:pfam pf01936) database:(type:pfam pf00313) taxonomy:"Bacteria [2]" 224 штуки.
- Из них всех впоследствии были выбраны 41 последовательность с характерным размером и только 2 выбранными мной доменами
- Составлен запрос Uniprot и скачаны эти последовательности
- В программе JalView были выравнены методом muscle, а потом выравнивание было слегка отредактировано (пришлось вырезать небольшой участок с N и с C концов.
- Далее строим HMM профиль по выбранным последовательностям (уже выровненным и редактированным).
hmm2build profile.hmm al_cut.mfa hmm2calibrate profile.hmm
- Мой профиль
- С помощью этого профиля был произвден поиск по последовательностям, содержащим 1 из 2 выбранных ранее доменов. Я провел поиск по 29363 последовательности из Uniprot, содержащим домен NYN, так как последовательностей с другим доменом больше 95 тысяч.
hmm2search -E 0.01 profile.hmm NYN.fasta.gz | cat > res.txt
- Все действия проведенные с данными этого практикума отображены здесь. В том числе ROC-кривая распределение Score и т.д. При помощи максимального значения F1 был выбран порог 371,40. При этом специфичность профиля составила 0,995, а чувствительность 0,898. F1-score - среднее гармоническое между точностью и чувствительностью. С помощью макс F1 можно найти такую позицию в отсортированном во скорам результаты ,где количество FP и FN находок будет минимальным.
- Можно отметить, что распределение скор имеет лишь одно ярко выраженное падение, т.е. находки профиля хорошо разделяются на 2-доменные и без нужной нам архитектуры.
- В моем случае получилось, что мой профиль предсказывает наличие моих доменов в последовательности чуть хуже, чем предсказывает их отсутствие. Но значения получились довольно хорошими, поэтому предположу, что профиль удался.
ID | AC | Число последовательностей |
CSD | PF00313 | 20429 |
NYN | PF01936 | 5901 |
---|