HMM
Взял PF01687
Ссылка
Выбранная доменная архитектура (HAD_2 и Flavokinase), представленна по Pfam в 307 последовательностях:
В uniprot сделал запрос: database:(type:pfam PF13419) database:(type:pfam PF01687):
Нашло 466 белка. Скачал таблицу с белками:
Ссылка
Посмотрим на их длину:
Теперь при помощи запроса: database:(type:pfam pf13419) database:(type:pfam pf01687) length:[350 TO 400] получим следующую таблицу:
Ссылка
Новая гистограмма длин: (просто интересно стало)
Их слишком много. Уменьшил границы до 380-384, и убедившись, что это неродственные организмы (посмотрел находки) скачал их. Теперь у меня 74 находки.
Теперь мы работаем именно с этими белками.
Написав скрипт, який викачуе послідовности
Ссылка
Теперь мы объединим все последовательности и применим к ним выравнивание:
cat *.fa* > seq.fasta
muscle -in seq.fasta -out align.fasta
Как и полагается, вот ссылки ссылки:
seq.fasta
align.fasta
Теперь обработаем наше выравнивание в JalView. Удалим блоки на N- и C- концах, а также удалю сильно отличающиеся последовательности.
after.fa
После геноцида осталось 58 последовательностей.
Вот фрагмент из JalView:
Потом я запустил вот это:
hmm2build hmm.hmm after.fa
hmm2calibrate hmm.hmm
Вот что вышло из этой затеи:
Ссылка на hmm.hmm
Проверим наш hmm профиль)
Скачаю все белки с доменом PF01687 из UniProt (таких 40,687).
Вот файл
Ссылка
Проверим по hmm-профилю командой:
hmm2search -E 0.01 hmm.hmm all.fa > result.txt
Полученный файл:
Ссылка
Был построен график весов выравниваний, для того, чтобы потом определить порог E-value включения белка в семейство.
Выбрал порог, равный 378.9.
|
uniprot+
|
uniprot-
|
hmm+
|
316
|
2986
|
hmm-
|
150
|
37701
|
В результате получил ROC- кривую: