Наименования пары: DinB_2, FGE-sulfatase x 2
PF12867 (10664 seq) PF03781 (14664 seq)
Число последовательностей с подобной архитектурой: 688
Запрос в uniprot: taxonomy: "Bacteria [2]" database:(type:pfam pf03781)
database:(type:pfam pf12867)
скачать табличку
Распределение длин последовательностей:
Так как семейств оказалось больше, чем 60, для того, чтобы выбрать
последовательности характерной длины, было взято 30 самых представленных семейст
и из них по 2 самых представленных рода. скачать табличку с 60
последовательностями
С помощью Jalview были построены выравнивания (последовательности получены через
fetch sequences из uniprot) при помощи WebService->Muscle.
ссылка на необрезанное
выравнивание. Далее я обрезала выравнивание после 604 позиции и перед 56-й
позицией. (ссылка на
выравнивание).
Затем по выравниванию был построен и откалиброван профиль командами
hmm2build -g pr9.hmm alignment_hmm.fa
hmm2calibrate pr9.hmm
Будем рассматривать домен 03781.
Последовательности были скачаны из uniprot при помощи команды:
taxonomy:"Bacteria [2]" database:(type:pfam pf03781)
При помощи команды hmm2search был произведен поиск, то есть последовательности с
доменом pf03781 выравнивались с hmm профилем. Команда:
hmm2search -E 0.1 pr9.hmm domain.fasta > findings.txt
ссылка на файл findings.txt
Затем через какое-то время я поняла, что в этом файле лежат не только нужные мне
колонки, но и выравнивания. Поэтому я вырезала нужную часть и обработала в
питоне при помощи библиотеки sklearn (функция roc_curve).
ссылка табличку с нужными колонками
В таблице по столбцам находки из юнипрота, по строкам выборка HMM.
Получились такие картинки:
Порог: 928.6.
Кривая лежит выше диагонали,
значит, данный порог позволяет предсказывать лучше, чем случайное предсказание