Лист-файл с невыравненными последовательностями белком мы уже делали в одном из предыдущих практикумов, оттуда его и возьмем. Запустим программу ememetext:
ememetext myproteins.fasta myproteins_meme.txt tmp.fasta -nmotifs 3
Итак, было найдено всего три мотива.
№ мотива | Длина | E-value | Во вcех ли последовательностях нашелся | Координаты в RIDA_BACSU | P-value в RIDA_BACSU | Мотив |
1 | 21 | 2.4e-047 | + | 99-119 | 2.57e-23 | [FK]PAR[SA][CAT]V[EGQ]V[AK][AR]LPK[NDG][AV][KL][VI]EIE |
2 | 23 | 3.4e-038 | + | 2-24 | 3.61e-23 | [MT]K[AIV][IV][HS]T[DK]DAP[AK][AP][IV]GPY[SV]Q[AG][IV][IK]V[DNG] |
3 | 29 | 1.9e-041 | + | 67-95 | 2.78e-25 | [DQS][FRV][ES]N[IV][VI]K[TA]T[VI]F[LI][TK]D[LI][EGK][DK]FA[ER][VI]N[EA][IV]Y[EG][KQR][FY]F |
Сначала получим выравнивание muscle:
muscle -in myproteins.fasta -out myproteins_muscle.fasta
(результат в файле myproteins_muscle.fasta.)
Результаты выравнивания в JalView - в файле myproteins11.jar и на следующем изображении (все блоки полностью совпадают с выравниваниями и выделены разными цветами):
Файл с последовательностями из предыдущего практикума - vyr.msf.
Сначала удалим гэпы и и переведем файл в fasta-формат:
degapseq vyr.msf vyr.fasta
Затем запустим emast:
emast -dfile vyr.fasta myproteins_meme.txt mastout.html
Результат находится в файле mastout.html.
Второй мотив вообще не попал в выравнивание (просто не вошел в нужный фрагмент, к примеру, в RIDA_BACSU выравнивание начинается с 7го остатка, а мотив - со 2го), поэтому он не был найден ни в одной последовательности. Первый мотив был найден в 23 из 30 последовательностей, третий - в 25. Оба мотива были найдены в 22 последовательностях. Выравнивание соответствует мотивам.