MEME и MAST



1. Поиск мотивов программой MEME.

Лист-файл с невыравненными последовательностями белком мы уже делали в одном из предыдущих практикумов, оттуда его и возьмем. Запустим программу ememetext:


ememetext myproteins.fasta myproteins_meme.txt tmp.fasta -nmotifs 3

Итак, было найдено всего три мотива.


№ мотива Длина E-value Во вcех ли последовательностях нашелся Координаты в RIDA_BACSU P-value в RIDA_BACSU Мотив
1 21 2.4e-047 + 99-119 2.57e-23 [FK]PAR[SA][CAT]V[EGQ]V[AK][AR]LPK[NDG][AV][KL][VI]EIE
2 23 3.4e-038 + 2-24 3.61e-23 [MT]K[AIV][IV][HS]T[DK]DAP[AK][AP][IV]GPY[SV]Q[AG][IV][IK]V[DNG]
3 29 1.9e-041 + 67-95 2.78e-25 [DQS][FRV][ES]N[IV][VI]K[TA]T[VI]F[LI][TK]D[LI][EGK][DK]FA[ER][VI]N[EA][IV]Y[EG][KQR][FY]F

2. Сравнение блоков, найденных MEME, с полным выравниванием, выданным muscle.


Сначала получим выравнивание muscle:


muscle -in myproteins.fasta -out myproteins_muscle.fasta

(результат в файле myproteins_muscle.fasta.)
Результаты выравнивания в JalView - в файле myproteins11.jar и на следующем изображении (все блоки полностью совпадают с выравниваниями и выделены разными цветами):

3. Поиск найденных мотивов в других последовательностях.


Файл с последовательностями из предыдущего практикума - vyr.msf.
Сначала удалим гэпы и и переведем файл в fasta-формат:


degapseq vyr.msf vyr.fasta

Затем запустим emast:


emast -dfile vyr.fasta myproteins_meme.txt mastout.html

Результат находится в файле mastout.html.

Второй мотив вообще не попал в выравнивание (просто не вошел в нужный фрагмент, к примеру, в RIDA_BACSU выравнивание начинается с 7го остатка, а мотив - со 2го), поэтому он не был найден ни в одной последовательности. Первый мотив был найден в 23 из 30 последовательностей, третий - в 25. Оба мотива были найдены в 22 последовательностях. Выравнивание соответствует мотивам.