1. Поиск мотивов программой MEME.
В наборе гомологов белка GUAD_BACSY найдем мотивы программой MEME. Для этого используем лист-файл с белками, созданный ранее myproteins.list.
sw:GUAD_BACSU
sw:TADA_AQUAE
sw:Y246_BUCAP
sw:RIBD_BACSU
sw:Y1285_RICCN
Выполнив команду
ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3
через Putty, получили файл memeout.txt с необходимой информацией. Нашлось 3 мотива, что неудивительно, ведь мы параметром -nmotifs ограничили число выдаваемых мотивов до трех.

Заполним следующую таблицу информацией по каждому из трёх найденных мотивов:
Номер мотива Последовательности, в которых найден мотив Координаты в последовательности GUAD_BACSU P-value в последовательности GUAD_BACSU Длина E-value
1 GUAD_BACSU
TADA_AQUAE
Y246_BUCAP
Y1285_RICCN
41-90 7e-51 50 7.6e-032
2 GUAD_BACSU
TADA_AQUAE
Y246_BUCAP
RIBD_BACSU
Y1285_RICCN
23-33/td> 2.5e-11 11/td> 7.6e-002
3 GUAD_BACSU
TADA_AQUAE
Y246_BUCAP
RIBD_BACSU
Y1285_RICCN
92-104 1.3e-12 13 2.3e-001

2. Сравнение блоков (частичных выравниваний), найденных MEME, с полным выравниванием, выданным muscle
Построим выравнивание последовательностей с помощью программы muscle:
muscle -in myproteins.fasta -out myproteins_muscle.fasta
 
C помощью JalView, откроем полученное выравнивание и выделим участки последовательностей, входящих в найденные программой MEME блоки:

meme_vs_muscle

Выравнивание с выделенными участками последовательностей сохранено в файле myproteins_jalview_meme.jar
Как мы видим, первый найденный MEME мотив выровнен программой muscle.
Второй мотив выровнен не так хорошо: нет ни одной пары последовательностей с полным совпадением. Возможно, muscle такое выравнивание видится более выгодным (например, вес больше).
Третий мотив выровнен в 4 из 5 последовательностей. Мотив последней (TADA_AQUAE) "убежал" далеко в "хвост". Наверное, это тоже можно объяснить более выгодным расположением букв в выравнивании.

3. Поиск найденных мотивов в других последовательностях
Проведем программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (seed) домена dCMP_cyt_deam_1 белка GUAD_BACSU, взятое из Pfam.

Для начала, извлечем последовательности из выравнивания (то есть уберем знаки пробелов и переведем в fasta-формат) программой degapseq:
degapseq PF00383_seed.msf PF00383_seed.fasta
Затем запустим программу emast:
emast -dfile PF00383_seed.fasta memeout.txt mastout.html
Теперь откроем полученный файл mastout.html браузером и найдем в нем интересующую нас информацию.

Первый, второй и третий мотивы нашлись в 29, 29 и 0 последовательностях соответственно (из 59, содержащихся в PF00383_seed.msf).

Ни в одной последовательности не нашлись все три мотива сразу.

Cоответствует ли выравнивание, взятое из Pfam, мотивам? - Не везде.

Наверх