1. Поиск мотивов программой MEME.
В наборе гомологов белка GUAD_BACSY найдем мотивы программой MEME. Для этого используем лист-файл с белками, созданный ранее myproteins.list.
sw:GUAD_BACSU sw:TADA_AQUAE sw:Y246_BUCAP sw:RIBD_BACSU sw:Y1285_RICCNВыполнив команду
ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3через Putty, получили файл memeout.txt с необходимой информацией. Нашлось 3 мотива, что неудивительно, ведь мы параметром -nmotifs ограничили число выдаваемых мотивов до трех.
Заполним следующую таблицу информацией по каждому из трёх найденных мотивов:
Номер мотива | Последовательности, в которых найден мотив | Координаты в последовательности GUAD_BACSU | P-value в последовательности GUAD_BACSU | Длина | E-value |
1 | GUAD_BACSU TADA_AQUAE Y246_BUCAP Y1285_RICCN |
41-90 | 7e-51 | 50 | 7.6e-032 |
2 | GUAD_BACSU TADA_AQUAE Y246_BUCAP RIBD_BACSU Y1285_RICCN |
23-33/td> | 2.5e-11 | 11/td> | 7.6e-002 |
3 | GUAD_BACSU TADA_AQUAE Y246_BUCAP RIBD_BACSU Y1285_RICCN |
92-104 | 1.3e-12 | 13 | 2.3e-001 |
2. Сравнение блоков (частичных выравниваний), найденных MEME, с полным выравниванием, выданным muscle
Построим выравнивание последовательностей с помощью программы muscle:
muscle -in myproteins.fasta -out myproteins_muscle.fastaC помощью JalView, откроем полученное выравнивание и выделим участки последовательностей, входящих в найденные программой MEME блоки:
Выравнивание с выделенными участками последовательностей сохранено в файле myproteins_jalview_meme.jar
Как мы видим, первый найденный MEME мотив выровнен программой muscle.
Второй мотив выровнен не так хорошо: нет ни одной пары последовательностей с полным совпадением. Возможно, muscle такое выравнивание видится более выгодным (например, вес больше).
Третий мотив выровнен в 4 из 5 последовательностей. Мотив последней (TADA_AQUAE) "убежал" далеко в "хвост". Наверное, это тоже можно объяснить более выгодным расположением букв в выравнивании.
3. Поиск найденных мотивов в других последовательностях
Проведем программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (seed) домена dCMP_cyt_deam_1 белка GUAD_BACSU, взятое из Pfam.
Для начала, извлечем последовательности из выравнивания (то есть уберем знаки пробелов и переведем в fasta-формат) программой degapseq:
degapseq PF00383_seed.msf PF00383_seed.fastaЗатем запустим программу emast:
emast -dfile PF00383_seed.fasta memeout.txt mastout.htmlТеперь откроем полученный файл mastout.html браузером и найдем в нем интересующую нас информацию.
Первый, второй и третий мотивы нашлись в 29, 29 и 0 последовательностях соответственно (из 59, содержащихся в PF00383_seed.msf).
Ни в одной последовательности не нашлись все три мотива сразу.
Cоответствует ли выравнивание, взятое из Pfam, мотивам? - Не везде.
Наверх