Поиск мотивов, программы MEME и MAST.

1. Поиск мотивов программой MEME.

В наборе гомологов белка из лист-файла myptoteins.list ищу мотивы программой MEME.
Для этого запускаю на kodomo программу ememetext командой:
ememetext @myproteins.list memeout.txt temp.fasta - nmotifs 3
В результате получаем файлы temp.fasta и memeout.txt, содержащий информацию о трех мотивах.
В каких последовательностях найден Координаты в последовательности PTAS_BACSU P-value Длина мотива E-value
Первый мотив Во всех 10 258-307 7.69e-53 50 1.1e-227
Второй мотив Во всех 10 107-156 1.82e-48 50 4.1e-193
Третий мотив Во всех 10 196-236 6.76e-37 41 4.9e-109

2. Сравнение блоков (частичных выравниваний), найденных MEME, с полным выравниванием, выданный muscle.

Строим выравниване последовательностей, выбранных нами белков, с помощью команды muscle, выполняя команду : muscle -in myproteins.fasta -out myproteins_muscle.fasta. Откроем полученное выравнивание в JalView:

Первый и второй мотивы, раскрашенные голубым и зеленым соответственно, были выровнены muscle, однако, третий мотив, раскрашенный в фиолетовый, не был выровнен в позиции белка PTAS_STAAN. Можно предположить, что последовательность белка PTAS_STAAN не была выровнена, потому что в позициях 623-626 стоят аминокислотые остатки : IDGE. D выравнивается с D в последовательностьях других белков, аналогично и G и E.
Выравнивание с выделенными участками мотивов представлено в файле myproteins_motifs.jar.

3. Поиск найденных мотивов в других последовательностях.

Программой MAST проводим поиск мотивов, найденных MEME, в последовательностях, из которых составлено выравнивание PF01515_seed.msf домена PTA_PTB белка PTAS_BACSU, взятое из Pfam:

  1. Извлекаем последовательности из выравнивания: убираем знаки пробелов и переводим в fasta-формат; с помощью команды degapseq PF01515.msf PF01515_seed.fasta
  2. Запускем программу emast: emast -dfile PF01515.fasta memeout.txt mastout.html

Результатом этих действий является файл mastout.html, в котором содержится информация :
  1. Первый мотив нашелся в 21, второй в 21, а третий в 19 последовательностях.
  2. Все мотивы нашлись в 19 последовательностях из 21.
  3. Выравнивание из Pfam соответствует мотивам не на всех участках, например на участке 117-169 у белков PTAS_MYCPN, MAO2_RHIME. Так же выравнивание из Pfam не учитывает, что, например на участке 224-274 в последовательности PTB_BACSU вместо ожидаемого 3 мотива находится 1 мотив.
Ниже представлена картинка, эллюстрирующая расположение мотив в выравнивании.


© Butusova Anna,2011