Поиск мотивов, программы MEME и MAST


1. Поиск мотивов программой MEME.
В наборе гомологов белка SPSE_BACSY найдем мотивы программой MEME. Для этого используем лист-файл с белками, созданный ранее myproteins.list.
sw:spse_bacsu
sw:rimo_sphal
sw:sias_human
sw:y1065_metja
Выполнив команду
ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3
через Putty, получили файл memeout.txt с необходимой информацией. Нашлось 3 мотива, что неудивительно, ведь мы параметром -nmotifs ограничили число выдаваемых мотивов до трех.

Заполним следующую таблицу информацией по каждому из трёх найденных мотивов:
Номер мотива Последовательности, в которых найден мотив Координаты в последовательности SPSE_BACSU P-value в последовательности SPSE_BACSU Длина E-value
1 SPSE_BACSU
Y1065_METJA
SIAS_HUMAN
9-52 4.32e-45 44 9.8e-014
2 SPSE_BACSU
SIAS_HUMAN
Y1065_METJA
RIMO_SPHAL
226-254 7.94e-30 29 1.2e-008
3 Y1065_METJA
SIAS_HUMAN
SPSE_BACSU
RIMO_SPHAL
172-197 2.77e-26 26 1.1e-006

2. Сравнение блоков (частичных выравниваний), найденных MEME, с полным выравниванием, выданным muscle
Построим выравнивание последовательностей с помощью программы muscle:
muscle -in myproteins.fasta -out myproteins_muscle.fasta
 
C помощью JalView, откроем полученное выравнивание и выделим участки последовательностей, входящих в найденные программой MEME блоки:



Выравнивание с выделенными участками последовательностей сохранено в файле myproteins_meme_jalview.jar
Видим, что первый мотив, найденный MEME, полностью выровнен программой muscle. Второй мотив выровнян для трех белков, а в четвертом белке RIMO_SPHAL этот мотив расположен в некотором отдалении. Третий мотив выровнян практически ровно (исключая небольшие погрешности в виде гэпов - видимо, так цена выравнивания больше)

3. Поиск найденных мотивов в других последовательностях
Проведем программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (seed) домена NeuB белка SPSE_BACSU, взятое из Pfam.

Для начала, извлечем последовательности из выравнивания (то есть уберем знаки пробелов и переведем в fasta-формат) программой degapseq:
degapseq seed.msf seed.fasta
Затем запустим программу emast:
emast -dfile seed.fasta memeout.txt mastout.html
Теперь откроем полученный файл mastout.html браузером и найдем в нем интересующую нас информацию.

Первый, второй и третий мотивы нашлись в 1, 155(есть два вторых мотива в одном белке) и 154(но в двух по два третих мотива) последовательностях соответственно (из 158, содержащихся в seed.txt).

Только в одной последовательности ношлось три мотива сразу

Выравнивание не полностью соответствует выравниванию, взятому из Pfam