Поиск мотивов.
Программы MEME и MAST.


№1. Поиск мотивов программой MEME.


Воспользуемся набором гомологов, полученным в задании 8 "множественные выравнивания".

С помощью программы ememetext на kodomo (команда ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3 )
получим файл "memeout.txt" с мотивами данного списка гомологов.

Как и следовало ожидать, найдено лишь три мотива, так как при вводе команды мы ограничили их число (-nmotifs) тремя.

Опишем каждый из них, сведя данные в таблицу:

Мотивы MEME

Motif № в скольких последовательностях найден мотив (из 10) координаты в последовательности ACP_BACSU P-value в последовательности ACP_BACSU длина E-value
1 10 28-77 9.55*e-49 50 3.3*e-187
2 10 7-27 1.38e-20 21 1.2e-051
3 2* --- --- 8 4.8e+004

* мотив имеет высокий E-value и нашелся только в 2 белках. ACP_BACSU не содержит мотив №3.


№2. Сравнение блоков (частичных выравниваний), найденных MEME,
c полным выравниванием, выданным muscle.


Для этого задания создадим полное выравнивание белков с помощью muscle аналогично заданию 8.

С помощью Jalview (файл *.jar) сравним его с полученными выше частичными выравниваниями.


Как мы видим, выравнивание блоков 1 (покрашен голубым по BLOSUM62) и 2 (покрашен пестро по zappo) совпали и в muscle, и в MEME. Блоки не пересекаются, имеют очень низкий E-value, можно говорить о гомологии данных участков, так как эти 2 выравнивания явно не случайны.

Однако то же нельзя сказать про третий мотив MEME (выделен парными желтыми линиями). Этот блок включает лишь 2 последовательности, состоит всего из 8 а.о., а его E-value больше 10. Следовательно, это недостоверный мотив, а значит, он запросто может не быть выровнен muscle.


№3. Поиск найденных мотивов в других последовательностях.



Воспользуемся выравниванием (seed) одного из доменов ACP_BACSU, взятым из Pfam (предыдущее занятие).

Уберем пробелы программой degapseq, и, запустив программу emast, запросим на выходе html-файл mastout.html.

Из него следует, что из 164 последовательностей, содержащихся в файле seed.fasta первый мотив не нашелся ни в одной последовательности.
Возможно, это произошло из-за того, что MEME при выделении мотива использовала в том числе концевой участок последовательностей, в то время как Pfam не использовал последние 4-6 а.о., а главный из выделенных им (Pfam) доменов выравнивался плохо.

Второй мотив отыскался в 14 последовательностях (8,54%), что с учетом E-value мотива явно не случайно.

Третий мотив был найден лишь один раз, что (в комплексе с его прототой) скорее всего говорит о случайности данного результата.

Более 1 мотива не обнаружилось ни в одной последовательности, что, безусловно, очень печально, так как гомологов в Blast было найдено довольно много. Правда, мотив №2 довольно большой, поэтому такой результат тоже имеет право на существование.

Для наглядной проверки выравнивания из Pfam на наличие полученных мотивов (по полученным данным имеет смылс только анализ мотива №2) используем Jalview. В нем откроем выравнивание Pfam и добавим к нему мотив №2 в чистом виде. Выровняем мотив (окрашен рыжим).

В результате получим следующую картинку,
по которой можно сказать, что, несмотря на плохое качество выравнивания самого домена (причину я попытался объяснить в предыдущем задании), мотив №2 выделен довольно хорошо.
И уж совсем замечательно выглядит тот факт, что первые 13 а.о. довольно компактно выровнялись с начальным участком домена.
Из этого можно сделать вывод, что при небольшой корректировке (в примитивном варианте при сокращении длины мотива до 13), мотив №2 будет встречаться в выравнивании Pfam значительно чаще.

Файл выравнивания прилагается: motif_2.jar.



назад в проекты


© Aleshin Vasily