С помощью программы ememetext на kodomo (команда ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3 )
получим файл "memeout.txt" с мотивами данного списка гомологов.
Как и следовало ожидать, найдено лишь три мотива, так как при вводе команды мы ограничили их число (-nmotifs) тремя.
Опишем каждый из них, сведя данные в таблицу:
Мотивы MEME
Motif №
в скольких последовательностях найден мотив (из 10)
координаты в последовательности ACP_BACSU
P-value в последовательности ACP_BACSU
длина
E-value
1
10
28-77
9.55*e-49
50
3.3*e-187
2
10
7-27
1.38e-20
21
1.2e-051
3
2*
---
---
8
4.8e+004
* мотив имеет высокий E-value и нашелся только в 2 белках. ACP_BACSU не содержит мотив №3.
№2. Сравнение блоков (частичных выравниваний), найденных MEME,
c полным выравниванием, выданным muscle.
Для этого задания создадим полное выравнивание белков с помощью muscle аналогично заданию 8.
С помощью Jalview (файл *.jar) сравним его с полученными выше частичными выравниваниями.
Как мы видим, выравнивание блоков 1 (покрашен голубым по BLOSUM62) и 2 (покрашен пестро по zappo) совпали
и в muscle, и в MEME. Блоки не пересекаются, имеют очень низкий E-value, можно говорить о гомологии данных
участков, так как эти 2 выравнивания явно не случайны.
Однако то же нельзя сказать про третий мотив MEME (выделен парными желтыми линиями).
Этот блок включает лишь 2 последовательности, состоит всего из 8 а.о., а его E-value больше 10.
Следовательно, это недостоверный мотив, а значит, он запросто может не быть выровнен muscle.
№3. Поиск найденных мотивов в других последовательностях.
Воспользуемся выравниванием (seed) одного из доменов ACP_BACSU, взятым из Pfam
(предыдущее занятие).
Уберем пробелы программой degapseq, и, запустив программу emast, запросим на выходе html-файл
mastout.html.
Из него следует, что из 164 последовательностей, содержащихся в файле seed.fasta
первый мотив не нашелся ни в одной последовательности. Возможно, это произошло из-за того, что MEME при
выделении мотива использовала в том числе концевой участок последовательностей,
в то время как Pfam не использовал последние 4-6 а.о., а главный из выделенных им (Pfam) доменов выравнивался
плохо.
Второй мотив отыскался в 14 последовательностях (8,54%), что с учетом E-value мотива явно не случайно.
Третий мотив был найден лишь один раз, что (в комплексе с его прототой) скорее всего говорит о случайности
данного результата.
Более 1 мотива не обнаружилось ни в одной последовательности, что, безусловно, очень печально,
так как гомологов в Blast было найдено довольно много. Правда, мотив №2 довольно большой, поэтому такой результат
тоже имеет право на существование.
Для наглядной проверки выравнивания из Pfam на наличие полученных мотивов (по полученным данным имеет смылс только
анализ мотива №2) используем Jalview. В нем откроем выравнивание Pfam и добавим к нему мотив №2 в чистом виде.
Выровняем мотив (окрашен рыжим).
В результате получим следующую картинку,
по которой можно сказать, что, несмотря на плохое качество выравнивания самого домена (причину я попытался объяснить
в предыдущем задании), мотив №2 выделен довольно хорошо.
И уж совсем замечательно выглядит тот факт,
что первые 13 а.о. довольно компактно выровнялись с начальным участком домена.
Из этого можно сделать
вывод, что при небольшой корректировке (в примитивном варианте при сокращении длины мотива до 13), мотив №2
будет встречаться в выравнивании Pfam значительно чаще.