Программа множественного локального выравнивания MEME

Локальное выравнивание последовательностей довольно часто имеет больший биологический смысл, чем глобальное, так как при этом надежнее могут быть обнаружены консервативные мотивы, сайты, домены белков. Это связано с оценкой веса выравнивания программой, создающей глобальные выравнвания. Для увеличения веса такие программы искусственно могут быть добавлять лишние гэпы и проводить тому подобные операции, которые формально "улучшают" выравнивание, но при этом биологический смысл может теряться.

Кроме того, анализ меньших блоков, например на уровне отдельных доменов белков, имеет больший биологический смысл, так как считается, что эволюция белков большей частью идет именно на этом уровне. Это означает, что после создания единожды удачной структуры (например особого активного центра), она будет в слабо измененной форме использоваться там, где это удобно. Это обеспечивается перетасовкой доменов и приводит к созданию мультидоменных белков-ферментов, способных проводить несколько разных реакций одновременно и в одном месте (на одном белке). Такой эволюционный прием является трендом для эукариот, для прокариот известно меньше мультидоменных ферментов.

Данный раздел посвящен работе с программой MEME - самой популярной программой множественного локального выравнивания, которая проводит поиск блоков (т.е.участков локальных выравниваний без гэпов).

В качестве примера, модельным объектом был использован белок CRH_BACSU для которого уже были найдены гомологи и проведено их множественной выравнивание при помощи программы Muscle.

Программой MEME было обнаружено и описано 3 мотива (таблица 1).

Номер мотива Число последовательностей Длина E-value LOGO
1 39 из 40 29 6.0e-446
2 39 из 40 45 2.5e-523
3 2 из 40 29 4.7e-008

Таблица 1. Параметры мотивов, найденных MEME.

LOGO это графическое изображение консервативности отдельных позиций (высота столбика показывает степень консервативности позиции, а доля высоты отдельных букв пропорциональна их количеству в этой позиции)

Сравнение мотивов MEME и блоков из множественного выравнивания Muscle

Как уже сообщалось, для белка CRH_BACSU и для некоторых его гомологов уже создавалось множественное выравнивание (ссылка). В этом пункте мы сравним его с локальным выравниванием MEME (рис 1).

Рис 1. Сравнение множественного выравнивания, полученного Muscle и блоков, найденнных MEME.

Как очевидно из картинки, множественное и локальные выравнивния совпали с большой точностью. Единственные отличия - программа Muscle вставила несколько колонок гэпов между блоками, что не совершила MEME. Поэтому, для удобства сравнения, ворой мотив MEME (по условию построения мотивы всегда без гэпов!) был разбит на три блока.

Поиск мотивов в других последовательностях программой MAST

При помощи MAST можно проводить поиск мотивов, охарактеризованных MEME в других последовательностях.
Как это сделать?
Для начала нужно создать базу последовательностей, по которым будет осуществляться поиск. В нашем случае мы используем файл (al.txt), сгенерированный Pfam и являющийся множественным выравниванием фрагментов белков, имеющих домен PTS-Hpr.
Вторым шагом мы подготовим этот файл, используя машину kodomo - уберем знаки пробелов и переведем в fasta-формат программой degapseq:
degapseq al.txt al.fasta
И, наконец, проведем поиск программой emast (также на kodomo):
emast -dfile al.fasta meme.txt mastout.html
С файлом mastout.html можно ознакомиться по этой ссылке.

Краткое описания результатов деятельности программы:

На взгляд, все выравнивания фрагментов с мотивами очень хорошие. Кроме того их P-VALUE (т.е. вероятность найти такой мотив по случайным причинам в данной последовательности) лежат в интервале от 4.08e-45 до 4.75e-07.

Литература и использованные ресурсы:

  1. Timothy L. Bailey and Michael Gribskov, "Combining evidence using p-values: application to sequence homology searches", Bioinformatics, 14(48-54), 1998.

© 2012; Sutormin Dmitry 11.04.13