Поиск мотивов, программы MEME и MAST

MEME (от Multiple EM for Motif Elicitation) - наиболее популярная программа множественного локального выравнивания для исследования мотивов ДНК или белковых последовательностей. Находит блоки - участки локальных выравниваний без гэпов.

С биологической точки зрения алгоритм MEME определяет и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики MEME находит множество неперекрывающихся, приблизительно совпадающих подстрок, заданных изначальным набором строк.

1.Поиск мотивов программой MEME.

В наборе гомологов моего белка нахожу мотивы программой MEME.

Создаю лист-файл myproteins1.list с "адресами" последовательностей моего белка и его гомологов.

Затем запускаю на kodomo программу ememetext следующим образом:

ememetext @myproteins1.list memeout.txt temp.fasta -nmotifs 3

После знака "@" стоит название лист-файла. В случае использования не лист-файла, а файла с последовательностями, знак "@" ставить не нужно. -nmotifs ограничивает количество мотивов для поиска.

Выдача программы — файл memeout.txt. Найдено 3 мотива.

Первый мотив.

Нашелся во всех последовательностях.

Координаты в последовательности HUTP_BACSU: 83-132.

P-value в последовательности HUTP_BACSU: 4.09e-58.

Длина мотива: 50.

E-value мотива: 2.0e-154.

Второй мотив.

Нашелся во всех последовательностях.

Координаты в последовательности HUTP_BACSU: 33-82.

P-value в последовательности HUTP_BACSU: 5.69e-63.

Длина мотива: 50.

E-value мотива: 2.0e-140.

Третий мотив.

Нашелся во всех последовательностях.

Координаты в последовательности HUTP_BACSU: 1-29.

P-value в последовательности HUTP_BACSU: 4.18e-34.

Длина мотива: 29.

E-value мотива: 4.9e-036.

2. Сравнение блоков (частичных выравниваний), найденных MEME, c полным выравниванием, выданным muscle.

Открываю в JalView выравнивание моих последовательностей, полученное программой muscle. Выделяю участки последовательностей, входящих в найденные программой MEME блоки. Расскрашиваю их: Selection - Create Sequence Feature. Полученное изображение:

Увеличенная версия.

Мотив 1 окрашен зеленым, мотив 2 - голубым, мотив 3 - розовым.

Сохраняю проект JalView как motifs.jar. Мотивы, найденные MEME, уже выровнены программой muscle, выравнивания данных участков в MEME и muscle не отличаются.

MAST (Motif-Alignment and Search Tool) - программа для поиска в биологических базах данных последовательностей, которые содержат одну (или более) группу известных мотивов.

MAST рассчитывает соответствие для каждой последовательности из базы данных со всеми мотивами из предоставленной группы. Для каждой последовательности оценка соответствия преобразуется в различные типы p-value, используемые для определения общего соответствия последовательности и группы мотивов, вероятный порядок и интервалы встречаемости мотивов в последовательности.

3. Поиск найденных мотивов в других последовательностях.

Провожу программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (PF09021_seed) единственного домена моего белка, взятое из Pfam.

Извлекаю последовательности из выравнивания (убираю знаки пробелов и перевожу в fasta-формат) программой degapseq:

degapseq PF09021_seed.msf PF09021_seed.fasta

Запускаю программу emast:

emast -dfile seed.fasta memeout.txt mastout.html

На вопросы программы отвечаю по умолчанию (нажатием Enter).

Получаю файл mastout.html.

Третий мотив не нашелся ни в одной из последовательностей, т.к. его границы выходят за пределы данного выравнивания. Например, в случае моего белка HUTP_BACSU границы третьего мотива: 1-29, а в Pfam для домена данного белка: 8-146.

Первый и второй мотивы одновременно нашлись в 4-х последовательностях из 17-ти, имевшихся в PF09021_seed.fasta.

Только первый мотив нашелся в одной последовательности, а только второй - в 6-ти. В 6-ти последовательностях не нашлось ни одного мотива.

Ниже приведено изображение данного выравнивания, мотив 1 - зеленый, мотив 2 - голубой. Последовательности расположены в том порядке, что и в mastout.html.

Увеличенная версия.

Данное выравнивание соответствует мотивам.

Доп. Сервис MEME Suite.

Опробую сервис MEME Suite.

Прежде всего дважды ввожу email, затем загружаю файл в формате fasta с последовательностями (из предыдущего задания).

Нажатие Start search приводит к переходу на страницу с информацией о последовательностях. Та же информация отправляется на email. Ждать выдачи результов не пришлось, вероятно, это связано с небольшим количеством и размером последовательностей.

Переход по приведенной ссылке http://meme.nbcr.net/meme4_8_1/cgi-bin/querystatus.cgi?jobid=app1335293900320&service=MEME приводит на страницу:

MEME html output - наглядно представляет выравнивание в виде Sequence logo. Мотивы можно сохранить как изображения, указав формат и размеры изображения. Наглядность заключается в том, что близкие по свойствам остатки имеют схожие цвета, наиболее консервативные столбцы (особенно из одного остатка) имеют наибольшую высоту, высота отдельных остатков также коррелирует с их консервативностью.

При поиске я изменила максимальную длину мотива на 100, поэтому результаты отличаются, от тех, что получены на сайте kodomo в предыдущем задании.

Рассмотрю мотив 3 из предыдущего выравнивания, теперь - это мотив 2.

Мотивы можно исследовать также в MAST, FIMO, BLOCKS. На выбор предоставляются различные форматы данных (PSPM, FASTA, BLOCKS, Raw). Сайты выделены цветом для возможности быстро и легко отличить границу сайта и остальной части последовательности.

Кроме диаграмм мотивов имеется и сводная диаграмма, а также пояснения к полученным результатам. Кроме того рядом с непонятными пунктами выдачи есть знаки вопросов, поясняющие представленную информации.

Просмотр других результатов работы на странице описывать не буду. В целом, сервис довольно удобный и наглядный для восприятия. Вполне дружественный - много пояснений, подсказок. Радует предоставление возможности работы с другими серверами, выбора вормата данных. Скорость обработки информации вполне высока (по крайней мере, в случае моего маленького выравнивания все прошло быстро), а отправку результатов на email сложно назвать недостатком сервиса, хотя можно было обойтись и без этого, хотя бы в случае небольших выравниваний.


© Eugenia Prokhorova 2011