Учебный сайт

Бредихина Данилы

Учебный сайт Бредихина Данилы

Занятие 11: Поиск мотивов, программы MEME и MAST

Поиск мотивов программой MEME

Для работы воспользуемся набором гомологов белка CDD_BACSU, полученным в ходе выполнения заданий занятия №8: используем лист-файл myproteins.list или файл с последовательностями myproteins.fasta.

Поиск мотивов осуществим с помощью программы MEME. Выполним следующую команду:

ememetext @myproteins.list memeout.txt temp.fasta -nmotifs 3

Здесь с помощью аргумента -nmotifs мы задали число различных мотивов для поиска равным 3.

Для поиска мотивов можно также воспользоваться файлом, содержащим сами последовательности:

ememetext myproteins.fasta memeout.txt temp.fasta -nmotifs 3

Из полученных файлов temp.fasta и memeout.txt нас интересует последний.

Заполним следующую таблицу информацией по каждому из трёх найденных мотивов:

Номер мотива Последовательности, в которых найден мотив Координаты в последовательности CDD_BACSU P-value в последовательности CDD_BACSU Длина E-value
1 Мотив найден во всех последовательностях 40 - 68 1.63e-30 29 6.5e-078
2 Мотив найден во всех последовательностях 18 - 38 7.02e-21 21 3.3e-049
3 Мотив найден во всех последовательностях 77 - 96 9.49e-20 20 6.9e-047

Сравнение блоков (частичных выравниваний), найденных MEME, с полным выравниванием, выданным muscle

Постоим выравнивание последовательностей с помощью программы muscle:

muscle -in myproteins.fasta -out myproteins_aligned_muscle.fasta

Пользуясь возможностями программы JalView, откроем полученное выравнивание и выделим участки последовательностей, входящих в найденные программой MEME блоки:

shot

Изображение в оригинальном размере.

Выравнивание с выделенными участками последовательностей сохранено в файле myproteins_jalview_meme.jar.

Как мы видим, первый найденный MEME мотив выровнен программой muscle.

Второй мотив является выровненным во всех последовательностях, кроме одной (CDD_MYCPI). Вероятно, с точки зрения программы muscle такое выравнивание является наиболее выгодным (например, с точки зрения веса выравнивания). Так, остаток F оказался выровненным с F или родственным ему Y. Заметим также, что "смещённый" участок находится ближе к "краю" мотива, который в большинстве последовательностей имеет правее себя гэп в выравнивании. Поэтому подобное "смещение" вполне объяснимо.

Третий мотив также выровнен в большинстве последовательностей, однако заметны некоторые "смещения" букв в выравнивании, которые (смещения), так же как и в предыдущем рассмотренном случае, случаются ближе к "краю" мотива и которые можно объяснить более выгодным расположением букв в выравнивании.

Поиск найденных мотивов в других последовательностях

Проведём программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (seed) домена dCMP_cyt_deam_1 белка CDD_BACSU, взятое из Pfam (файл PF00383_seed.msf получен на предыдущем занятии).

Для этого сначала необходимо извлечь последовательности из выравнивания (убрать знаки пробелов и перевести в fasta-формат) программой degapseq:

degapseq PF00383_seed.msf PF00383_seed.fasta

В результате выполнения приведённой выше команды получим файл PF00383_seed.fasta.

Затем запустим программу emast (с помощью аргумента -dfile укажем программе файл для поиска (базу данных); при прочих параметрах по умолчанию):

emast -dfile PF00383_seed.fasta memeout.txt mastout.html

В результате получим файл mastout.html.

Изучив его содержание, мы можем сделать следующие выводы.

  • Первый, второй и третий мотивы нашлись в 15, 23 и 15 последовательностях соответственно (из 59, содержащихся в PF00383_seed.msf).
  • Все мотивы нашлись в 13 последовательностях из 59.
  • Выравнивание, взятое из Pfam, соответствует мотивам не на всех участках. На изображении ниже наглядно показаны примеры несоответствий (различными цветами показаны участки, соответствующие различным мотивам).
    Например, это участок 37 - 42 в координатах выравнивания для последовательностей CDD_YEAST, CDD_SCHPO и CDD_MYCPI.
shot

Изображение в оригинальном размере.

Загрузить файл pfam_jalview_mast.jar.

Сервис MEME Suite

Для знакомства с сервисом MEME Suite используем, например, файл myproteins.fasta с последовательностями гомологов белка CDD_BACSU.

shot

Для начала работы необходимо указать адрес электронной почты, последовательности для поиска в них мотива (можно загрузить файл или ввести последовательности в текстовое поле), а также, при желании, заполнить поля дополнительных параметров. После нажатия кнопки Start search мы попадаем на сгенерированную страницу, информация на которой составлена на основе введённых нами данных. Аналогичная информация отправляется на указанный адрес электронной почты.

shot

В данном случае поиск осуществился быстро: ждать не пришлось вовсе. Результаты выполненного поиска представлены несколькими способами, в том числе страницей с разметкой .html для MEME и , а также текстовыми файлами.

shot

Текстовый файл MEME txt output аналогичен полученному нами ранее файлу memeout.txt. Рассмотрим более подробно файл MEME html output. Строго говоря, в этом файле (на странице) информация текстового файла представлена в наглядном виде, что в ряде случаев может оказаться крайне полезным. Присутствуют Sequence logo для каждого мотива, которые можно сохранить как изображения, при этом есть возможность указать формат и размеры изображения.

shot
shot
shot

Работу с каждым мотивом можно продолжить в MAST и других сервисах (FIMO, BLOCKS). Мотив в наборе последовательностей можно отобразить в виде текста в различных форматах (FASTA, PSPM и другие; по умолчанию скрыто). Сайты выделены цветом, что помогает быстро и легко отличить границу сайта и остальной части последовательности. Более того, присутствует элемент интерактивности: При нажатии на последовательность она подсвечивается как в таблице, так и на диаграмме:

shot

Присутствует также сводная диаграмма по всем мотивам, что может оказаться наглядным и полезным для изучения:

shot

Интерфейс снабжен подсказками: при нажатии на знак вопроса рядом с непонятным нам пунктом выдачи нам предоставляют объяснение того, что содержится в рассматриваемом разделе выдачи и как ориентироваться в представленной информации. Присутствует также полное объяснение результатов выдачи MEME.


По причине отсутствия большого опыта работы с сервисом MEME Suite указать какие-либо конструктивные замечания тяжело. Возможно, полезной была бы возможность сохранения страниц с результатами графической выдачи. Кому-то может не понравиться необходимость указания адреса электронной почты для получения результатов. Выдача сервиса не отличается гибкостью представления информации, что, впрочем, являлось бы лишним функционалом.

Бесспорным плюсом является наличие возможности работы с другими сервисами (GLAM2, MEME-CHIP, TOMTOM, GOMO и др.). Присутствует документация с примерами выдачи сервиса. К положительным моментам можно также отнести наличие форума.

За время работы с MEME Suite о нём сложилось впечатление как о качественно реализованном сервисе для работы с мотивами.

shot

Ссылки

  1. Файл myproteins.list, содержащий идентификаторы последовательностей белка CDD_BACSU и найденных гомологов.
  2. Файл myproteins.fasta, содержащий последовательности белка CDD_BACSU и найденных гомологов.
  3. Файл memeout.txt.
  4. Файл myproteins_jalview_meme.jar.
  5. Файл PF00383_seed.fasta.
  6. Файл mastout.html.
  7. Файл pfam_jalview_mast.jar.
< На страницу семестра ∧ Наверх