Программы MEME и MAST


Нахождение мотивов (блоки достоверного выравнивания) среди гомологов моего белка:

Находим с помощью программы MEME (ememe в пакете EMBOSS, позволяет находить блоки без гэпов => получаем множественное локальное выравнивание). Заходим в нужную дирректорию на сервере kodomo. На вход подаем набор невыровненных последовательностей - вероятных гомологов моего белка. Файл тут. Нажимаем Enter, программа запрашивает имя директории, в которую записать результаты своих действий - вводим. После смотрим файл в формате html - его можно увидеть тут

Программа нашла всего 1 мотив. Данные по нему:

Сравнение блоков найденных MEME, c полным выравниванием, выданным muscle:

Для получения нижеизложенных данных был использован файл meme.txt

Создадим файлы с блоками: из файла meme.txt скопируем выравнивание блока (в разделе "Motif 1 in BLOCKS format") в отдельный файл motif1.aln. Вставим первую строчку "CLUSTAL "(это признак данного формата файла с выравниванием). Переведем файл "motif1.aln" в формат fasta: "$ seqret motif1.aln motif1.fasta" (По умолчанию, выходной файл seqret и др. программ EMBOSS - в формате fasta). Файл motif1.fasta.

Для сравнения блока с выравниваним откроем в Jalview их одновременно - сравним их визуально (рис. 2, вы так же можете сами посмотреть сохраненный проект в Jalview).

Рис. 2. Сравнение локального учатка выравнивания, полученного с помощью программы Muscle (слева) и MEME (справа). Слева выделена последовательность, которая не была включена в мотив программой MEME.

Почему не включена в мотив последовательность Saccharomyces cerevisiae? Потому что если посмотреть на рис. 1,то видно, что по конструкции мотив таков: [T|E][P|EA][QE|RK][LIV]L[D|K][IVL]L[RKDQE][QRKE][YHN][GNQ][VIA][K|PR]A[T|SN(значительно реже)]FF[LC|V][LC|V]G(приведены аминокислоты, которые встречаются чаще другой/их, а после | те аминокислоты, которые не совсем уж редко встречаются). А эта последовательность отличается существенно тем что в ней есть гэпы при Muscle выравнивании, а как мы помнить программа MEME не вставляет их.

Поиск найденного мотива в других последовательностях:

	Используем программу MAST для последовательностей составленных из домена PF01522 моего белка (см. предыдущую работу: "Эволюционные домены.
Банки Pfam и InterPro.").
	Извлечем последовательности из выравнивания (то есть уберем знаки пробелов и переведем в fasta-формат) программой degapseq: 
"$ degapseq PF01522_seed.msf PF01522_seed.fasta"
	Запустим программу emast: 
"$ emast -dfile PF01522_seed.fasta meme.txt mastout.html"
На вопросы программы отвечаем по умолчанию (нажатием Enter). Откроем полученный файл (mastout.html) браузером.

	Мотив, найденный консольной версией программы MEME не нашелся в 9 последовательностях из PF01522_seed.fasta.
Выравнивание, взятое из Pfam соотвествует мотиву.
********************

Источники информации


© Tishina Sofia, 2012