Главная | Семестры | Проекты | Обo мне | Ссылки | Заметки | Назад к оглавлению |
Программы MEME и MAST
Нахождение мотивов (блоки достоверного выравнивания) среди гомологов моего белка:
Находим с помощью программы MEME (ememe в пакете EMBOSS, позволяет находить блоки без гэпов => получаем множественное локальное выравнивание). Заходим в нужную дирректорию на сервере kodomo. На вход подаем набор невыровненных последовательностей - вероятных гомологов моего белка. Файл тут. Нажимаем Enter, программа запрашивает имя директории, в которую записать результаты своих действий - вводим. После смотрим файл в формате html - его можно увидеть тут
Программа нашла всего 1 мотив. Данные по нему:
Число последовательностей в нем Длина мотива E-value 35 (из 36) 21 1.0e-260 - LOGO последовательности можно увидеть на рисунке 1.
Рис. 1. LOGO последовательности
Сравнение блоков найденных MEME, c полным выравниванием, выданным muscle:
Для получения нижеизложенных данных был использован файл meme.txt
Создадим файлы с блоками: из файла meme.txt скопируем выравнивание блока (в разделе "Motif 1 in BLOCKS format") в отдельный файл motif1.aln. Вставим первую строчку "CLUSTAL "(это признак данного формата файла с выравниванием). Переведем файл "motif1.aln" в формат fasta: "$ seqret motif1.aln motif1.fasta" (По умолчанию, выходной файл seqret и др. программ EMBOSS - в формате fasta). Файл motif1.fasta.
Для сравнения блока с выравниваним откроем в Jalview их одновременно - сравним их визуально (рис. 2, вы так же можете сами посмотреть сохраненный проект в Jalview).
![]() |
Рис. 2. Сравнение локального учатка выравнивания, полученного с помощью программы Muscle (слева) и MEME (справа). Слева выделена последовательность, которая не была включена в мотив программой MEME. |
Почему не включена в мотив последовательность Saccharomyces cerevisiae? Потому что если посмотреть на рис. 1,то видно, что по конструкции мотив таков: [T|E][P|EA][QE|RK][LIV]L[D|K][IVL]L[RKDQE][QRKE][YHN][GNQ][VIA][K|PR]A[T|SN(значительно реже)]FF[LC|V][LC|V]G(приведены аминокислоты, которые встречаются чаще другой/их, а после | те аминокислоты, которые не совсем уж редко встречаются). А эта последовательность отличается существенно тем что в ней есть гэпы при Muscle выравнивании, а как мы помнить программа MEME не вставляет их.
Поиск найденного мотива в других последовательностях:
Используем программу MAST для последовательностей составленных из домена PF01522 моего белка (см. предыдущую работу: "Эволюционные домены. Банки Pfam и InterPro."). Извлечем последовательности из выравнивания (то есть уберем знаки пробелов и переведем в fasta-формат) программой degapseq: "$ degapseq PF01522_seed.msf PF01522_seed.fasta" Запустим программу emast: "$ emast -dfile PF01522_seed.fasta meme.txt mastout.html" На вопросы программы отвечаем по умолчанию (нажатием Enter). Откроем полученный файл (mastout.html) браузером. Мотив, найденный консольной версией программы MEME не нашелся в 9 последовательностях из PF01522_seed.fasta. Выравнивание, взятое из Pfam соотвествует мотиву.********************