Поиск мотивов, программы MEME и MAST

Через putty была запущена программа MEME, входящая в пакет EMBOSS. Это было сделано с помощью команды, которая была применена к fasta-файлу с последовательностями гомологов KAD_BACSU:
ememe sequences.fasta memeout -nmotifs 3
Программа выдает информацию о мотивах в последовательностях в виде html.

Номер мотива Число последовательностей Длина мотива E-value LOGO
1
85
21
4.2e-1045
2
83
21
2.7e-919
3
61
29
8.5e-968
Таблица 1. Сведения о мотивах из выдачи MEME.

Сравнение мотивов MEME с полным выравниванием

Помимо страницы html программа MEME выдает текстовый файл, в котором, помимо прочего, записаны мотивы в формате BLOCKS. Если сохранить их в отдельных файлах в формате aln и применить к ним команду seqret, то получатся (в данном случае 3) файлы в формате fasta. Команда:
seqret mtif.aln motif fasta
Сравним полученные выравнивания с полным множественным выравниванием, полученным с помощью программы MUSCLE. Сначала стоит показать, что выравнивания имеют большую степень схожести, показав соответствие колонок одного выравнивания колонкам другого.
Сравним сначала выравнивание первого мотива (используется нумерация из выдачи MEME):
Выравнивание MUSCLE   Выравнивание MEME
 
Рисунок 1. Сравнение выравниваний первого мотива
с использованием схемы ClustalX и функции By Conservation..

Выравнивания несколько не свопадают. Основные консервативные участки не отличаются, но в выравнивании MUSCLE присутствует несколько колонок гэпов, а за ними еще несколько колонок. Чтобы показать соответствие, я выделил две колонки (красной и синей рамкой), которые в выравнивании MEME оказались окрашены, а выравнии MUSCLE - нет.

Выравнивание MUSCLE   Выравнивание MEME
 
Рисунок 2. Сравнение выравниваний второго мотива
с использованием схемы ClustalX и функции By Conservation.
Выравнивание MUSCLE   Выравнивание MEME
 
Рисунок 3. Сравнение выравниваний третьего мотива
с использованием схемы ClustalX и функции By Conservation.

При сравнении выравниваний второго и третьего мотивов видим аналогичную картину. В третьем мотиве я тоже выделил несколько колонок, чтобы показать соответсвие.
Теперь покажем, почему MUSCLE ставит столько гэпов. Это происходит из-за некоторых единичных последовательностей, которые отличаются от остальных в области мотивов. Участки выравнивания MUSCLE, включающие такие последовательности приведены на рисунке 4.

Рисунок 4. Фрагменты выравнивания MUSCLE, обеспечивающие различие с выравнвиванием MEME

Видно, что MEME не ставит гэпы, но при этом теряется часть консервативности мотивов.

Поиск найденных мотивов в других последовательностях

Проведм с помощью программы MAST поиск мотивов, найденных MEME, в последовательностях выравнвиания домена ADK, взятого из Pfam. Программа MAST, также как и MEME, включена в пакет EMBOSS. Последовательно используются две команды:
degapseq ADK.txt ADK.fasta
emast -dfile ADK.fasta memeout/memeout.txt mastout1.html
В результате был получен данный файл html.
Итак:

Cервис MEME Suite

На мой взгляд, сервис очень удобен. В первую очередь это связано с удобством интерфейса: гораздо удобнее получать информацию через браузер, а не через EMBOSS. Еще мне понравилось, что результат присылают на электронную почту. При всем этом не теряется функциональность и выдача включает все то же самое, что может быть получено чере putty. Привожу параметры, присланные на почту вместе со ссылкой на выдачу:
Description
Adenylate kinases

SettingsSequence file	sequences.fasta
Distribution of motif occurrences	Zero or one per sequence
Number of different motifs	3
Minimum motif width	6
Maximum motif width	50

SequencesType of Sequences	protein
Count of Sequences	85
Shortest Sequence (residues)	136
Longest Sequence (residues)	423
Average Length (residues)	224.6
Total Length (residues)	19095

Карта локального сходства

С помощью сервиса DotHelix на сайте genebee составим карту локального сходства для белка TALe (самого с собой). Она будет выглядеть так:

Рисунок 4. Карта локального сходства белка TALe самого с собой.

Карта нуждается в некотором пояснении. В случае сравнения разных белков по вертикальной и горизонтальной осям откладывают последовательности этих двух белков, здесь же это одна и та же последовательность. Главна диагональ - показывает полную идентичность последовательности целиком самой себе, что очевидно. Остальные выделенные участки показывают сходство более мелких участков внутри белка, чем ярче линия, тем выше сходство. Например, участок с ~500 по ~700 похож на участок с ~400 по ~750. Интересно, что в белке оень много похожих участков.
Главная страница Первый семестр Второй семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление: 10.05.2013