Поиск мотивов, программы MEME и MAST
Через putty была запущена программа MEME, входящая в пакет EMBOSS. Это было сделано с помощью команды, которая была применена к fasta-файлу с последовательностями гомологов KAD_BACSU:ememe sequences.fasta memeout -nmotifs 3
Программа выдает информацию о мотивах в последовательностях в виде html.
Номер мотива |
Число последовательностей |
Длина мотива |
E-value |
LOGO |
1 |
85 |
21 |
4.2e-1045 |
|
2 |
83 |
21 |
2.7e-919 |
|
3 |
61 |
29 |
8.5e-968 |
|
Таблица 1. Сведения о мотивах из выдачи MEME.
Сравнение мотивов MEME с полным выравниванием
Помимо страницы html программа MEME выдает текстовый файл, в котором, помимо прочего, записаны мотивы в формате BLOCKS. Если сохранить их в отдельных файлах в формате aln и применить к ним команду seqret, то получатся (в данном случае 3) файлы в формате fasta. Команда: seqret mtif.aln motif fasta
Сравним полученные выравнивания с полным множественным выравниванием, полученным с помощью программы MUSCLE. Сначала стоит показать, что выравнивания имеют большую степень схожести, показав соответствие колонок одного выравнивания колонкам другого.
Сравним сначала выравнивание первого мотива (используется нумерация из выдачи MEME):
Выравнивание MUSCLE |
|
Выравнивание MEME |
|
|
|
Рисунок 1. Сравнение выравниваний первого мотива с использованием схемы ClustalX и функции By Conservation.. |
Выравнивания несколько не свопадают. Основные консервативные участки не отличаются, но в выравнивании MUSCLE присутствует несколько колонок гэпов, а за ними еще несколько колонок. Чтобы показать соответствие, я выделил две колонки (красной и синей рамкой), которые в выравнивании MEME оказались окрашены, а выравнии MUSCLE - нет.
Выравнивание MUSCLE |
|
Выравнивание MEME |
|
|
|
Рисунок 2. Сравнение выравниваний второго мотива с использованием схемы ClustalX и функции By Conservation. |
|
Выравнивание MUSCLE |
|
Выравнивание MEME |
|
|
|
Рисунок 3. Сравнение выравниваний третьего мотива с использованием схемы ClustalX и функции By Conservation. |
|
При сравнении выравниваний второго и третьего мотивов видим аналогичную картину. В третьем мотиве я тоже выделил несколько колонок, чтобы показать соответсвие.
Теперь покажем, почему MUSCLE ставит столько гэпов. Это происходит из-за некоторых единичных последовательностей, которые отличаются от остальных в области мотивов. Участки выравнивания MUSCLE, включающие такие последовательности приведены на рисунке 4.
| | | Рисунок 4. Фрагменты выравнивания MUSCLE, обеспечивающие различие с выравнвиванием MEME |
Видно, что MEME не ставит гэпы, но при этом теряется часть консервативности мотивов.
Поиск найденных мотивов в других последовательностях
Проведм с помощью программы MAST поиск мотивов, найденных MEME, в последовательностях выравнвиания домена ADK, взятого из Pfam. Программа MAST, также как и MEME, включена в пакет EMBOSS. Последовательно используются две команды:
degapseq ADK.txt ADK.fasta
emast -dfile ADK.fasta memeout/memeout.txt mastout1.html
В результате был получен данный файл html.
Итак:
- Первый мотив нашелся в 22 из 23 последовательностях, а тертий мотив нашелся в 17 из 23 последовательностей. Второй мотив не найден.
- Не нашлось такой последовательности, где встретились бы все мотивы.
- Выравнивание из Pfam соответствует мотивам.
Cервис MEME Suite
На мой взгляд, сервис очень удобен. В первую очередь это связано с удобством интерфейса: гораздо удобнее получать информацию через браузер, а не через EMBOSS. Еще мне понравилось, что результат присылают на электронную почту. При всем этом не теряется функциональность и выдача включает все то же самое, что может быть получено чере putty. Привожу параметры, присланные на почту вместе со ссылкой на выдачу:
Description
Adenylate kinases
SettingsSequence file sequences.fasta
Distribution of motif occurrences Zero or one per sequence
Number of different motifs 3
Minimum motif width 6
Maximum motif width 50
SequencesType of Sequences protein
Count of Sequences 85
Shortest Sequence (residues) 136
Longest Sequence (residues) 423
Average Length (residues) 224.6
Total Length (residues) 19095
Карта локального сходства
С помощью сервиса DotHelix на сайте genebee составим карту локального сходства для белка TALe (самого с собой). Она будет выглядеть так:
| Рисунок 4. Карта локального сходства белка TALe самого с собой. |
Карта нуждается в некотором пояснении. В случае сравнения разных белков по вертикальной и горизонтальной осям откладывают последовательности этих двух белков, здесь же это одна и та же последовательность. Главна диагональ - показывает полную идентичность последовательности целиком самой себе, что очевидно. Остальные выделенные участки показывают сходство более мелких участков внутри белка, чем ярче линия, тем выше сходство. Например, участок с ~500 по ~700 похож на участок с ~400 по ~750. Интересно, что в белке оень много похожих участков.
© Марк Меерсон, 2013
Последнее обновление: 10.05.2013