Поиск мотивов, программы MEME и MAST

На вход программе MEME (ememe в пакете EMBOSS) подала набор невыровненных последовательностей - вероятных гомологов моего белка YWHB_BACSU, просмотрела выдачу программы в формате html (ссылка), для каждого мотива занесла в отчёт число последовательностей в нем, длину мотива, E-value, LOGO.

Мотив

Число последовательностей в нем

Длина мотива

E-value

LOGO

1

27 из 34

42

2.1e-338

2

32 из 34

15

1.9e-115

3

2 из 34

8

2.4e+001

Таблица 1. Информация о мотивах, найденных MEME.

Сравнение блоков, найденных MEME, c полным выравниванием, выданным muscle:

В целом, выравнивания мотивов совпадают, кроме того, что с помощью МЕМЕ было выбрано меньше последовательностей (рисунки 1 - 3). Первое и второе выравнивания являются частью множественного выравнивания (рисунок 4), первым и последним блоками соответственно.

 

 

 

 

 

Рис. 1 - 3. Множественные локальные выравнивания гомологов белка YWHB_BACSU в местах мотивов, определенных программой МЕМЕ.

Рис. 4. Множественное глобальное выравнивание гомологов белка YWHB_BACSU.

Поиск найденных мотивов в других последовательностях:

Провела программой MAST поиск мотивов, найденных программой MEME, в последовательностях, из которых составлено выравнивание (seed) домена моего белка, взятое из Pfam. Поиск провела на сервисе MEME Suite. В нем больше параметров, все наглядно и удобно (ссылка). Можно получить выходные данные не только от разных программ (MEME и MAST), но и в разных форматах: html, xml и txt. В формате txt также интуитивно (!) все понятно: значения поля MOTIF DIAGRAM - [3]_1_[1]_[2]_1 означают, что последовательность начинается с третьего мотива, между первым и третьим есть один остаток, дальше идут подряд первый и второй мотив, и все заканчивается остатком, не относящимся к мотивам.

В файле seed.fasta было 28 последовательностей. Первый мотив найден в 27 последовательностях, второй - во всех, третий - в 25 последовательностях. В 24 последовательностях нашлись все мотивы. Выравнивание, взятое из Pfam, мотивам соответствует.

Карта локального сходства, построенная для последовательности белка TALe против самой себя на сервисе DotHelix на сайте genebee, представлена на рисунке 5. Наличие толстой диагональной линии понятно - последовательность отображается на саму себя. Но наличие остальных диагональных линий разной длины в большом количестве говорит о повторах в последовательности TALe. Трехмерная структура (рисунок 6) подтверждает это. Также увеличим количество выдаваемых мотивов в сервисе DotHelix до 200, с увеличением количества длина последних мотивов уменьшается, многие короткие мотивы входят в состав более длинных. Это объясняет наличие коротких желтых и светло-оранжевых линий на карте локального сходства.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 5. Карта локального сходства белка TALe.

Рисунок 6. Трехмерная структура белка TALe.

 

© Дудина Дарья