Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Задание 14. Мотивы, MEME & ProSite

Дано: множественное выравнивание (любое из встречавшихся вам в предыдущих заданиях).

Результат: протокол на сайте + проект JalView с множественным выравниванием и указанием положения мотива, использованного для построения паттерна.

1. Построить сильный и слабый паттерны для одного из найденных мотивов и описать результаты поиска.

Мотив - консервативный участок последовательностей. Два типа мотивов: (1) мотив, свидетельствующий о гомологии последовательностей; (2) мотив, свидетельствующий об общности функции или структуры белков. В задании нужен мотив типа (1). Примером мотива типа (2) может служить структурный мотив лейциновая молния (сильный паттерн такой L-x(6)-L-x(6)-L-x(6)-L-x(6)-L).

Сильный паттерн - тот, с помощью которого, в идеале, находятся только гомологичные последовательности. Для его составления можно использовать много условий на колонки. Тем не менее, условия должны быть оправданы дополнительными соображениями - свойствами аминокислотных остатков, правильностью выравнивания, возможными удлиннениями гэпов и др. Плата за силу - возможный пропуск находок.

Слабый паттерн - тот, с помощью которого, в идеале, находятся все мотивы. Плата за слабость - возможность значительного числа ложных находок.

Любой паттерн должен находить все последовательности из исходного выравнивания - коль скоро вы сочли, что во всех есть данный мотив! (Если это не так, то удалите последовательности, в которых, по вашему мнению, мотив отсутствует!)

Для поиска используйте сервис http://prosite.expasy.org/scanprosite/. Выберите нужную опцию.

В протоколе должно быть число находок по каждому паттерну в Swissprot и TrEMBL и обсуждение результата.

Синтаксис паттернов: A, C, D, E ... - обозначения аминокислот. x - любая аминокислота. [] - любой из символов. {} - любой из символов, кроме заданных. (3) - повторить 3 раза, (2,5) - от 2 до 5 раз.

Подробности http://prosite.expasy.org/scanprosite/scanprosite_doc.html#mo_motifs .

Примеры:

A-C-N-R = последовательность ACNR

A-C(2)-N-R = последовательность ACCNR

A-x-N-R = последовательность ACNR, или ADNR, или ANNR, но не AKTNR

A-[ST]-N-R = последовательность ACNR или ATNR

A-[ST](2)-G-H = последовательность ASTGH или ATTGH, но не ATGH

A-[ST]-x(2)-R = последовательность ATKPR или ASFYR, но не ASNR

A-[ST]-x(2,3)-R = последовательность ATKPR или ASFHYR, но не ASNR

A-{ST}-G(1,1000)-R = последовательность ADGR или ADGGR или AAGGGGGGGR, но не ASGGGGR

Дополнительные задания

2. Найдите лейциновые молнии в банке PDB с помощью сильного паттерна. Проверьте на нескольких находках соответствие структурному описанию лейциновых молний.

3. Выберите английское слово из 5 или 6 букв в алфавите из 20 букв, предскажите, сколько находок в Swissprot ожидается по статистике, и проверьте предсказание

Swissprot содержит около 200 млн букв. Частоты аминокислотных остатков см. на стр. статистика Swissprot, п.6

4. Найдите мотивы в последовательностях при помощи программы MEME. Используйте сервис http://meme.nbcr.net/meme/cgi-bin/meme.cgi или программу meme на kodomo (если заработает). Ищите поиск до трех мотивов в каждой последовательности (-nmotifs). Используйте опцию Any number of repetitions (-mod anr).

Отметьте положение найденных мотивов в множественном выравнивании. Прокомментируйте результат: оказались ли найденные сайты для каждого мотива в одних колонках выравнивания? Если ли последовательности, для которых найдено два сайта для какого-либо мотива? Совпадают ли находки MEME с блоками и кластерами в выравнивании? Есть ли последовательности, в которых не найден какой-то мотив?

Сохраните в протоколе ссылку на fasta-файл с использованными последовательностями и ссылку на страницу с результатами программы MEME (по умолчанию, она сохраняет результат в формате HTML).