Учебная страница курса биоинформатики,
год поступления 2013
Задание 14. Мотивы, MEME & ProSite
Дано: множественное выравнивание (любое из встречавшихся вам в предыдущих заданиях).
Результат: протокол на сайте + проект JalView с множественным выравниванием и указанием положения мотива, использованного для построения паттерна.
1. Построить сильный и слабый паттерны для одного из найденных мотивов и описать результаты поиска.
Мотив - консервативный участок последовательностей. Два типа мотивов: (1) мотив, свидетельствующий о гомологии последовательностей; (2) мотив, свидетельствующий об общности функции или структуры белков. В задании нужен мотив типа (1). Примером мотива типа (2) может служить структурный мотив лейциновая молния (сильный паттерн такой L-x(6)-L-x(6)-L-x(6)-L-x(6)-L).
Сильный паттерн - тот, с помощью которого, в идеале, находятся только гомологичные последовательности. Для его составления можно использовать много условий на колонки. Тем не менее, условия должны быть оправданы дополнительными соображениями - свойствами аминокислотных остатков, правильностью выравнивания, возможными удлиннениями гэпов и др. Плата за силу - возможный пропуск находок.
Слабый паттерн - тот, с помощью которого, в идеале, находятся все мотивы. Плата за слабость - возможность значительного числа ложных находок.
Любой паттерн должен находить все последовательности из исходного выравнивания - коль скоро вы сочли, что во всех есть данный мотив! (Если это не так, то удалите последовательности, в которых, по вашему мнению, мотив отсутствует!)
Для поиска используйте сервис http://prosite.expasy.org/scanprosite/. Выберите нужную опцию.
В протоколе должно быть число находок по каждому паттерну в Swissprot и TrEMBL и обсуждение результата.
Синтаксис паттернов: A, C, D, E ... - обозначения аминокислот. x - любая аминокислота. [] - любой из символов. {} - любой из символов, кроме заданных. (3) - повторить 3 раза, (2,5) - от 2 до 5 раз.
Подробности http://prosite.expasy.org/scanprosite/scanprosite_doc.html#mo_motifs .
Примеры:
A-C-N-R = последовательность ACNR
A-C(2)-N-R = последовательность ACCNR
A-x-N-R = последовательность ACNR, или ADNR, или ANNR, но не AKTNR
A-[ST]-N-R = последовательность ACNR или ATNR
A-[ST](2)-G-H = последовательность ASTGH или ATTGH, но не ATGH
A-[ST]-x(2)-R = последовательность ATKPR или ASFYR, но не ASNR
A-[ST]-x(2,3)-R = последовательность ATKPR или ASFHYR, но не ASNR
A-{ST}-G(1,1000)-R = последовательность ADGR или ADGGR или AAGGGGGGGR, но не ASGGGGR
Дополнительные задания
2. Найдите лейциновые молнии в банке PDB с помощью сильного паттерна. Проверьте на нескольких находках соответствие структурному описанию лейциновых молний.
3. Выберите английское слово из 5 или 6 букв в алфавите из 20 букв, предскажите, сколько находок в Swissprot ожидается по статистике, и проверьте предсказание
Swissprot содержит около 200 млн букв. Частоты аминокислотных остатков см. на стр. статистика Swissprot, п.6
4. Найдите мотивы в последовательностях при помощи программы MEME. Используйте сервис http://meme.nbcr.net/meme/cgi-bin/meme.cgi или программу meme на kodomo (если заработает). Ищите поиск до трех мотивов в каждой последовательности (-nmotifs). Используйте опцию Any number of repetitions (-mod anr).
Отметьте положение найденных мотивов в множественном выравнивании. Прокомментируйте результат: оказались ли найденные сайты для каждого мотива в одних колонках выравнивания? Если ли последовательности, для которых найдено два сайта для какого-либо мотива? Совпадают ли находки MEME с блоками и кластерами в выравнивании? Есть ли последовательности, в которых не найден какой-то мотив?
Сохраните в протоколе ссылку на fasta-файл с использованными последовательностями и ссылку на страницу с результатами программы MEME (по умолчанию, она сохраняет результат в формате HTML).