Учебная страница курса биоинформатики,
год поступления 2014
Занятие 13. Семейства белковых доменов
Дедлайн – 17 мая.
Дано:
Задача:
Результат: Протокол на сайте с описанием работы + проект JalView со всеми построенными выравниваниями.
1. Определите, какие домены Pfam встречаются в последовательности вашего белка. Используйте поиск по последовательности на сайте Pfam. Сохраните seed выравнивание одного из семейств (ссылка Alignments).
2. Сохраните консенсусную последовательность и LOGO одного блока в полученном выравнивании.
Воспользуйтесь программой cons на сервере http://emboss.bioinformatics.nl/, программой consambig на kodomo или скопируйте консенсус из JalView (кликнуть правой кнопкой на слове Consensus).
Воспользуйтесь сервисом http://weblogo.berkeley.edu/ или http://threeplusone.com/weblogo/
3. (*) Какая последовательность наиболее похожа на консенсусную? Постройте выравнивания консенсусной последовательности ВСЕГО БЕЛКА со всеми последовательностями выравнивания. (Прим. needle понимает названия последовательностей в виде file.fasta:sequence_name.) Выберите выравнивание с максимальным весом.
Вспоминайте Линукс.
4. Построить сильный и слабый паттерны для одного из блоков или кластеров выравнивания и найти число последовательностей, содержащих мотив с данным паттерном, в SwissProt и TrEMBL.
Сильный паттерн - тот, с помощью которого, в идеале, находятся только гомологичные последовательности. Для его составления можно использовать много условий на колонки. Тем не менее, условия должны быть оправданы дополнительными соображениями - свойствами аминокислотных остатков, правильностью выравнивания, возможными удлиннениями гэпов и др. Плата за силу - возможный пропуск находок.
Слабый паттерн - тот, с помощью которого, в идеале, находятся все мотивы. Плата за слабость - возможность значительного числа ложных находок.
Любой паттерн должен находить все последовательности из исходного выравнивания - коль скоро вы сочли, что во всех есть данный мотив! (Если это не так, то удалите последовательности, в которых, по вашему мнению, мотив отсутствует!)
Для поиска используйте сервис http://prosite.expasy.org/scanprosite/. Выберите нужную опцию.
В протоколе должно быть число находок по каждому паттерну в Swissprot и TrEMBL и обсуждение результата.
Синтаксис паттернов: A, C, D, E ... - обозначения аминокислот. x - любая аминокислота. [] - любой из символов. {} - любой из символов, кроме заданных. (3) - повторить 3 раза, (2,5) - от 2 до 5 раз.
Подробности http://prosite.expasy.org/scanprosite/scanprosite_doc.html#mo_motifs .
Примеры:
A-C-N-R = последовательность ACNR
A-C(2)-N-R = последовательность ACCNR
A-x-N-R = последовательность ACNR, или ADNR, или ANNR, но не AKTNR
A-[ST]-N-R = последовательность ACNR или ATNR
A-[ST](2)-G-H = последовательность ASTGH или ATTGH, но не ATGH
A-[ST]-x(2)-R = последовательность ATKPR или ASFYR, но не ASNR
A-[ST]-x(2,3)-R = последовательность ATKPR или ASFHYR, но не ASNR
A-{ST}-G(1,1000)-R = последовательность ADGR или ADGGR или AAGGGGGGGR, но не ASGGGGR
5. (*) Найдите мотивы в последовательностях seed семейства при помощи программы MEME. Используйте сервис http://meme-suite.org/tools/meme или программу meme на kodomo (если заработает). Ищите поиск до трех мотивов в каждой последовательности (-nmotifs). Используйте опцию Any number of repetitions (-mod anr).
Сохраните в протоколе ссылку на fasta-файл с использованными последовательностями и ссылку на страницу с результатами программы MEME (по умолчанию, она сохраняет результат в формате HTML).
На будущее
1. Почти все сиды теперь - отстой. С другой стороны тут можно сделать задание на работу с толстыми выравниваниями. Выделение подсемейств, например.