Практикум 8. Сигналы и мотивы
1. Описание мотива в белках паттерном
Задание состоит в моделировании ситуации, когда у вас есть несколько представителей какого-либо семейства белков, а вы хотите найти побольше представителей того же семейства
Подберите функцию белков бактерий, которая хорошо соответствует мнемонике Swiss-Prot. Примеры:
- RS1, RS2, RS3, ... (белки малой субъединицы рибосомы)
- RL1, RL2, RL3, ... (белки большой субъединицы рибосомы)
- SYA, SYC, SYD, ... (аминоацил-тРНК-синтетазы)
- RPOA, RPOB, ... (субъединицы РНК-полимеразы)
- ENO (энолаза)
Выровняйте последовательности 8–10 белков с такой мнемоникой (то есть с ID вида XXX_*, где XXX — ваша мнемоника, а * — любая мнемоника организма, относящегося к бактериям).
Найдите в выравнивании консервативный участок без гэпов длиной 8–15 позиций. Составьте по нему паттерн.
Проведите поиск программой fuzzpro по этому паттерну среди всех белков бактерий из Swiss-Prot (их последовательности лежит на kodomo в файле /P/y24/term4/bacteria-sw.fasta). Определите точность поиска (число правильно найденных, ложноположительных находок и ложноотрицательных результатов), предполагая, что в идеале должны быть найдены все белки с такой мнемоникой.
В отчёте приведите:
Выбранную мнемонику, краткое описание соответствующей функции, сколько всего в файле bacteria-sw.fasta белков с такой мнемоникой
- Идентификаторы выбранных белков
- Ссылку на выравнивание
- Участок, выбранный для профиля (позиции в выравнивании либо — лучше — номера остатков в одном из белков)
- Составленный вами паттерн
- Результаты поиска:
- Сколько всего находок
- Сколько из них верных (с выбранной мнемоникой)
- Число ложноотрицательных результатов (ненайденные белки с данной мнемоникой)
На "пятёрку": попробуйте улучшить паттерн. Чтобы его ослабить, можно заменить какое-нибудь выражение вида [ACD] на x. Чтобы усилить, можно добавить в него дополнительные позиции справа или слева. Опишите результаты улучшения.
2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке
Возьмите те же белки, которые вы использовали для создания паттерна. Найдите в них мотивы программой MEME с опциями: последовательности аминокислотные, по одному представителю мотива на последовательность, минимальная длина 8, максимальная длина 15, до трёх мотивов. Опишите найденные мотивы: во всех ли белках нашлись,
Программой MAST поищите в файле bacteria-sw.fasta найденные мотивы. Опишите результаты аналогично предыдущему пункту. Сделайте выводы.
В отчёт вставьте гиперссылки на результаты MEME и MAST в формате html.
Указания. Программы meme и mast установлены на kodomo. Сначала стоит запустить каждую из них с опцией -h и выяснить, как задавать входные и выходные данные и какие задавать параметры. Для meme нужна опция -mod oops, параметр -nmotifs означает число мотивов (в вашем случае это 3), а параметр -nsites задавать не надо. Программа meme создаст в выходной директории файл meme.html, именно его надо подать на вход программе mast.
3. Поиск последовательности Шайна — Дальгарно в геноме своего прокариота
Вам понадобятся:
- файл с полным геномом прокариота (того, с которым в работали в первом семестре, или другого)
- геномная таблица
- знание того, что такое последовательность Шайна — Дальгарно (ПШД) (поищите сами или спросите у ИИ)
Программой fuzznuc поищите ПШД в геноме (два раза, на прямой цепи и на комплементарной). Напишите в отчёте, сколько всего находок. Имеется ли достоверное отличие числа находок от ожидаемого по случайным причинам (с учётом частот букв в геноме: посчитайте и обоснуйте)? С помощью геномной таблицы выясните, какой процент находок располагается в правильной позиции относительно старт-кодона какого-либо CDS. (Замечание: в идеале нужно написать программу, которая выяснит это для всех находок, но для зачёта достаточно просмотреть глазами 10–15 случайно выбранных находок)

2025
2023
2022
2021
2020
2019
2018
2017