Учебная страница курса биоинформатики,
год поступления 2013
Занятие 1 блока 3. Предсказание генов у прокариот.
Сервисы и программы
BLAST на NCBI (или на EBI, или на Uniprot).
getorf (из пакета EMBOSS) или ORF Finder на NCBI.
Вам дан контиг микробиома кардиального отдела желудка валлаби. Ваша задача – при помощи программ getorf (или ORF Finder), BLASTP и GeneMark проаннотировать этот фрагмент: определить границы белок-кодирующих генов, по возможности определить их функцию и обосновать свои выводы. Отчёт должен быть выставлен на сайт к утру 18 ноября.
Задание 1
Найдите открытые рамки считывания длиной 60 триплетов и более, используя бактериальный генетический код (11). Для каждой найденной аминокислотной последовательности найдите близкие последовательности в банке Swiss-Prot. Будем считать последовательности близкими, если E-value находки меньше 0,001 и не менее 80% банковской последовательности покрыто выравниванием (не относитесь к этому параметру формально – рамки у краёв контига могут быть неполными по техническим причинам, это не основание отвергать их!). Из существенно перекрывающихся (более 20 а.о.) последовательностей, для одной из которых есть гомолог в Swiss-Prot, а для другой нет, оставьте одну, а у другой попробуйте сменить старт трансляции; если же перекрывания избежать всё равно не удаётся, удалите. Подобным же образом разрешите перекрывания пар, в которых обе открытые рамки не имеют гомологов (если такие есть), предпочтение при этом следует отдавать более длинной последовательности. Старт трансляции иногда имеет смысл сместить и при наличии гомолога, действуйте по обстоятельствам.
Занесите данные о рамках, прошедших фильтр, в таблицу вида:
Начало |
Конец |
Длина в а.о. |
Цепь |
Описание |
7877 |
8314 |
438 |
+ |
Транскрипционный регулятор семейства MarR |
Если вы предполагаете, что начало или конец гена – за пределами контига пишите "<1" в графе "начало" или аналогичное выражение с использованием знака ">" в графе "конец". Предположительная функция должна быть описана по-русски. Если функцию предсказать не удаётся, пишите "гипотетический белок". Обязательно вставьте в отчёт данные о гомологах, по которым вы предсказали функцию: организм, идентификатор, характеристики выравнивания. Если вы сместили старт гена, тоже приведите обоснование.
Задание 2
Предскажите гены в том же контиге программой GeneMark. Запросите график кодирующего потенциала в формате pdf. Вставьте в отчёт график и краткое описание того, какую информацию вы из него извлекли. Кроме того, внесите информацию о предсказанных генах в такую же таблицу, как в задании 1 (без последнего столбца).
Задание 3
Сравните предсказания, сделанные двумя способами. Отдельно отметьте полностью совпадающие предсказания, перекрывающиеся предсказания и полученные только одним способом. Желательно придумать и реализовать наглядную форму представления сравнения.
* Дополнительное задание
Поменяйте в сервисе GeneMark эвристические параметры (в самом низу страницы). Опишите, изменились ли результаты.