Учебный сайт Валяевой Анны
Предсказание генов у прокариот
Задача этого практикума - проаннотировать контиг микробиома кардиального отдела желудка валлаби.
Задание 1
Вначале с помощью программы ORF Finder на сайте NCBI, используя бактериальный генетический код (11), были найдены открытые рамки считывания, результат изображен на рисунке 1. Похожие результаты выдала программа getorf из пакета EMBOSS.

Рис. 1. Открытые рамки считывания, предсказанные ORF Finder.
Из найденных аминокислотных последовательностей для последующего поиска гомологов были исключены последовательности с длиной менее 180 пн (60 ао). Из перекрывающихся предпочтение отдавалось более длинным последовательностям. Таким образом, с помощью программы BLASTP для первых трех рамок был проведен поиск близких последовательностей в банке Swiss-Prot. Были учтены следующие параметры: E-value находки меньше 0,001 и не менее 80% банковской последовательности покрыто выравниванием. Результаты представлены в таблице 1.
Таблица 1. Открытые рамки, найденные ORF Finder, и их предполагаемые гомологи.
Начало | Конец | Длина в а.о. | Цепь | Описание | Организм | Покрытие | E-value |
224 | 1777 | 518 | + | Эндонуклеаза RecJ, специфичная к одноцепочечной ДНК | Bacillus subtilis subsp. subtilis str. 168 | 89% | 7e-54 |
1826 | 2356 | 177 | + | Адениновая фосфорибозилтрансфераза | Lactococcus lactis subsp. cremoris MG1363 | 94% | 6e-64 |
2381 | 2774 | 131 | + | ГТФ пирофосфокиназа | Bacillus subtilis subsp. subtilis str. 168 | 82% | 4e-26 |
Для остальных последователностей ОРС гомологов, отвечающих заданным требованиям, найдено не было. Итак, по полученным результатам можно предположить, что в данном контиге 3 гена.
Задание 2
Далее для предсказания генов в данном контиге была использована программа GeneMark. Для поиска генов были выбраны эвристические параметры 1999 года. Информация о предсказанных генах представлена в таблице 2. График кодирующего потенциала можно посмотреть здесь. Фрагмент графика на рисунке 2.
Таблица 2. Открытые рамки, найденные GeneMark.
Начало | Конец | Длина гена | Цепь |
<2 | 127 | 126 | + |
224 | 1777 | 1554 | + |
1826 | 2356 | 531 | + |
2382 | >2774 | 393 | + |

Рис. 2. Фрагмент графика расшифровки контига. На оси абсцисс обозначены координаты нуклеотидов, на оси ординат - кодирующий потенциал. Жирными черными прямыми обозначены предсказанные гены.
Задание 3
С помощью GeneMark был предсказан дополнительный ген с координатами (<2…127). Предсказания других трех генов практически идентичны.
Дата последнего обновления: 28.12.14
©Валяева Анна