Предсказание генов у прокариот

Для работы с этим практикумом был взят контиг микробиома кардиального отдела желудка валлаби. С помощью ORF Finder Был произвед н поиск открытых рамок считывания. Результат работы программы показан на рисунке 1.

результат работы ORF Finder Рисунок 1. Результат работы ORF Finder

Было найдено 15 открытых рамок считывания, но кодирующими белок, по-моему, являются только две - достаочно большие и не перекрывающиеся друг с другом рамки - перая и вторая в списке на рисунке 1 (с 1 по 1017 нуклеотиды и с 1139 по 2701). Для них был проведён бласт по базе данных swissprot. И для обоих были найдены выравнивания с e_value < 0.001 и Query cover >80%. Гомологами первого белка (1-1017) являются гликозилтрансферазы и неизвестные гипотетические белки, а для второго (1139-2701) - это гидролазы, а точнее чаще всего это были "haloacid dehalogenase". Полученные результаты о лучших находках представлена в таблице 1. А для следующей по длине находки не было найдено гомологов с достаточно достоверным e-value и Query cover.

Таблица 1. Лучшие находки в ORF Finder
Начало Конец Длина (в аминокислотных остатках) Цепь Описание
1 1017 520 + гликозилтрансфераза
1139 2701 338 - haloacid dehalogenase

Затем поиск возможных генов был осуществлён с помощью программы GeneMark. Результаты её работы представлены в отчёте и в таблице 2

Таблица 2. Найденные возмодные гены по GeneMark
Цепь Начало Конец Длина гена (в нуклеотидах)
1 - <1 1017 1017
2 + 1139 2701 1563
3 - 2698 2898 201

Сравнивая результаты работы двух программ можно убедиться, что гены 1 и 2 из таблицы 2 совпадают с генами из таблицы 1. Однако третий ген расходится с результатами в ORF Finder. Причём по ORF Finder имеется рамка считывания, которая начинается с этого же нуклеотида, но заканчивается она раньше. Было решено проверить её и был проведён blast по базе данных swissprot и обнаружено, что для этого участка найдены гомологи с e-value < 0.001 и Query cover >80% (dв том числе и 100%) и гомологи этого белка являются sugar transferase

При изменении эвристических параметров в GeneMark были получены несколько другие результаты, представленные в отчёте и таблице 3.

Таблица 3. Найденные возмодные гены по GeneMark с другими эвристическими параметрами
Цепь Начало Конец Длина гена (в нуклеотидах)
1 - <1 999 999
2 + 1139 2701 1563
3 - 2698 2898 201

При изменении эврестических параметров на самом деле изменилось ненмогое, только конец первого гена уменьшился на 18 нуклеотидов.

© Демкив Андрей 2013 Дата последнего изменения: 29.05.2015