© Kholina Tatiana, 2013 You can contact me at tatiana96-khol@yandex.ru

В заданной последовательности нуклеотидов можно найти границы генов - они заключены между старт-кодоном и стоп-кодоном. Для найденных рамок считывания можно подтвердить определенными алгоритмами, что этот ген существует.

Задание 1

Был дан контиг микробиома кардинального отдела желудка валлаби. Нужно было его проаннотировать. Сначала я получила открытые рамки считывания программой getorf: getorf -table 11 -find 1 -minsize 60, где table задает генетический код (11 - бактериальный), find указывает, что нужно выдать транслированные последовательности от старт-кодона до стоп-кодона, а minsize задает минимальный размер рамки. Файл со списком открытых рамок считывания: [x]

Начало и конец даны в нуклеотидах, т.к. во-первых, getorf дает такой вывод, а во-вторых, он же может сдвигать рамку считывания относительно начала на 1-3 нуклеотида, тогда сложно отсчитывать аминокислоты.

Начало Конец Длина в а.о. Цепь Описание Характеристики бласта
33 719 229 + Белок рестрикции I типа Самый близкий гомолог - белок P10485.2 из E.coli с E-value 3e-12, покрытием 95% и идентичностью 47%. Другие хорошие гомологи - белки рестрикции I типа из других бактерий (микоплазма, метанокалдококк).
736 1326 197 + Белок системы рестрикции I типа Ближайший описанный гомолог - P71344.1 из Haemophilus influenzae. Другие гомологи - неизвестные белки из Methanocaldococcus jannaschii и белки рестрикции I типа из микоплазмы и E.coli
1410 1970 187 + не найдено достоверных гомологов -
1754 1987 78 + не найдено достоверных гомологов -
1846 2058 71 + не найдено достоверных гомологов -
2123 2395 91 + не найдено достоверных гомологов -
2107 2778 224 + белок системы рестрикции I типа Совпадение со 100% покрытием и 44% идентичностью с белком P17224.1 из E.coli. Также хорошие совпадения с белками рестрикции I типа из стафилококков
2570 2370 67 - не найдено достоверных гомологов -
2766 2134 211 - не найдено достоверных гомологов -
2096 1866 77 - не найдено достоверных гомологов -
2086 1850 79 - не найдено достоверных гомологов -
1688 1386 101 - не найдено достоверных гомологов построены недостоверные выравнивания с фосфорибозиламиноимидазол-сукцинокарбоксамид синтазами из разных бактерий с покрытием около 40% и минимальным E-value 0.25
1140 703 146 - не найдено достоверных гомологов Сделал несколько выравниваний с маленьким покрытием (23%) и высоким E-value (4-5) для рецепторов ацетилхолина M1 из нескольких млекопитающих. Поскольку белок должен быть бактериальный, выравнивание явно недостоверно.
818 546 91 - не найдено достоверных гомологов -
661 464 66 - не найдено достоверных гомологов -
442 215 76 - не найдено достоверных гомологов -

По результатам бласта для трех генов были найдены гомологи среди белков рестрикции I тела; возможно, данный контиг - это оперон генов белков этой системы. Все три гомолога были найдены на одной цепи и не имели перекрываний. Все остальные рамки считывания, вероятно, являются случайными последовательностями, для большинства из них были построены недостоверные выравнивания с совершенно разными белками из разных организмов. Известно, что вероятность получить открытую рамку считывания длины не меньше данной убывает экспоненциально. Большинство получившихся последовательностей без гомологов имеют длину менее 100 аминокислотных остатков, хотя некоторые сравнимы длиной с опознанными генами (> 146 оснований).

Предсказание генов эвристическим алгоритмом с помощью программы GeneMark

Гены можно предсказывать методом, описанным в первом задании, а можно с помощью "эвристического алгоритма", который, по-видимому, не использует выравнивания и поиск гомологов, а использует какие-то другие особенности последовательностей, позволяющие сказать, что это ген. Эвристический алгоритм работает гораздо быстрее (у меня сработал за 1 секунду).

Я использовала программу GeneMark для поиска генов в том же контиге. Алгоритм построил график, где показал вероятность наличия гена в данном участке последовательности.

Рис.1. Гены контига, предсказанные программой GeneMark. По горизонтальной оси - номер нуклеотида последовательности, по вертикальной - вероятность существования гена в данной области. Шесть графиков для одной области соответствуют трем рамкам считывания для прямой и трем для обратной цепи. Предположительные гены подчеркнуты жирным.

Начало Конец Длина в нукл. Направление цепи
51 722 672 +
742 1329 588 +
1413 1973 561 +
>2778 2131 648 -

Сравнение результатов

На таблицу ниже приведено сравнение найденных генов методом поиска гомологов и методом GeneMark. Видно, что три гена приблизительно перекрываются, но их позиции начала и концов различаются. Почему различаются начала? Дело в том, что мы использовали таблицу генетического кода 11 - она работает для бактерий, архей и растительных пластид. В этой таблице старт - это не только ATG, но и некоторые другие кодоны. Например, ген 2 в варианте GeneMark начинается с ATG, а в варианте getorf+BLAST - с TTG. Во всех генах, найденных обоими методами, разница между позицией начала кратна трем, т.е. не сдвинута рамка считывания. Третий по счету ген был найден GeneMark, но не найден getorf+BLAST. Четвертый ген GeneMark посчитал расположенным на обратной цепи, хотя на графике выше видно, что он может быть и на прямой. Видимо, GeneMark не смог рассчитать направление, т.к. часть гена выходит за рамки контига.

№ гена Начало гена Конец гена Цепь
getorf и BLAST GeneMark getorf и BLAST GeneMark
1 33 51 719 722 +
2 736 742 1326 1329 +
3 - 1413 - 1973 +
4 2107 2131 2778 2778 + (-?)