Учебный сайт Софроновой Алины
Предсказание генов у прокариот

        Целью этого практикума является определить границы белок-кодирующих генов и их функцию. Для анализа мне дан контиг микробиома кардиального отдела желудка валлаби. Для поиска открытых рамок считывания я воспользовалась программой getorf. В качестве генетического кода я использовала бактериальный (отличается наличием старт-кодонов TTG и GTG), за это отвечает опция -table со значением 11. Поиск велся по рамкам считывания длиной 60 и более триплетов (т.е. 180 и более нуклеотидов) - параметр -minsize 180. -find отвечает за область считывания и выдает либо аминокислотную последовательность, либо нуклеотидную. Нам потребуется значение "1" этого параметра - область между старт- и стоп-кодоном. В итоге запись в командной строке выглядит так:

getorf -sequence kontig.txt -minsize 180 -table 11 -find 1 -auto

В итоге было найдено 14 рамок счиывания: 5 напрямой цепи и 9 на обратной. С файлом можно ознакомиться здесь. На прямой цепи найденные рамки не перекрываются, единственно что вторая находка (координаты 1336-1539) полностью принадлежит третьей (координаты 969-1910). Можно предположить, что вторая рамка найдена ошибочна. На обратной же цепи множество перекрываний генов. Шестая рамка (2420-2229) принадлежит седьмой (2554-2054), небольшое перекрытие наблюдается между 7-8 находкой (42 а.о). Почти полное наложение между 9 (1869-1663) и 10 (1865-1641) рамкой. 12,13 и 14 находки перекрывают друг друга по достаточно длинным участкам (длиной более 150 а.о.).

        Далее для каждой найденной рамки я провела поиск гомологов. Я использовала standalone blast с использованием удаленного доступа к базе данных данных Swiss-Prot (опция -remote). Итоговая команда:

blastp -query sofronova.orf -db swissprot -out blast.out -evalue 0.001 -outfmt 7 -remote

В результате был получен файл - blast.out. Результаты меня удивили, нашлись гомологи только для первой рамки считывания, причем сразу 86 гомологов! Я выбрала лучшую находку. Так же я сочла маловероятным, что 3,7,11,13 рамки нашлись ошибочно - их длина более 400 а.о. Данные о рамках считывания представлены в Таблице 1.

Таблица 1. Результат поиска открытых рамок считывания данного контига, используя blast и getorf

Начало Конец Длина в а.о. Цепь Описание
27 911 885 + Глюкокиназа
969 1910 942 + Гипотетический белок
2054 2554 501 - Гипотетический белок
1176 1592 417 - Гипотетический белок
219 722 504 - Гипотетический белок

        Предскажем гены для этого контига другим способом, а именно используя программу GeneMark. В результате был получен pdf файл с графиком кодирующего потенциала - genemark.pdf, а так же файл с рамками - genemark.fasta. GeneMark обнаружил три открытые рамки считывания. Информация о них приведена в Таблице 2.

Таблица 2. Результат поиска открытых рамок считывания данного контига при помощи GeneMark

Начало Конец Длина в а.о. Цепь
27 914 888 +
969 1913 945 +
2051 2527 477 -

        Все эти рамки предказывал и поиск при помощи getorf. Но координаты отличаются на 3 а.о. - стоп-кодона, и для третьей находки плюсом сдвинута первая координата на 27 нуклеотидов в сторону уменьшения гена. Это связано с тем, что рамка началась с другого старт-кодона. Но blast нашел гомологов только для первой находки. Проанализируем график кодирующего потенциала. График первой рамки считывания (Рис.1) имеет по середине огромную и довольно продолжительную впадину - возожно здесь не один, а два гена. Но так как поиск blast дал результаты для этой рамки, то скорее всего она все же одна.


Рис.1. График кодирующего потенциала для первой рамки считывания

        Для второй рамки (Рис.2) аналогичная ситуация. Причем второго кусочек рамки (после впадины) начинается со старт-кодона, поэтому вероятнее всего это все же два отдельных гена.


Рис.2. График кодирующего потенциала для второй рамки считывания

        Третья рамка с совсем небольшим углублением, поэтому с большим процентом уверенности можно сказать, что эта одна открытая рамка считывания.


Рис.3. График кодирующего потенциала для третьей рамки считывания

        Визульная картина найденных рамок считывания для первого и второго поиска представлена на Рис.4.


Рис.4. Визульное изображение открытых рамок считывания. Синие - найденные при помощи blast+getorf, красные - при помощи GeneMark. Бледным цветом отмечены те рамки, которые нашлись только первым способом. Начала и концы стрелок соответствуют координатам рамок.

        При изменении эвристических параметров на MetaGeneMark результаты не изменились. Файлы получились идентичные. Полученные файлы - genemark2.pdf, genemark2.fasta.



Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 16.11.2014