Предсказание генов прокариот
Главная

Поиск открытых рамок считывания

В выданном мне контиге программой getorf с помощью команды:

getorf contig.txt -minsize 180 -table 11 contig_ORFs.fasta

был получен файл , содержащий открытые рамки считывания длиной 60 триплетов и более.

В таблице 1 приведена информация об открытых рамков считывания, для которых удалось найди гомологов (E-value < 0.001 и не менее 80% банковской последовательности покрыто выравниванием), с помощью blastp в базе данных Swissprot

Использование GeneMark

В результате обработки контига программой GeneMark был получен файл с данными об обнаруженных генах и график кодирующего потенциала, представленный на рис. 1. Горизонтальная ось графика - это номер (позиция) каждой буквы контига, а вертикальная ось показывает вероятность кодирования гена этой позицией. Выделенные жирным горизонтальные полосы выделяют области с высоким кодирующим потенциалом, то есть те, которые, возможно, являются генами. Данные о предсказанных генах приведены в таблице 1.

Рис. 1. График кодирующего потенциала данного контига. Получено с помощью GeneMark

Сравнение предсказаний

Таблица 1. Гены, предсказаные в контиге
ПрограммаНачалоКонецДлина в а.о.ЦепьОписаниеИдентификатор гомологаОрганизмE-valueScore
getorf; blastp 12181805588+Регулятор транскрипцииP46330Bacillus subtilis4E-0855,5
getorf; blastp 21292551423+Белок устойчивости к антибиотикамP27245Escherichia coli1E-1162.4
getorf; blastp 26632863201+Экспортирующий белокQ6GCD7Staphylococcus aureus7E-0542.7
GeneMark <1 387 387+
GeneMark492851360+
GeneMark9551161207+
GeneMark12241808585+
GeneMark21352554420+
GeneMark2690 >2863 174+

Всего программой GeneMark предсказано 6 возможных генов, они соответствуют рамкам с номерами 1, 3, 4, 5, 7 и 8. Также на рис. 1 можно заметить остальные рамки считывания, найденные getorf, в этих областях кодирующий потенциал существенно больше 0, но он недостаточно высок для того, чтобы программа GeneMark считала эти области возможными генами. Из имеющихся данных можно сделать вывод, что GeneMark успешно находит области, где высока вероятность нахождения гена. Однако нельзя утверждать, что для найденных областей обязательно найдутся гомологи с высоким сходством.

Обо мне
Ссылки


Valid HTML 4.01 Transitional