Гипотетические гены во фрагменте 77001-84001:
3'--[<=ген ycfD, 6275-6997]--5' 5'--[=>ген lolc, 31-744]- -[=>ген lold, 650-1441]- -[=>ген lole, 1444-2688]- -[=>ген nagk, 2776-3816]- -[=>ген npd, 3886-4779]- -[=>ген pept, 4902-6191]-3'
Видно, что ни один из генов не перекрывает другой, кроме первых двух(lolc и lold), но это можно объяснить наличием метионина ближе к концу гена lolc, или лейцина, или валина(У бактерий и архей GUG и UUG часто используются как стартовые кодоны), ведь для создания orf использовался бактериальный table.
Я провел 2 исследования для открытых рамок считывания фрагмента - через blastp и через blastx. Сначала на вход blastx подавались нуклеотидные последовательности orf (получены командой getorf -table 11 -minsize 240 -find 3) , потом аминокислотные последовательности orf (получены командой getorf -table 11 -minsize 240 -find 1) на вход blastp. Blastx по общему количеству находок ниже порога 0.001 опережает blastp, но сильно уступает ему в точности и верности находок. Blastx выдал почти по каждому orf ген, однако для многих orf гены повторялись(в том числе для тех orf, что перекрывали друг друга). Blastp же сразу выделил 7 наиболее гомологичных гена. Эти гены, представленные в таблице, были также в результатах blastx, на тех же orf, что и в blastp, но терялись на фоне других генов. Поэтому для работы наилучшим вариантом был выбор программы blastp и тип данных в виде аминокислотных последовательностей.
название гена | начало в е.coli | конец в e.coli | начало в y.intermedia | конец в y.intermedia | |
lolc | 1174650 | 1175849 | 77032 | 77745 | |
lold | 1175842 | 1176543 | 77651 | 78442 | |
lole | 1176543 | 1177787 | 78445 | 79689 | |
nagk | 1177816 | 1178727 | 79777 | 80817 | |
npd | 1178743 | 1179582 | 80887 | 81780 | |
pept | 1185067 | 1186293 | 81903 | 83192 | |
ycfd(complement) | 1186342 | 1187463 | 83276 | 83998 |
Сравнивая позиции генов в 2-х геномах нельзя не заметить, что их взаимное расположение очень похоже, что наодит на мысль о высоком консерватизме данных участков геномов, и, возможно, их сцепленном наследовании. Особенно первых три гена lolCDE, отвечающих за липопротеиновый транспорт, который тесно связан с построением мембран. Вероятно, эта важная функция клетки сохраняет высокий консерватизм этих генов в геномах бактерий. Ген lolE вообще имеет одинаковую длину в обоих геномах(1244 нп). Среди orf комплементарной цепи был опознан верно лишь один ген ycfD, хотя в отчете blastx эти orf опознаются, в основном, как гены lole и npd. Мне кажется маловероятным, что несколько подряд идущих orf кодируют один и тот же ген.
Exel таблица orf`ов и результатов по blastp\blastx
script blastp для подсчета находок