Занятие 5.(зачетное) Что кодирует фрагмент нуклеотидной последовательности?

    определить, кодирует ли фрагмент генома Yersinia intermedia длины 7000 нуклеотидов что-либо, похожее на какой-либо белок из бактерии-прототипа Escherichia coli K-12


    Гипотетические гены во фрагменте 77001-84001:

    3'--[<=ген ycfD, 6275-6997]--5'
    
    5'--[=>ген lolc, 31-744]-                
    -[=>ген lold, 650-1441]-
    -[=>ген lole, 1444-2688]-
    -[=>ген nagk, 2776-3816]-
    -[=>ген npd, 3886-4779]-
    -[=>ген pept, 4902-6191]-3'
    

    Видно, что ни один из генов не перекрывает другой, кроме первых двух(lolc и lold), но это можно объяснить наличием метионина ближе к концу гена lolc, или лейцина, или валина(У бактерий и архей GUG и UUG часто используются как стартовые кодоны), ведь для создания orf использовался бактериальный table.

    Я провел 2 исследования для открытых рамок считывания фрагмента - через blastp и через blastx. Сначала на вход blastx подавались нуклеотидные последовательности orf (получены командой getorf -table 11 -minsize 240 -find 3) , потом аминокислотные последовательности orf (получены командой getorf -table 11 -minsize 240 -find 1) на вход blastp. Blastx по общему количеству находок ниже порога 0.001 опережает blastp, но сильно уступает ему в точности и верности находок. Blastx выдал почти по каждому orf ген, однако для многих orf гены повторялись(в том числе для тех orf, что перекрывали друг друга). Blastp же сразу выделил 7 наиболее гомологичных гена. Эти гены, представленные в таблице, были также в результатах blastx, на тех же orf, что и в blastp, но терялись на фоне других генов. Поэтому для работы наилучшим вариантом был выбор программы blastp и тип данных в виде аминокислотных последовательностей.

    название гена начало в е.coli конец в e.coli начало в y.intermedia конец в y.intermedia
    lolc 1174650 1175849 77032 77745
    lold 1175842 1176543 77651 78442
    lole 1176543 1177787 78445 79689
    nagk 1177816 1178727 79777 80817
    npd 1178743 1179582 80887 81780
    pept 1185067 1186293 81903 83192
    ycfd(complement) 1186342 1187463 83276 83998

    Сравнивая позиции генов в 2-х геномах нельзя не заметить, что их взаимное расположение очень похоже, что наодит на мысль о высоком консерватизме данных участков геномов, и, возможно, их сцепленном наследовании. Особенно первых три гена lolCDE, отвечающих за липопротеиновый транспорт, который тесно связан с построением мембран. Вероятно, эта важная функция клетки сохраняет высокий консерватизм этих генов в геномах бактерий. Ген lolE вообще имеет одинаковую длину в обоих геномах(1244 нп). Среди orf комплементарной цепи был опознан верно лишь один ген ycfD, хотя в отчете blastx эти orf опознаются, в основном, как гены lole и npd. Мне кажется маловероятным, что несколько подряд идущих orf кодируют один и тот же ген.

    Exel таблица orf`ов и результатов по blastp\blastx

    script blastp для подсчета находок




    вернуться к 3 семестру