На главную страницу сайта
На главную страницу третьего семестра
 

Предсказание генов во фрагменте генома бактерии Yersinia intermedia

 

Было предложено выяснить, есть ли в заданном нам фрагменте генома Yersinia intermedia гены, схожие с генами бактерии-прототипа Escherichia coli K-12.

Решение поставленной задачи

  1. Получение заданного фрагмента:

    seqret -sask

  2. Получение полного протеома кишечной палочки:

    seqret sw:*_ECOLI

  3. Создание индексных файлов:

    formatdb -i prot_ecoli.fasta -p T -n ecoli

  4. Получение трансляции всех открытых рамок считывания из заданного фрагмента:

    getorf -minsize 240 -find 1 -table 11

    Параметр -minsize задает минимальную длину рамки (по условию она равна 240), -find выбирает тип выходных данных (в нашем случае трансляции рамок
    считывания, начинающиеся со старт-кодона и заканчивающиеся стоп-кодоном - это соответствует значению 1), -table определяет тип генетического кода (стандартный бактериальный задается значением 11).

  5. Создание списка ORF-ов:

    grep '^>' frag_prot.orf > orf_list.txt

    '^' обозначает начало строки, а '^>' - строку, начинающуюся со знака '>'. Результат работы grep перенаправляется в файл.

  6. Написание результирующего скрипта, который выдаст в качестве результата колонку с числом гомологов с E-value<0,001:

    seqret frag_prot.orf:AALF01000001_1 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >res.txt
    seqret frag_prot.orf:AALF01000001_2 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_3 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_4 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_5 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_6 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_7 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_8 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_9 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_10 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
    seqret frag_prot.orf:AALF01000001_11 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt

    Программа seqret при помощи параметра stdout передает на конвейер последовательность одной рамки считывания. blastp (поскольку мы ищем белковые последовательности в белковых) ищет сходные с ней последовательности в протеоме кишечной палочки, ограничиваясь результатами с E-value меньше 0,001 (параметр -e) и передает результат дальше. grep c параметром -c считает количество строк в полученном результате, начинающихся с '>', а в выходном файле BLASTа из таких строк состоит hitlist, и их количество соответствует числу находок. Файл res.txt является последней колонкой в результирующей таблице.

Результат

Рамка Границы во фрагменте Направление Число сходных последовательностей
в протеоме кишечной палочки
AALF01000001_1 230 - 1210 прямое 1
AALF01000001_2 1391 - 1654 прямое 0
AALF01000001_3 1745 - 2023 прямое 0
AALF01000001_4 2465 - 2737 прямое 0
AALF01000001_5 2741 - 3244 прямое 0
AALF01000001_6 6241 - 6999 прямое 2
AALF01000001_7 6990 - 6676 обратное 0
AALF01000001_8 5926 - 4760 обратное 1
AALF01000001_9 4680 - 4327 обратное 0
AALF01000001_10 4011 - 2269 обратное 1
AALF01000001_11 2192 - 1296 обратное 25

Схема расположения генов

Гипотетические гены во фрагменте


Реальные гены в геноме E.coli


Несмотря на то, что порядок следования генов в обоих случаях совершенно разный, есть некоторые сходства в их взаимном расположении:

  • Во-первых, гены нигде не перекрываются.
  • Во-вторых, гены и в нашем фрагменте и в геноме E.coli сохраняют своё направление.
  • В-третьих, гены mdoC и mdoG сохраняют своё взаимное расположение, причем расстояние между ними слишком мало, чтобы там мог поместиться ещё один ген (315 и 394). Да и функционально они тесно связаны: mdoC кодирует мембранный белок, необходимый для модификации периплазматического глюкана, а mdoG кодирует белок, который этот глюкан синтезирует. Остальные белки функционально напрямую не связаны (транспортный, регуляторный, мембранный белки). Отсюда можно сделать вывод, что открытые рамки считывания AALF01000001_6 и AALF01000001_8 соответствуют генам Yersinia intermedia, которые кодируют белки, гомологичные OPGG_ECOLI и OPGC_ECOLI соответственно(это также подтверждается низкими E-value<e100).
  • Так же особого внимания заслуживает рамка AALF01000001_11 в виду большого числа сходных последовательностей.
  • Помимо этого рамка AALF01000001_10 обладает максимальной схожестью с геном cvrA(E-value=0.0) вплоть до длины, что тоже говорит о её высоком потенциале быть геном, родственным с cvrA.
 

 

 

 


© Донченко Иван, 2007