|
Предсказание генов во фрагменте генома бактерии Yersinia intermedia
Было предложено выяснить, есть ли в заданном нам фрагменте генома Yersinia intermedia гены,
схожие с генами бактерии-прототипа Escherichia coli K-12.
Решение поставленной задачи
- Получение заданного фрагмента:
seqret -sask
- Получение полного протеома кишечной палочки:
seqret sw:*_ECOLI
- Создание индексных файлов:
formatdb -i prot_ecoli.fasta -p T -n ecoli
- Получение трансляции всех открытых рамок считывания из заданного фрагмента:
getorf -minsize 240 -find 1 -table 11
Параметр -minsize задает минимальную длину рамки (по условию она равна 240), -find выбирает тип выходных
данных (в нашем случае трансляции рамок считывания, начинающиеся со старт-кодона и заканчивающиеся стоп-кодоном -
это соответствует значению 1), -table определяет тип генетического кода (стандартный бактериальный задается
значением 11).
- Создание списка ORF-ов:
grep '^>' frag_prot.orf > orf_list.txt
'^' обозначает начало строки, а '^>' - строку, начинающуюся со знака '>'. Результат
работы grep перенаправляется в файл.
- Написание результирующего скрипта, который выдаст в качестве результата колонку с числом гомологов с E-value<0,001:
seqret frag_prot.orf:AALF01000001_1 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >res.txt
seqret frag_prot.orf:AALF01000001_2 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_3 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_4 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_5 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_6 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_7 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_8 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_9 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_10 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
seqret frag_prot.orf:AALF01000001_11 stdout | blastall -p blastp -d ecoli -e 0.001 | grep ">" -c >>res.txt
Программа seqret при помощи параметра stdout передает на конвейер последовательность одной
рамки считывания. blastp (поскольку мы ищем белковые последовательности в белковых) ищет сходные с ней последовательности в протеоме кишечной палочки, ограничиваясь
результатами с E-value меньше 0,001 (параметр -e) и передает результат дальше. grep c параметром
-c считает количество строк в полученном результате, начинающихся с '>', а в выходном файле
BLASTа из таких строк состоит hitlist, и их количество соответствует числу находок. Файл res.txt является
последней колонкой в результирующей таблице.
Результат
Рамка |
Границы во фрагменте |
Направление |
Число сходных последовательностей в протеоме кишечной палочки |
AALF01000001_1 |
230 - 1210 |
прямое |
1 |
AALF01000001_2 |
1391 - 1654 |
прямое |
0 |
AALF01000001_3 |
1745 - 2023 |
прямое |
0 |
AALF01000001_4 |
2465 - 2737 |
прямое |
0 |
AALF01000001_5 |
2741 - 3244 |
прямое |
0 |
AALF01000001_6 |
6241 - 6999 |
прямое |
2 |
AALF01000001_7 |
6990 - 6676 |
обратное |
0 |
AALF01000001_8 |
5926 - 4760 |
обратное |
1 |
AALF01000001_9 |
4680 - 4327 |
обратное |
0 |
AALF01000001_10 |
4011 - 2269 |
обратное |
1 |
AALF01000001_11 |
2192 - 1296 |
обратное |
25 |
Схема расположения генов
Гипотетические гены во фрагменте
Реальные гены в геноме E.coli
Несмотря на то, что порядок следования генов в обоих случаях совершенно разный, есть некоторые сходства в их взаимном расположении:
- Во-первых, гены нигде не перекрываются.
- Во-вторых, гены и в нашем фрагменте и в геноме E.coli сохраняют своё направление.
- В-третьих, гены mdoC и mdoG сохраняют своё взаимное расположение, причем расстояние между ними слишком мало, чтобы
там мог поместиться ещё один ген (315 и 394). Да и функционально они тесно связаны: mdoC кодирует мембранный белок, необходимый для модификации периплазматического
глюкана, а mdoG кодирует белок, который этот глюкан синтезирует. Остальные белки функционально напрямую не связаны (транспортный, регуляторный, мембранный белки).
Отсюда можно сделать вывод, что открытые рамки считывания AALF01000001_6 и AALF01000001_8 соответствуют генам Yersinia intermedia,
которые кодируют белки, гомологичные OPGG_ECOLI и OPGC_ECOLI соответственно(это также подтверждается низкими E-value<e100).
- Так же особого внимания заслуживает рамка AALF01000001_11 в виду большого числа сходных последовательностей.
- Помимо этого рамка AALF01000001_10 обладает максимальной схожестью с геном cvrA(E-value=0.0) вплоть до длины, что тоже говорит о её высоком потенциале
быть геном, родственным с cvrA.
|
|