Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia 63001..70000. Дан также протеом E.coli.
Задача: определить, кодирует ли заданный фрагмент что-либо, похожее на какой-либо белок из прототипного организма.
Получим заданный фрагмент генома Yersinia intermedia длины 7000 нуклеотидов.
seqret AALF01000002.embl -sask ...Извлечем из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с помощью программы getorf из пакета EMBOSS.
getorf -opt ...При этом используем стандартный для бактерий (bacterial) генетический код, открытой рамкой считать последовательность, начинающуюся со старт-кодона и
seqret sw:*_ECOLI Allecoli formatdb -i Allecoli -p t -n EcoТеперь запускаем blastp по полученной БД для каждой из вырезанных открытых рамок (нас интересуют находки с E-value<0.001). Для удобства применим скрипт:
seqret aalf01000002.orf:AALF01000002_1 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' > hits2 seqret aalf01000002.orf:AALF01000002_2 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_3 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_4 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_5 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_6 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_7 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_8 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_9 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_10 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 seqret aalf01000002.orf:AALF01000002_11 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2Поиск гомологов по белковой базе данных можно вести двумя программами - blastx и blastp (чтобы использовать blastx программой getorf нужно вырезать
Number of sequences better than 1.0e-03: 2 Number of sequences better than 1.0e-03: 31 Number of sequences better than 1.0e-03: 1 Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 9 Number of sequences better than 1.0e-03: 1 Number of sequences better than 1.0e-03: 2 Number of sequences better than 1.0e-03: 1 Number of sequences better than 1.0e-03: 7 Number of sequences better than 1.0e-03: 84 Number of sequences better than 1.0e-03: 10А вот результаты поиска blastp (на ввод - белок, ищет по белкам ):
Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 9 Number of sequences better than 1.0e-03: 0 Number of sequences better than 1.0e-03: 2 Number of sequences better than 1.0e-03: 1 Number of sequences better than 1.0e-03: 8 Number of sequences better than 1.0e-03: 84 Number of sequences better than 1.0e-03: 10ИТАК:
Гипотетические гены во фрагменте 63001-70000
3'--[<=ген mglC, 2-817]--[<=ген mglA, 837-2318]--[<=ген mglB, 2532-3452]--[<=ген ydjR, 4014-4655]--[<=ген ssnA, 4586-5959]-----------------5' 5'----------------------------------------------------------------------------------------------------------------[=>ген frlR, 6073-6867]--3'
где значки => и
<= обозначают прямую или комплементарную цепь ДНК соответственно,
"xxxX" - название самого сходного гена у E. coli,
рядом указаны
координаты границ открытой рамки в данном фрагменте.
Для сравнения те же гены в E.coli (указана только комплементарная цепь, запись EMBL:AP009048):
3'-[<=ген ydjR, 1826076-1826651]-[<=ген mglC, 2240077-2241087]-[<=ген mglA, 2241103-2242623]- -[<=ген mglB, 2242684-2243682]-[<=ген ssnA, 3017817-3019145]-[<=ген frlR, 4135633-4136364]--5'
© Поздышев Д.