Занятие 5 (зачетное). Что кодирует фрагмент нуклеотидной последовательности?

Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia 63001..70000. Дан также протеом E.coli.

Задача: определить, кодирует ли заданный фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Вариант 2

Получим заданный фрагмент генома Yersinia intermedia длины 7000 нуклеотидов.

 seqret AALF01000002.embl -sask
 ...
Извлечем из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с помощью программы getorf из пакета EMBOSS.
 getorf -opt
... 
При этом используем стандартный для бактерий (bacterial) генетический код, открытой рамкой считать последовательность, начинающуюся со старт-кодона и
заканчивающуюся стоп-кодоном.
Получим и отформатируем для работы с пакетом программ BLAST белковую базу данных E.coli:
seqret sw:*_ECOLI Allecoli
formatdb -i Allecoli -p t -n Eco 
Теперь запускаем blastp по полученной БД для каждой из вырезанных открытых рамок (нас интересуют находки с E-value<0.001). Для удобства применим скрипт:
      seqret aalf01000002.orf:AALF01000002_1 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' > hits2   
      seqret aalf01000002.orf:AALF01000002_2 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_3 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_4 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_5 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_6 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_7 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_8 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_9 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2  
      seqret aalf01000002.orf:AALF01000002_10 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 
      seqret aalf01000002.orf:AALF01000002_11 stdout | blastall -p blastp -e 0.001 -d Eco | grep 'better than' >> hits2 

 
Поиск гомологов по белковой базе данных можно вести двумя программами - blastx и blastp (чтобы использовать blastx программой getorf нужно вырезать
нуклеотидные последовательности, а не их трансляции). Однако программой blastx проба транслируется в шести рамках (в нашем случае старт
кодон уже известен), поэтому появляются "лишние находки". Вот результаты поиска blastx (на ввод - нуклеотидная посл-ть, ищет по белкам):
     Number of sequences better than 1.0e-03: 2     
     Number of sequences better than 1.0e-03: 31   
     Number of sequences better than 1.0e-03: 1    
     Number of sequences better than 1.0e-03: 0    
     Number of sequences better than 1.0e-03: 9    
     Number of sequences better than 1.0e-03: 1    
     Number of sequences better than 1.0e-03: 2    
     Number of sequences better than 1.0e-03: 1    
     Number of sequences better than 1.0e-03: 7    
     Number of sequences better than 1.0e-03: 84   
     Number of sequences better than 1.0e-03: 10   
А вот результаты поиска blastp (на ввод - белок, ищет по белкам ):
 Number of sequences better than 1.0e-03: 0   
 Number of sequences better than 1.0e-03: 0   
 Number of sequences better than 1.0e-03: 0    
 Number of sequences better than 1.0e-03: 0   
 Number of sequences better than 1.0e-03: 9   
 Number of sequences better than 1.0e-03: 0   
 Number of sequences better than 1.0e-03: 2   
 Number of sequences better than 1.0e-03: 1   
 Number of sequences better than 1.0e-03: 8   
 Number of sequences better than 1.0e-03: 84  
 Number of sequences better than 1.0e-03: 10
ИТАК:

Гипотетические гены во фрагменте 63001-70000

3'--[<=ген mglC, 2-817]--[<=ген mglA, 837-2318]--[<=ген mglB, 2532-3452]--[<=ген ydjR, 4014-4655]--[<=ген ssnA, 4586-5959]-----------------5'

5'----------------------------------------------------------------------------------------------------------------[=>ген frlR, 6073-6867]--3' 

где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, "xxxX" - название самого сходного гена у E. coli, рядом указаны
координаты границ открытой рамки в данном фрагменте.

Для сравнения те же гены в E.coli (указана только комплементарная цепь, запись EMBL:AP009048):

                                                                                                                                                                     
3'-[<=ген ydjR, 1826076-1826651]-[<=ген mglC, 2240077-2241087]-[<=ген mglA, 2241103-2242623]-
-[<=ген mglB, 2242684-2243682]-[<=ген ssnA, 3017817-3019145]-[<=ген frlR, 4135633-4136364]--5' 

Назад

На главную

© Поздышев Д.