Отчет по зачетному заданию

Подготовка к поиску
С помощью программы getorf я получила трансляции всех возможных открытых рамок считывания в своем фрагменте генома Klebsiella pneumoniae (4042583 - 40492583): Я получила 13 аминокислотных последовательностей. Банком для поиска послужил полный протеом кишечной палочки (все белки E. coli были получены программой seqret).
Обоснование выбора программы и типа данных для поиска
Я проводила поиск схожих последовательностей с помощью программы BLASTP. Так как в качестве пробных последовательностей выступали трансляции всех открытых рамок считывания, т.е. белковые последовательности, то выбор был из 2-х программ: BLASTP и TBLASTN. В принципе разница между ними только в том, что BLASTP ищет в белковом банке, а TBLASTN - в банке нуклеиновых кислот, транслируя их. Я выбрала BLASTP потому, что при транслировании полного генома получается больший банк, чем полный протеом ( ведь в ДНК есть участки, не кодирующие белки). Таким образом, получается, что при транслировании приходимтся искать в заведомо не белковых последовательностях (трансляты не кодирующих областей), т.е. повышается вероятность найти не то, что ищешь. Таким образом, BLASTP находит меньше бессмысленных фрагментов для выравнивания.
Для поиска и определения количества находок был создан следующий скрипт:
seqret kpnorf.fasta:KPN2Jun2003_1 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_2 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_3 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_4 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_5 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_6 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_7 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_8 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_9 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_10 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_11 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_12 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"
seqret kpnorf.fasta:KPN2Jun2003_13 stdout | blastall -p blastp -d ecp -e 0.001 | grep -c ">"

В итоге работы скрипта и программы getorf были получены результаты, которые представлены в этой таблице.
    
Имя находки Начало и конец рамки Направление
(                                -прямое,
(REVERSE SENSE) -обратное)
Число сходных последовательностей у E.coli при E-value< 0.001
1:>KPN2Jun2003_1 [58 - 378]   0
4:>KPN2Jun2003_2 [385 - 1164]  0
10:>KPN2Jun2003_3 [1990 - 3033]   1
17:>KPN2Jun2003_4 [3844 - 4152]   0
20:>KPN2Jun2003_5 [4555 - 4827]   0
23:>KPN2Jun2003_6 [4242 - 5546]   0
32:>KPN2Jun2003_7 [6367 - 5657] (REVERSE SENSE) 1
37:>KPN2Jun2003_8 [5654 - 3945] (REVERSE SENSE) 1
48:>KPN2Jun2003_9 [3843 - 3112] (REVERSE SENSE) 2
54:>KPN2Jun2003_10 [2460 - 2161] (REVERSE SENSE) 0
57:>KPN2Jun2003_11 [1508 - 1260] (REVERSE SENSE) 0
60:>KPN2Jun2003_12 [1182 - 340] (REVERSE SENSE) 1
66:>KPN2Jun2003_13 [327 - 1] (REVERSE SENSE) 1

Взаимное расположение предполагаемых генов
Гипотетические гены во фрагменте 1-7000:

3'[<= cysD 1-327]---[<= cysG 340-1182]------------------------------[<= cysH 3112-3843]--[<= cysI 3945-5654]-[<= cysJ 5657-6367]--------------5'

5'-------------------------------------------[=> iap 1990-3033]-------------------------------------------------------------------------------3' 


Так как этот участок начинался с 4042583 остатка, то на самом деле гены располагаются так:
3'[<= cysD 4042583-4042910]---[<= cysG 4042923-4043765]------------------------------[<= cysH 4045695-4046426]--[<= cysI 4046528-4048237]-[<= cysJ 4048240-4048950]--------------5'

5'----------------------------------------------------------[=> iap 4044573-4045616]---------------------------------------------------------------------------------------------3' 

Проблем с определением соответствующего гена E.coli у меня не возникло, т.к. почти для каждой рамки была только одна находка (если они вообще были). 2 находки были только у 9-ой рамки: cysH и cysD. Но cysD был единственной находкой у 13 рамки, и поэтому для 9-ой я выбрала cysH. Сами имена генов я получила в SRS после того, как выяснила, с какими белками выровнялись мои рамки считывания. Эти выравнивания я получила с помощью слегка модифицированного скрипта:

seqret kpnorf.fasta:KPN2Jun2003_3 stdout | blastall -p blastp -d ecp -e 0.001 -o res3.txt
seqret kpnorf.fasta:KPN2Jun2003_7 stdout | blastall -p blastp -d ecp -e 0.001  -o res7.txt
seqret kpnorf.fasta:KPN2Jun2003_8 stdout | blastall -p blastp -d ecp -e 0.001  -o res8.txt
seqret kpnorf.fasta:KPN2Jun2003_9 stdout | blastall -p blastp -d ecp -e 0.001   -o res9.txt
seqret kpnorf.fasta:KPN2Jun2003_12 stdout | blastall -p blastp -d ecp -e 0.001  -o res12.txt
seqret kpnorf.fasta:KPN2Jun2003_13 stdout | blastall -p blastp -d ecp -e 0.001   -o res13.txt


Сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов E. coli.
Эти гены у E.coli располагаются так
3'[<= cysD 2873443-2874351]-----------------------------------[<= cysH 2885600-2886334]--[<= cysI 2886409-2888121][<= cysJ 2888121-2889920]-------------------------------------5'

5'-------------------------------[=> iap 2874603-2875640]-------------------------------------------------------------------------------------[=> cysG 3495850-3497223]---------3' 

Почти во всем эти расположения генов совпадают. Гены cysH, cysI и cysJ находятся очень рядом на комплементарной цепи ( причем у E. coli они входят в состав одного оперона). Относительно этих трех генов удобно сравнивать положение остальных: гены iap и cysD расположены одинаково у E. coli и Klebsiella pneumoniae. Отличие только в расположении гена cysG. У кишечной палочки он располагается очень далеко от всех остальных и на прямой цепи, а у Klebsiella pneumoniae он находится на комплементарной цепи и между iap и cysD. Я думаю, что эту рамку считывания нельзя считать геном cysG, т.к. процент идентичности выравнивания всего 50%, тогда как у всех остальных - от 74% до 98%. У E. coli на этом месте (т.е. между iap и cysD на комплементарной цепи) нет никаких генов, поэтому и у Klebsiella pneumoniae может не быть никакого гена на этом месте или может быть другой ген (что менее вероятно).
На страницу 3-го семестра

© Моросанова Мария