Самостоятельная работа по предсказанию генов



Командой seqret sw:*_BACSU получим полный протеом Bacillus subtilis.

Получим запись EMBL:


$ entret embl:AEWH01000012 -auto

Вырежем нужный фрагмент


$ seqret-sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): aewh01000012.entret
     Begin at position [start]: 98001
       End at position [end]: 105000
        Reverse strand [N]: 
output sequence(s) [aewh01000012.fasta]: 

Извлечем трансляции всех открытых рамок считывания нужной длины:


$ getorf aewh01000012.fasta -minsize 240 -find 1 -table 11 getorf_out.fasta

Файл с выводом getorf - getorf_out.fasta.

Нашлось всего 10 открытых рамок. Получим нужную информацию скриптами:


$ grep -E '\[[0-9]* - [0-9]*\]' getorf_out.fasta -o > beg_end.txt

- о начале и конце каждой рамки (соответственно, если координаты конца меньше координат начала - направление обратное; у первых пяти последовательностей направление прямое, у оставшихся - обратное).

Найдем сходные последовательности программой blastn:


$ makeblastdb -in proteom.fasta -out pr -dbtype protg
$ blastp -query getorf_out.fasta -db pr -evalue 0.001 -out blastp.out -outfmt 6

Были выбраны эти команды, так как мы ищем именно гомологи белковых последовательностей.

Далее можно было использовать скрипт из последнего домашнего задания (while read l; do grep $l -c trna_gt_nucl.out >> list2.txt; done < list.txt, где list - список имен последовательностей), но можно и сразу увидеть количество найденных гомологов. Они были найдены только для трех из десяти найденных открытых рамок, видимо, другие не имеют биологического смысла. Результаты представлены в файле gomol.ods.

Таблица результатов для рамок с найденными гомологами:


Название Начало Конец Напр-е Находок Белок E-value
AEWH01000012_2 1799 2494 прямое 8 DESR_BACSU 1e-06
AEWH01000012_6 6990 6304 обратное 1 YVPB_BACSU 7e-18
AEWH01000012_9 4067 2601 обратное 4 YGAK_BACSU 3e-27

Хотя для второй последовательности гомологов было найдено больше всего, эти гомологи меньше всего похожи на нее по сравнению с результатами для других открытых рамок.

Расположение найденных генов в геноме Ornithinibacillus scapharcae:


5'-[DESR, 1799-2494]------------------------------------------3'

3'----------------------[YGAK, 2601-4067]--[YVPB, 6304-6990]--5'

Перекрываний генов нет; как видно, между ними есть большие промежутки (гены < 240 нуклеотидов, некодирующие последовательности, последовательности, гомологичных которым нет в протеоме Bacillus subtilis?).

Расположение найденных гомологичных генов в геноме Bacillus subtilis (AL009126):


5'------------------------[DESR, 2091705-2092304]--[YVPB, 3589611-2590363]-3'
3'-[YGAK, 957705-959060]---------------------------------------------------5'

Гены снова не пересекаются, никакой консервативности в их расположении нет. Можно сделать вывод, что все эти гены не связаны друг с другом и видоизменялись независимо. Никаких аномалий в их расположений не видно.

С геном desR в этой (и других, как выяснилось) записях генома сенной палочки наблюдается что-то странное. Данные из полей FT для двух генов (desR и desK):


/gene="desR" 
/product="two-component response regulator [DesK]"

/gene="desK"
/product="two-component sensor histidine kinase [DesR]"

Ясно, что белки, которые кодируют эти гены, работают вместе и что гены связаны друг с другом, но все же, почему desR кодирует белок DesK, в desK - DesR? К тому же, эти названия не совпадают с их "расшифровками". Если поменять местами названия, написанные в квадратных скобках, то все будет замечательно. В общем, непонятно, ошибка ли это или такая запись несет в себе высший смысл.