Командой seqret sw:*_BACSU получим полный протеом Bacillus subtilis.
Получим запись EMBL:
$ entret embl:AEWH01000012 -auto
Вырежем нужный фрагмент
$ seqret-sask Reads and writes (returns) sequences Input (gapped) sequence(s): aewh01000012.entret Begin at position [start]: 98001 End at position [end]: 105000 Reverse strand [N]: output sequence(s) [aewh01000012.fasta]:
Извлечем трансляции всех открытых рамок считывания нужной длины:
$ getorf aewh01000012.fasta -minsize 240 -find 1 -table 11 getorf_out.fasta
Файл с выводом getorf - getorf_out.fasta.
Нашлось всего 10 открытых рамок. Получим нужную информацию скриптами:
$ grep -E '\[[0-9]* - [0-9]*\]' getorf_out.fasta -o > beg_end.txt
- о начале и конце каждой рамки (соответственно, если координаты конца меньше координат начала - направление обратное; у первых пяти последовательностей направление прямое, у оставшихся - обратное).
Найдем сходные последовательности программой blastn:
$ makeblastdb -in proteom.fasta -out pr -dbtype protg $ blastp -query getorf_out.fasta -db pr -evalue 0.001 -out blastp.out -outfmt 6
Были выбраны эти команды, так как мы ищем именно гомологи белковых последовательностей.
Далее можно было использовать скрипт из последнего домашнего задания (while read l; do grep $l -c trna_gt_nucl.out >> list2.txt; done < list.txt, где list - список имен последовательностей), но можно и сразу увидеть количество найденных гомологов. Они были найдены только для трех из десяти найденных открытых рамок, видимо, другие не имеют биологического смысла. Результаты представлены в файле gomol.ods.
Таблица результатов для рамок с найденными гомологами:
Название | Начало | Конец | Напр-е | Находок | Белок | E-value |
---|---|---|---|---|---|---|
AEWH01000012_2 | 1799 | 2494 | прямое | 8 | DESR_BACSU | 1e-06 |
AEWH01000012_6 | 6990 | 6304 | обратное | 1 | YVPB_BACSU | 7e-18 |
AEWH01000012_9 | 4067 | 2601 | обратное | 4 | YGAK_BACSU | 3e-27 |
Хотя для второй последовательности гомологов было найдено больше всего, эти гомологи меньше всего похожи на нее по сравнению с результатами для других открытых рамок.
Расположение найденных генов в геноме Ornithinibacillus scapharcae:
5'-[DESR, 1799-2494]------------------------------------------3' 3'----------------------[YGAK, 2601-4067]--[YVPB, 6304-6990]--5'
Перекрываний генов нет; как видно, между ними есть большие промежутки (гены < 240 нуклеотидов, некодирующие последовательности, последовательности, гомологичных которым нет в протеоме Bacillus subtilis?).
Расположение найденных гомологичных генов в геноме Bacillus subtilis (AL009126):5'------------------------[DESR, 2091705-2092304]--[YVPB, 3589611-2590363]-3' 3'-[YGAK, 957705-959060]---------------------------------------------------5'
Гены снова не пересекаются, никакой консервативности в их расположении нет. Можно сделать вывод, что все эти гены не связаны друг с другом и видоизменялись независимо. Никаких аномалий в их расположений не видно.
С геном desR в этой (и других, как выяснилось) записях генома сенной палочки наблюдается что-то странное. Данные из полей FT для двух генов (desR и desK):
/gene="desR" /product="two-component response regulator [DesK]" /gene="desK" /product="two-component sensor histidine kinase [DesR]"
Ясно, что белки, которые кодируют эти гены, работают вместе и что гены связаны друг с другом, но все же, почему desR кодирует белок DesK, в desK - DesR? К тому же, эти названия не совпадают с их "расшифровками". Если поменять местами названия, написанные в квадратных скобках, то все будет замечательно. В общем, непонятно, ошибка ли это или такая запись несет в себе высший смысл.