1) Фрагмент генома 14001-21001 вырезан программой seqret из записи embl AAGY02000002 в файл Stpn.fasta.
Белки B.subtilis записаны в файл bacsuproteins.fasta с помощью команды seqret sw:*_BACSU, так как все ID белков этой бактерии заканчиваются на BACSU.
Создана база данных по этим белкам. Команда:

makeblastdb -in bacsuproteins.fasta -out bsp -dbtype prot

2)Трансляция открытых рамок считывания для фрагмента генома Streptococcus pneumonia получена предназначенной для этого программой getorf. Параметры «–minsize 240» - означает, что минимальная длина рамки считывания 240 нуклеотидов, «–find 1» – означает, что рамка считывания начинается со старт-кодона и заканчивается стоп-кодоном, «-table 11» – таблица генетического кода для бактерий. Команда:

 getorf –sequence Stpn.fasta –outseq Stpn_trorf.fasta –minsize 240 –find 1 -table 11

Записано в файл Stpn_trorf.fasta.

3)Поиск гомологов транслированных рамок считывания заданного фрагмента генома в базе данных по белкам B.subtilis был произведен программой blastp. Параметры: «–evalue 0.001» - значение e-value не ниже 0,001, «–outfmt 7» - вывод результатов в виде таблицы. Команда:

blastp –db bsp –evalue 0.001 –outfmt 7 –query Stpn_trorf.fasta –out results.txt

Записано в файл results.txt.
Колонка, содержащая названия, номера начальных и конечных нуклеотидов и направления предполагаемых генов S pneumonia выведены командой:
grep '^>' Stpn_trorf.fasta >> table
И импортированы в exel. Примечание: номера нуклеотидов соответствуют номерам нуклеотидов данного фрагмента.
Далее составлен скрипт, создающий колонку из количеств находок для каждой открытой рамки считывания. Файл: script.scr.
По этим данным сделана таблица и записана в файл:Stpn_orfs.xls.

4. Оставлены только рамки, для которых найдена хотя бы одна последовательность. ID найденных последовательностей и их e-value извлечены с помощью команды:

grep '…._BACSU' results.txt 


   Name       	Start	End	Sense	       homolog's ID	e-value	        length between genes  length in Bacsu
AAGY02000002_9	6969	6685	Reverse	1	RS5_BACSU	6,00E-35	-50			13     
AAGY02000002_10	6731	6489	Reverse	1	RL30_BACSU	1,00E-14	138			30     	
AAGY02000002_11	6347	5904	Reverse	1	RL15_BACSU	2,00E-57	12 			46     	
AAGY02000002_12	5888	4581	Reverse	1	SECY_BACSU	4,00E-112	147			54     	
AAGY02000002_13	4430	3792	Reverse	1	KAD_BACSU	5,00E-63	62 			1054   	
AAGY02000002_14	3726	3457	Reverse	1	IF1_BACSU	3,00E-30	158			169    	
AAGY02000002_15	3295	2933	Reverse	1	RS13_BACSU	2,00E-46	17 			20     	
AAGY02000002_16	2912	2532	Reverse	1	RS11_BACSU	3,00E-54	42 			176    	
AAGY02000002_17	2486	1554	Reverse	1	RPOA_BACSU	3,00E-109	-4 			77     	
AAGY02000002_18	1554	1156	Reverse	1	RL17_BACSU	2,00E-48	   			



5. Гипотетические гены во фрагменте 14001–21001 записи AAGY02000002. Схематическое изображение.

3'---------[<= RL17_BACSU , 1156 -1554][<= RPOA_BACSU, 1554-2486]---[<= RS11_BACSU , 2532-2912]---[<= RS13_BACSU, 2933-3295]-----------[<= IF1_BACSU, 3457-3726]---[<= KAD_BACSU, 3792 -4430]------[<= SECY_BACSU , 4581 -5888]---[<= RL15_BACSU, 5904 -6347]-----[<= RL30_BACSU , 6489 -6731]-----[<= RS5_BACSU, 6685 -6969]--5'

5'-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'

Значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, потом указано краткое название самого сходного белка B. subtilis, потом координаты границ открытой рамки во фрагменте.
Расположение генов в геноме B. subtilis:

3'-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5'

5'--------------[ RS5_BACSU , 143361 - 143861=>]------[RL30_BACSU, 143875 - 144054=>]-----------[RL15_BACSU, 144085 - 144480=>]----[SECY_BACSU ,144527 - 145822=>]----[KAD_BACSU,  145877 - 146530=>]----------[ IF1_BACSU, 147585 - 147803=>]-------[ RS13_BACSU , 147973 - 148338=>]----[RS11_BACSU, 148359 - 148754=>]------[ RPOA_BACSU , 148931 - 149875=>]---------[ RL17_BACSU, 149953 - 150315=>]------------------------3'
Положение генов консервативно. Гипотетические гены Streptococcus pneumonia расположены в той же последовательности, как у Bacillus subtilis. В геноме S.pneumonia 17 и 18 ORF пересекаются на 1 п.о. . А 9 и 10 ORF пересекаются на 47 п.о. . Это значит, что у каждой пары рамок один промотор. В геноме B.Subtilis нет пересечений.